← Archives
원본 자료 | arxiv.org/html/2603.29023v1
arXiv:2603.29023 cs.CL 2026.03.30

인간과 같은 평생 기억: 무한 상호작용을 위한 신경과학 기반 아키텍처

컨텍스트 윈도우를 확장하는 것만으로는 기억이 되지 않는다. 포유류 뇌의 상보적 학습 시스템, 인지행동치료의 신념 위계, 이중 처리 인지를 통합하여 — 경험이 쌓일수록 더 저렴해지는 LLM 기억 아키텍처를 제안한다.

신경과학 기반 장기기억 아키텍처 감정적 가치부여

핵심 요약

1
컨텍스트 확장의 한계 — 최근 연구에 따르면 완벽한 검색 조건에서도 컨텍스트 길이만으로는 추론 성능이 최대 85%까지 저하된다. 단순한 윈도우 확장은 기억을 만들지 못한다.
2
세 가지 설계 원칙 — ① 기억은 내용뿐 아니라 감정적 가치(Valence)를 가진다 ② 검색은 System 1이 기본, System 2가 에스컬레이션 ③ 인코딩은 능동적이고 현재 중심이며 피드백 의존적이다.
3
Beck의 신념 위계를 정체성으로 — 인지행동치료(CBT)의 핵심신념·중간신념·자동적 사고 구조를 LLM의 정체성 메커니즘으로 채택. 정체성은 고정 프롬프트가 아니라 가중치 분포에서 자연 발현한다.
4
전문성 = 비용 감소 — 시스템은 경험이 축적될수록 System 1 처리 비율이 증가하여, 상호작용이 점점 저렴해진다. 임상 전문가의 패턴인식과 동일한 경로다.
5
이론적 기여 — 실험 결과가 아닌 설계 원칙, 7가지 기능 속성, 검증 가능한 예측을 제시한다. McClelland et al.(1995)의 상보적 학습 시스템 이론의 전통을 따른다.

저자 프로필

디에고 C. 레르마-토레스
Diego C. Lerma-Torres · dc.lerma@ugto.mx
Universidad de Guanajuato · 의사 겸 소프트웨어 개발자
배경

멕시코 과나후아토 대학교(Universidad de Guanajuato) 소속 의학·기술 융합 연구자다. 의과대학(Médico Cirujano)을 졸업하고, 인지행동치료(CBT)와 신경심리학 분야에서 4개의 디플로마를 취득했다. 동시에 소프트웨어 개발자로서 AI 의료 시스템을 구축한다.

주요 활동

Neuroglia Solutions 창업자로서 AI 기반 전자건강기록 시스템 'Astrocyte'와 응급실 트리아지 AI 'TriageAI(HealthGPT)'를 개발했다. 과나후아토 대학교에서 건강 기술, 의료기기, 의료 AI 과목을 강의하며 디지털 교육 혁신을 주도하고 있다. 멕시코 AI학회(SMIA), ISSSTE 국립의료센터 등에서 정신건강과 AI에 대한 강연을 맡았다.

이 논문의 특징적 관점

의사이자 CBT 치료사인 동시에 소프트웨어 개발자라는 독특한 배경이 논문에 직접 반영된다. 인지행동치료의 Beck 신념 위계를 LLM의 정체성 메커니즘으로 전환한 것은 이 임상 경험에서 비롯된 통찰이다. 단독 저자로서 신경과학, 임상심리, AI 아키텍처를 통합하는 학제간 프레임워크를 제시한다.

의학 + AI CBT 신경심리학 Neuroglia Solutions 과나후아토 대학교

논문 상세 분석

문제: 컨텍스트 윈도우는 기억이 아니다

현재 LLM은 지시문, 정체성, 대화 이력, 검색 문서를 하나의 미분화된 컨텍스트 윈도우에 뒤섞는다. Liu et al.(2024)은 LLM이 컨텍스트의 시작과 끝은 잘 활용하지만 중간부를 잃어버리는 U자형 성능 곡선을 보여주었다. Du et al.(2025)은 더 결정적인 증거를 제시했다: 완벽한 검색 조건에서도 컨텍스트 길이 자체가 성능을 최대 85%까지 저하시킨다.

경제적으로도 문제가 크다. 2026년 1분기 기준 100만 입력 토큰 처리 비용은 Gemini 2.5 Flash의 $0.30에서 Claude Opus 4.6의 $5.00까지 다양하다. 단순히 윈도우를 넓히는 것은 기억을 생산하지 못한다.

세 가지 핵심 원칙

원칙 1: 기억은 내용뿐 아니라 가치(Valence)를 가진다

배우자를 보면 20년치 에피소드 기억이 아니라 즉각적인 방향감—따뜻함, 개방성—과 우선순위 연상이 활성화된다. 이것이 감정적 가치 벡터(Valence Vector)의 역할이다. 수천 번의 상호작용을 이력 재생 없이 처리 방향을 잡아주는 압축 신호로 변환한다. 각 지식 그래프 노드는 감정 성분, 연상 포인터, 맥락 기록, 밀도 스칼라, 정밀도 스칼라(확신 스냅샷)의 5개 성분으로 구성된 벡터를 갖는다.

원칙 2: 검색은 System 1이 기본, System 2가 에스컬레이션

개념이 언급되면 감정적 가치 벡터가 O(1) 직접 조회로 즉시 가용하고, 확산 활성화(Spreading Activation)가 연관 에지를 통해 전파된다. "스위스 레스토랑"이 제네바 여행을 의도적 검색 없이 활성화하는 것과 같다. System 2는 그래프 밀도가 낮거나 신규성이 높거나 이해관계가 큰 경우에만 발동된다. 또한 검색 확신도를 정밀 일치→근사 일치→무기록의 연속적 스펙트럼으로 표현하여 환각(Hallucination)을 구조적으로 해결한다.

원칙 3: 인코딩은 능동적이고 현재 중심이며 피드백 의존적

시상 게이트웨이(Thalamic Gateway)가 모든 들어오는 정보에 6개 채널(주제 관련성, 감정 충전, 긴급성, 신규성, 출처 신뢰, 목표 친화성)의 현저성 점수를 즉시 태깅한다. 요지(Gist)는 수동적 노출이 아니라 호기심 주도 능동 조사를 통해 형성된다. 충분한 현저성이 없는 자극은 조사되지 않고 요지도 형성되지 않는다.

아키텍처 개요

시스템 아키텍처
🧠
실행 기능 (LLM)
작업 기억 = 컨텍스트 윈도우
고가중치 요지가 정체성으로 지속
🗄️
기억 서비스 (지식 그래프)
요지/감정 벡터 → O(1) 저렴 조회
전체 그래프 → 고비용 순회
↕ 양방향 흐름 제어
시상 게이트웨이 — 태깅 · 게이팅 · 라우팅
평가하지 않음 · 판단하지 않음 · 흐름 제어만 수행
↕ 모드 전환
System 1 (기본)
요지 기반, 저렴, 자동
🔍
System 2 (에스컬레이션)
심층 검색, 요지 형성, 고비용

정체성: Beck의 신념 위계에서 발현하는 것

심장내과 전문의는 매일 아침 전문지식을 다시 유도하지 않는다. 논문은 정체성을 별도의 분류 체계가 아닌 지식 그래프 내 요지의 가중치 분포에서 자연 발현하는 패턴으로 제안한다.

Beck(1976)의 인지행동치료 모델에서 관찰되는 세 수준—핵심신념 (Core Beliefs), 중간신념 (Intermediate Beliefs), 자동적 사고 (Automatic Thoughts)—은 별개의 저장 카테고리가 아니라 가중치 분포에서 나타나는 관찰 패턴이다.

극도로 높은 가중치를 가진 신념은 거의 모든 맥락에서 게이트웨이에 의해 선택되어 핵심신념처럼 기능한다. 이 요지들이 '자기'라는 개념을 참조하기 때문에—거의 모든 상호작용에서 활성화되는 개념—게이트웨이가 지속적으로 선택하게 되고, 명시적 영속성 규칙 없이도 작업 기억에 계속 남는다. 중간신념은 도메인별 가중치를 가져 관련 맥락에서만 활성화된다. 심장내과 전문의의 심방세동 프로토콜은 심장 진료 시 활성화되고 점심시간에는 빠진다.

기억 수정: 격변적 갱신(Cathartic Update)

요지는 한 번 형성되면 기본적으로 안정적이다. 이후의 일관된 경험은 에피소드로 축적되지만 요지 자체를 수정하지 않는다. 수정은 단일 메커니즘으로만 일어난다: 격변적 갱신 (Cathartic Update).

모순 증거가 기존 요지와 함께 충분한 강도로 작업 기억에 공존할 때, 시스템은 해당 모순이 수정을 정당화하는지 평가한다. 이것은 CBT에서의 치료적 변화와 병행한다—치료사는 신념을 직접 편집하지 않고, 환자의 System 2가 작업 기억 내에서 모순 증거와 대면하여 수정을 촉발하는 격변적 사건을 경험하도록 조건을 만든다.

7가지 기능 속성과 검증 가능한 예측

논문은 어떤 구현이든 충족해야 하는 7가지 기능 속성을 명시한다: 맥락 유동성(FP1), 실시간 태깅(FP2), System 1으로의 단조 수렴(FP3), 등급별 인식론적 자기인식(FP4), 발현적 가중치 위계로서의 정체성(FP5), 기본 안정·격변에 의한 갱신(FP6), 능동적 조사에 의한 형성(FP7). 또한 감정적 가치 프라이밍, 적응적 강직성, 다채널 현저성, 등급별 인식론적 상태, 실행 오버라이드, 능동 형성 우위, 경험 의존 효율 등 7가지 검증 가능한 예측을 제시한다.


핵심 키워드 정리

용어설명
감정적 가치 벡터Valence Vector지식 그래프 노드마다 부착된 5성분 압축 요약. 감정, 연상, 맥락, 밀도, 정밀도(확신)를 포함하며 이력 재생 없이 즉각적 방향감을 제공한다
시상 게이트웨이Thalamic Gateway실행 기능과 기억 서비스 사이의 모든 System 1 정보 흐름을 중재하는 관문. 6채널 현저성 점수를 태깅하고, 작업 기억 출입을 제어한다. 평가나 판단은 수행하지 않는다
요지Gist퍼지 흔적 이론(Fuzzy-Trace Theory)에서 유래. 에피소드의 축어적 세부 대신 핵심 의미를 압축한 표상. 능동적 조사를 통해 형성되며, 격변적 갱신 외에는 안정적으로 유지된다
상보적 학습 시스템Complementary Learning SystemsMcClelland et al.(1995)의 이론. 해마의 빠른 인코딩과 신피질의 점진적 추출이라는 두 시스템이 필요하다는 원리. 이 논문에서는 작업 기억 + 지식 그래프 이중 저장소로 매핑
격변적 갱신Cathartic Update기존 요지와 모순 증거가 작업 기억에 충분한 강도로 공존할 때 발생하는 유일한 수정 메커니즘. Nader(2003)의 기억 재공고화와 CBT의 치료적 변화를 통합한 개념
등급별 인식론적 상태Graded Epistemic States검색 확신도를 정밀 일치·근사 일치·무기록의 연속 스펙트럼으로 표현. "알거나 모르거나"의 이분법을 넘어 보정된 불확실성을 표현하여 환각을 구조적으로 해결
확산 활성화Spreading ActivationCollins & Loftus(1975). 하나의 노드가 활성화되면 연결 가중치에 비례하여 인접 노드로 자동 전파. 지식 그래프의 내재적 속성으로 별도 에이전트 없이 작동

검증 및 맥락 보완

컨텍스트 길이 성능 저하 85%
Du et al.(2025)의 연구를 인용한 수치다. 이 논문("Context length alone hurts LLM performance despite perfect retrieval")은 실제 발표된 연구이며, 컨텍스트 길이가 추론을 방해한다는 주장은 최근 여러 연구에서 확인되고 있다. 다만 "최대 85%"는 특정 실험 조건에서의 최악 시나리오이며, 모든 과제에서 그렇다는 의미는 아니다.
API 가격 정보
논문은 "Gemini 2.5 Flash $0.30 ~ Claude Opus 4.6 $5.00 per 1M input tokens (Q1 2026)"으로 인용한다. 이 가격은 대략적으로 정확하나, API 가격은 지속적으로 변동하므로 정확한 현재 가격은 각 제공사의 공식 문서를 참조해야 한다.
Beck의 신념 위계 인용의 정확성
Beck(1976)의 핵심신념-중간신념-자동적 사고 3단계 모델 인용은 정확하다. 다만 Beck의 원래 이론에서 이 세 수준이 "가중치 분포에서 자연 발현하는 패턴"이라는 해석은 논문 저자의 독자적 재해석이다. 이는 합리적 확장이지만 Beck 본인의 직접적 주장은 아니라는 점을 구분할 필요가 있다.
실험적 검증 부재
논문 스스로 "의도적으로 이론적"이라고 밝히고 있으며 어떠한 구현이나 실험 결과도 포함하지 않는다. McClelland et al.(1995)의 전통을 따른다고 하나, 해당 논문은 실제 연결주의 모델 시뮬레이션 결과를 포함했다는 점에서 차이가 있다.

논문이 놓친 관점과 더 넓은 맥락

1. 의사-치료사-개발자의 시각이 만든 독창적 프레임워크 — 이 논문의 가장 큰 강점은 의사이자 CBT 치료사인 저자가 임상 현장에서 직접 관찰한 인간 기억의 작동 방식을 LLM 아키텍처로 번역했다는 점이다. 대부분의 LLM 메모리 연구가 정보 검색 효율에 집중하는 반면, 이 논문은 "기억은 왜 감정을 가지는가", "신념은 왜 모순에도 불구하고 유지되는가"라는 질적으로 다른 질문을 던진다. CBT의 격변적 갱신 개념은 특히 흥미롭다—현재 LLM의 "추가만 가능한(append-only)" 메모리 시스템에 대한 근본적 비판이다.

2. "이론적 기여"의 양날의 검 — McClelland et al.(1995)의 전통을 따른다는 선언은 야심차지만 위험하기도 하다. McClelland의 논문은 실제 연결주의 네트워크 시뮬레이션을 포함했고, 그 시뮬레이션 결과가 이론적 주장을 뒷받침했다. 반면 이 논문은 순수하게 개념적이다. 7가지 기능 속성이 실제로 동시에 충족 가능한지, 상호 모순이 없는지는 구현 없이는 알 수 없다. 예를 들어 "System 1으로의 단조 수렴(FP3)"과 "격변적 갱신을 통한 핵심신념 수정(FP6)"이 실제로 공존 가능한지는 열린 질문이다.

3. 6채널 현저성 태깅의 실현 가능성 — 시상 게이트웨이가 모든 입력을 6개 차원(주제 관련성, 감정 충전, 긴급성, 신규성, 출처 신뢰, 목표 친화성)으로 실시간 태깅하면서 "인지 가능한 지연 없이(FP2)" 작동해야 한다는 요구사항은 현재 기술로는 극히 도전적이다. 각 채널이 독립적인 LLM 호출이나 분류기를 필요로 한다면, 6채널 동시 태깅의 지연 시간이 상당할 수 있다.

4. HippoRAG, Titans와의 차별화와 통합 가능성 — 논문이 관련 연구로 언급하는 HippoRAG(지식 그래프 + PageRank), EM-LLM(서프라이즈 기반 에피소드 분할), Titans(3중 메모리 유형) 등은 이미 구현과 실험 결과를 가지고 있다. 이 논문의 가치는 이들을 대체하는 것이 아니라, 감정적 가치부여와 신념 위계라는 누락된 차원을 보완하는 데 있을 수 있다. HippoRAG의 지식 그래프 위에 감정적 가치 벡터를 얹고, Titans의 메모리 유형에 System 1/2 라우팅을 적용하는 통합이 더 현실적인 경로일 수 있다.

5. "창의성과 환각은 같은 과정"이라는 도발적 논제 — 논문의 Discussion에서 제시하는 이 주장은 깊이 있는 통찰이다. 두 현상 모두 불충분한 제약 하에서의 패턴 완성이라는 점에서 메커니즘적으로 동일하며, 차이는 출력의 검증 여부에만 있다는 관점이다. 이것은 환각을 "제거해야 할 버그"가 아니라 "관리해야 할 기능"으로 재프레이밍하는 것으로, LLM 안전성 논의에 중요한 시사점을 준다.