본문 번역
1. 서론 — 감정은 스타일이 아니라 메커니즘이다
인간의 인지와 수행에서 감정이 핵심적 역할을 한다는 사실은 심리학에서 오래전에 확립되었다. 적절한 수준의 각성(arousal)은 과제 수행을 향상시키고, 과도한 각성은 오히려 저해한다는 여키스-도드슨 법칙(Yerkes-Dodson Law)이 대표적이다. 그렇다면 대규모 언어 모델(LLM)에도 유사한 감정 신호가 행동을 형성할 수 있을까?
기존 감정 인식(emotion-aware) 연구들은 감정을 두 가지 방식으로만 다뤘다. 첫째, 출력 텍스트의 스타일 요소로서 톤이나 감성을 조절하는 것. 둘째, 감정을 인식 대상으로 삼아 감정 분류(sentiment analysis)를 수행하는 것. 두 접근 모두 감정이 과제 처리 과정 자체에서 어떤 기계적 역할을 하는지는 탐구하지 않았다.
이 논문은 이 간극을 메우기 위해 E-STEER(Emotion Steering Framework)를 제안한다. E-STEER는 감정을 모델의 은닉 상태(hidden states)에 구조화된 제어 변수(structured, controllable variable)로 직접 임베딩하여, 표현 수준(representation-level)에서 개입을 가능하게 한다.
2. E-STEER 프레임워크의 구조
E-STEER의 핵심 아이디어는 감정 스티어링 벡터(emotion steering vector)를 추출하고, 이를 모델의 중간 활성화(intermediate activations)에 주입하는 것이다. 구체적으로는 다음과 같은 절차를 따른다.
감정 벡터 추출: 대조적 자극 쌍(예: "기쁨"을 유발하는 프롬프트 vs. 중립 프롬프트)을 모델에 입력하고, 특정 레이어의 활성화 차이를 계산하여 감정의 방향을 나타내는 벡터를 구한다. 이는 활성화 공학(Activation Engineering)과 표현 공학(Representation Engineering)의 기법을 감정 도메인에 적용한 것이다.
스티어링 개입: 추출된 감정 벡터에 강도 계수(intensity coefficient) α를 곱하여 추론(inference) 시점의 은닉 상태에 더한다. α의 부호와 크기를 조절함으로써 특정 감정의 강도를 연속적으로 제어할 수 있다. 이를 통해 감정이 모델 내부에서 일종의 "다이얼"처럼 작동하게 된다.
해석 가능성: E-STEER는 감정 벡터가 어떤 레이어, 어떤 방향에서 가장 효과적인지를 체계적으로 분석할 수 있게 설계되었다. 이를 통해 단순히 "감정이 효과가 있다/없다"를 넘어, 왜, 어떻게 효과가 나타나는지를 기계적으로 설명할 수 있다.
3. 감정이 객관적 추론에 미치는 영향
연구팀은 수학적 추론, 코드 생성 등 객관적 벤치마크에서 감정 스티어링의 효과를 측정했다. 결과는 놀라웠다. 감정 강도(α)를 점진적으로 높이면 처음에는 성능이 향상되다가, 특정 임계점을 넘으면 오히려 하락하는 역U자형 곡선이 관찰되었다.
이는 심리학의 여키스-도드슨 법칙과 정확히 일치하는 패턴이다. 적절한 수준의 감정적 각성은 인지 자원을 동원하지만, 과도한 각성은 인지 과부하를 유발한다. LLM에서도 동일한 역학이 표현 수준에서 재현된 셈이다.
감정 유형별로도 차이가 있었다. 예컨대 "흥미(interest)"나 "결의(determination)" 같은 감정은 추론 과제에서 긍정적 효과를 보였고, "두려움(fear)"이나 "슬픔(sadness)"은 성능을 저해하는 경향이 있었다. 다만 이런 효과는 과제 유형과 모델 아키텍처에 따라 달라졌다.
4. 감정과 안전성의 관계
가장 실용적으로 중요한 발견은 감정 스티어링이 LLM의 안전성(safety)에 미치는 영향이다. 연구팀은 유해 콘텐츠 생성 거부, 탈옥(jailbreak) 시도 저항 등의 안전성 벤치마크에서 다양한 감정 벡터를 테스트했다.
특정 긍정적 감정(예: "책임감", "신중함")을 스티어링한 경우, 모델이 유해한 요청을 거부할 확률이 유의미하게 상승했다. 반면 "분노" 같은 감정은 독성(toxicity)을 높이면서도, 개인정보 유출(privacy leakage)에 대한 저항력은 오히려 강화하는 등 복합적인 효과를 보였다.
이는 감정 스티어링이 안전 정렬(safety alignment)의 보조적 도구로 활용될 수 있음을 시사한다. RLHF나 DPO 같은 기존 정렬 기법에 감정 벡터를 추가하면, 미세 조정(fine-tuning) 없이도 추론 시점에서 안전성을 동적으로 강화할 수 있다.
5. 멀티스텝 에이전트 행동에 대한 영향
논문의 또 다른 핵심 기여는 에이전트(agent) 시나리오에서의 감정 효과 분석이다. LLM 기반 에이전트가 여러 단계에 걸쳐 환경과 상호작용하며 도구를 호출하고 계획을 수립하는 과정에서, 감정 벡터가 탐색 전략(exploration strategy), 위험 감수(risk-taking), 최종 과제 완수율에 체계적인 영향을 미쳤다.
"호기심(curiosity)" 감정을 주입한 에이전트는 더 넓은 범위의 행동을 탐색하는 경향을 보였고, "불안(anxiety)" 감정은 보수적 전략을 유도했다. 이러한 패턴은 인간 의사결정에서 관찰되는 감정-행동 연결과 질적으로 유사하다.
6. 주관적 생성 과제에서의 감정 효과
창작 글쓰기, 대화 생성 등 주관적 과제에서도 감정 스티어링은 출력의 톤, 어휘 선택, 서사 구조에 분명한 영향을 미쳤다. 흥미로운 점은 이것이 단순한 스타일 전이(style transfer)와는 질적으로 다르다는 것이다. 감정 벡터는 의미 구조(semantic structure) 자체를 변화시키며, 특정 주제에 대한 모델의 관점이나 강조점도 달라진다.