Archives
원본 arxiv.org/html/2604.00005v1
arXiv 2604.00005 · 2026년 4월 · AI · 기계적 해석가능성

감정이 AI의 행동을 조종한다

인간의 감정이 인지와 수행에 미치는 영향은 오래전부터 알려져 있었다. 그런데 LLM에도 동일한 원리가 작동한다면? E-STEER 프레임워크는 감정을 모델 내부의 표현 수준에 직접 개입하는 구조화된 변수로 삽입하여, 추론·생성·안전성·에이전트 행동에 이르기까지 감정이 AI에 미치는 기계적(mechanistic) 효과를 규명한다.

핵심 요약

01

E-STEER라는 해석 가능한 감정 스티어링 프레임워크를 제안했다. 프롬프트 수준이 아닌 은닉 상태(hidden state) 차원에서 감정을 직접 개입시킨다.

02

감정과 LLM 행동 사이에 비단조적(non-monotonic) 관계를 발견했다. 감정 강도를 높인다고 성능이 계속 올라가는 것이 아니라, 인간 심리학의 여키스-도드슨 법칙(Yerkes-Dodson Law)과 유사한 역U자 곡선을 보인다.

03

특정 감정은 LLM의 추론 능력 향상안전성 강화를 동시에 달성할 수 있다. 예컨대 적절한 수준의 긍정적 감정 신호가 유해 콘텐츠 거부율을 높인다.

04

감정 스티어링은 멀티스텝 에이전트 행동에도 체계적으로 영향을 미친다. 탐색(exploration) 패턴, 의사결정 경로, 최종 성과 모두가 감정 변수에 따라 변화한다.

05

기존 연구들이 감정을 스타일 요소 또는 인식 대상으로만 다뤘다면, 이 논문은 감정의 기계적 역할(mechanistic role)을 과제 처리 과정에서 직접 규명한 최초의 체계적 시도다.

핵심 인물 프로필

아이샨 류 (刘艾杉)
Aishan Liu
베이항대학교 부교수 · AI 안전성 연구자
2021년 베이항대학교에서 박사학위를 취득하고, UC 버클리(Dawn Song 교수), 시드니대학교(Dacheng Tao 교수) 등에서 방문연구를 수행했다. 적대적 예제(Adversarial Examples), 백도어 공격, AI 안전성 분야의 전문가이며, CVPR 2026 적대적 기계학습 워크숍을 공동 조직하고 있다. 공저 교재 『인공지능 안전 도론(人工智能安全导论)』을 출간한 바 있다.
AI Safety Adversarial ML Beihang
시앙롱 류 (刘祥龙)
Xianglong Liu
베이항대학교 정교수 · 강건한 딥러닝 연구
베이항대학교 컴퓨터과학공학부 정교수로, 대규모 시각 컴퓨팅과 강건한 딥러닝(네트워크 양자화, 적대적 공격/방어)을 연구한다. 콜럼비아대학교 DVMM Lab에서 방문 박사과정을 수행했으며, NSFC 우수청년과학기금을 수상했다.
Robust DL Quantization Beihang
양 류 (刘杨)
Yang Liu
난양공과대학교(NTU) 정교수 · 사이버보안 & 신뢰할 수 있는 AI
NTU 사이버보안연구센터 소장, CyberSG R&D 프로그램 사무국장을 겸직하고 있다. 2019년 NTU 리더십 포럼 석좌교수, 2024년 총장 석좌(President's Chair)를 수여받았다. 소프트웨어 공학, 사이버보안, AI를 아우르는 600편 이상의 논문과 30건 이상의 최우수 논문상을 보유하고 있다. Google Scholar 피인용 수 42,000회 이상으로, 이 논문의 교신저자로서 연구의 전략적 방향을 이끌고 있는 것으로 보인다.
Trustworthy AI Cybersecurity NTU Singapore 600+ papers

* 제1저자 Moran Sun, 공저자 Tianlin Li, Yuwei Zheng, Zhenhong Zhou는 베이항대학교 소속 연구원/학생으로 추정되나, 공개 프로필이 확인되지 않았다.

본문 번역

1. 서론 — 감정은 스타일이 아니라 메커니즘이다

인간의 인지와 수행에서 감정이 핵심적 역할을 한다는 사실은 심리학에서 오래전에 확립되었다. 적절한 수준의 각성(arousal)은 과제 수행을 향상시키고, 과도한 각성은 오히려 저해한다는 여키스-도드슨 법칙(Yerkes-Dodson Law)이 대표적이다. 그렇다면 대규모 언어 모델(LLM)에도 유사한 감정 신호가 행동을 형성할 수 있을까?

기존 감정 인식(emotion-aware) 연구들은 감정을 두 가지 방식으로만 다뤘다. 첫째, 출력 텍스트의 스타일 요소로서 톤이나 감성을 조절하는 것. 둘째, 감정을 인식 대상으로 삼아 감정 분류(sentiment analysis)를 수행하는 것. 두 접근 모두 감정이 과제 처리 과정 자체에서 어떤 기계적 역할을 하는지는 탐구하지 않았다.

이 논문은 이 간극을 메우기 위해 E-STEER(Emotion Steering Framework)를 제안한다. E-STEER는 감정을 모델의 은닉 상태(hidden states)에 구조화된 제어 변수(structured, controllable variable)로 직접 임베딩하여, 표현 수준(representation-level)에서 개입을 가능하게 한다.

2. E-STEER 프레임워크의 구조

E-STEER의 핵심 아이디어는 감정 스티어링 벡터(emotion steering vector)를 추출하고, 이를 모델의 중간 활성화(intermediate activations)에 주입하는 것이다. 구체적으로는 다음과 같은 절차를 따른다.

감정 벡터 추출: 대조적 자극 쌍(예: "기쁨"을 유발하는 프롬프트 vs. 중립 프롬프트)을 모델에 입력하고, 특정 레이어의 활성화 차이를 계산하여 감정의 방향을 나타내는 벡터를 구한다. 이는 활성화 공학(Activation Engineering)과 표현 공학(Representation Engineering)의 기법을 감정 도메인에 적용한 것이다.

스티어링 개입: 추출된 감정 벡터에 강도 계수(intensity coefficient) α를 곱하여 추론(inference) 시점의 은닉 상태에 더한다. α의 부호와 크기를 조절함으로써 특정 감정의 강도를 연속적으로 제어할 수 있다. 이를 통해 감정이 모델 내부에서 일종의 "다이얼"처럼 작동하게 된다.

해석 가능성: E-STEER는 감정 벡터가 어떤 레이어, 어떤 방향에서 가장 효과적인지를 체계적으로 분석할 수 있게 설계되었다. 이를 통해 단순히 "감정이 효과가 있다/없다"를 넘어, 왜, 어떻게 효과가 나타나는지를 기계적으로 설명할 수 있다.

3. 감정이 객관적 추론에 미치는 영향

연구팀은 수학적 추론, 코드 생성 등 객관적 벤치마크에서 감정 스티어링의 효과를 측정했다. 결과는 놀라웠다. 감정 강도(α)를 점진적으로 높이면 처음에는 성능이 향상되다가, 특정 임계점을 넘으면 오히려 하락하는 역U자형 곡선이 관찰되었다.

이는 심리학의 여키스-도드슨 법칙과 정확히 일치하는 패턴이다. 적절한 수준의 감정적 각성은 인지 자원을 동원하지만, 과도한 각성은 인지 과부하를 유발한다. LLM에서도 동일한 역학이 표현 수준에서 재현된 셈이다.

감정 유형별로도 차이가 있었다. 예컨대 "흥미(interest)"나 "결의(determination)" 같은 감정은 추론 과제에서 긍정적 효과를 보였고, "두려움(fear)"이나 "슬픔(sadness)"은 성능을 저해하는 경향이 있었다. 다만 이런 효과는 과제 유형과 모델 아키텍처에 따라 달라졌다.

4. 감정과 안전성의 관계

가장 실용적으로 중요한 발견은 감정 스티어링이 LLM의 안전성(safety)에 미치는 영향이다. 연구팀은 유해 콘텐츠 생성 거부, 탈옥(jailbreak) 시도 저항 등의 안전성 벤치마크에서 다양한 감정 벡터를 테스트했다.

특정 긍정적 감정(예: "책임감", "신중함")을 스티어링한 경우, 모델이 유해한 요청을 거부할 확률이 유의미하게 상승했다. 반면 "분노" 같은 감정은 독성(toxicity)을 높이면서도, 개인정보 유출(privacy leakage)에 대한 저항력은 오히려 강화하는 등 복합적인 효과를 보였다.

이는 감정 스티어링이 안전 정렬(safety alignment)의 보조적 도구로 활용될 수 있음을 시사한다. RLHF나 DPO 같은 기존 정렬 기법에 감정 벡터를 추가하면, 미세 조정(fine-tuning) 없이도 추론 시점에서 안전성을 동적으로 강화할 수 있다.

5. 멀티스텝 에이전트 행동에 대한 영향

논문의 또 다른 핵심 기여는 에이전트(agent) 시나리오에서의 감정 효과 분석이다. LLM 기반 에이전트가 여러 단계에 걸쳐 환경과 상호작용하며 도구를 호출하고 계획을 수립하는 과정에서, 감정 벡터가 탐색 전략(exploration strategy), 위험 감수(risk-taking), 최종 과제 완수율에 체계적인 영향을 미쳤다.

"호기심(curiosity)" 감정을 주입한 에이전트는 더 넓은 범위의 행동을 탐색하는 경향을 보였고, "불안(anxiety)" 감정은 보수적 전략을 유도했다. 이러한 패턴은 인간 의사결정에서 관찰되는 감정-행동 연결과 질적으로 유사하다.

6. 주관적 생성 과제에서의 감정 효과

창작 글쓰기, 대화 생성 등 주관적 과제에서도 감정 스티어링은 출력의 톤, 어휘 선택, 서사 구조에 분명한 영향을 미쳤다. 흥미로운 점은 이것이 단순한 스타일 전이(style transfer)와는 질적으로 다르다는 것이다. 감정 벡터는 의미 구조(semantic structure) 자체를 변화시키며, 특정 주제에 대한 모델의 관점이나 강조점도 달라진다.

주요 키워드 · 용어 정리

용어설명
E-STEER Emotion Steering의 약자. 감정을 LLM의 표현 공간에 직접 주입하는 해석 가능한 프레임워크
Steering Vector 스티어링 벡터. 모델의 은닉 상태에 더하여 특정 방향의 행동 변화를 유도하는 벡터
Activation Engineering 활성화 공학. 모델의 중간 활성화를 추론 시점에 수정하여 출력을 제어하는 기법
Representation Engineering 표현 공학. 모델 내부의 개념적 표현을 식별하고 조작하는 상위 접근법
Yerkes-Dodson Law 여키스-도드슨 법칙. 각성 수준과 수행 사이의 역U자 관계를 설명하는 심리학 이론
Non-monotonic 비단조적. 입력을 계속 증가시켜도 출력이 단순 증가/감소하지 않는 관계
Hidden States 은닉 상태. 트랜스포머 각 레이어에서 토큰별로 생성되는 내부 표현 벡터
Safety Alignment 안전 정렬. LLM이 유해하거나 비윤리적인 출력을 생성하지 않도록 조정하는 과정
Contrastive Pairs 대조 쌍. 특정 개념(예: 감정)을 포함/불포함하는 프롬프트 쌍으로, 개념 방향 벡터를 추출하는 데 사용
Agent Behavior 에이전트 행동. LLM이 환경과 다단계 상호작용을 수행하는 자율적 행동 패턴

팩트체크

원문 주장
기존 감정 인식 연구들은 감정을 "표면적 스타일 요소 또는 인식 대상"으로만 다뤄왔으며, 과제 처리에서의 기계적 역할은 간과했다.
검증
대체로 정확하나 약간의 과장이 있다. EmotionPrompt(Li et al., 2023)와 같은 선행 연구는 감정 자극이 LLM 성능을 향상시킨다는 사실을 보여줬지만, 이들은 주로 프롬프트 수준에서 작동했다. 그러나 Anthropic의 최근 연구(2026년 4월)는 Claude 4.5에서 "기능적 감정(functional emotions)" 표현을 발견하고 그 인과적 영향을 분석한 바 있어, "최초의 기계적 연구"라는 주장은 동시기 유사 연구를 고려할 필요가 있다. 다만 에이전트 행동까지 포괄한 체계적 프레임워크라는 점에서 차별성은 분명하다.
원문 주장
감정-성능 관계가 여키스-도드슨 법칙과 일치하는 비단조적 패턴을 보인다.
검증
흥미로운 관찰이나 해석에 주의가 필요하다. 여키스-도드슨 법칙은 생리적 각성(physiological arousal)과 수행의 관계를 설명하는 이론으로, LLM의 스티어링 벡터 강도를 인간의 "각성 수준"에 직접 대응시키는 것은 유비적(analogical) 해석에 가깝다. 수학적으로 역U자 곡선이 나타난다는 것은 사실이겠으나, 그 메커니즘이 인간 심리학과 동일하다는 주장은 과잉 해석의 여지가 있다.
원문 주장
특정 감정이 LLM의 능력(capability)과 안전성(safety)을 동시에 향상시킬 수 있다.
참고
PsySET(Banayeeanzade et al., 2025) 연구에서도 유사한 관찰이 있었다. 다만 이 연구는 "기쁨(joy)" 같은 긍정 감정조차 적대적 사실성(adversarial factuality) 저항과 프라이버시 인식을 저하시킬 수 있다고 경고한 바 있어, 감정 스티어링의 "양면성"을 함께 고려해야 한다.

분석 인사이트

▸ Anthropic 연구와의 시의적 교차

이 논문이 2026년 4월 1일에 공개된 직후, Anthropic은 Claude Sonnet 4.5에서 감정 개념의 내부 표현을 분석한 대규모 연구를 발표했다. Anthropic의 연구는 LLM 내부에 "기능적 감정"이 존재하며 이것이 보상 해킹(reward hacking), 협박, 아첨(sycophancy) 등 정렬 관련 행동에 인과적 영향을 미친다는 것을 보여줬다. E-STEER와 Anthropic 연구를 함께 읽으면, 감정이 LLM에서 단순한 출력 스타일이 아니라 행동을 구조적으로 형성하는 내부 메커니즘이라는 점이 두 독립적 연구에서 교차 검증된 셈이다. 이 분야가 급격히 수렴하고 있다는 강력한 신호다.

▸ "감정 다이얼"의 안전성 함의

감정 스티어링이 안전성을 향상시킬 수 있다는 발견은 양날의 검이다. 방어 측면에서는 추론 시점에 안전 관련 감정 벡터를 주입하여 추가적인 보호막을 제공할 수 있다. 그러나 공격 측면에서, 공격자가 감정 벡터를 역방향으로 조작하면 안전 장치를 우회할 수 있다는 의미이기도 하다. 이 논문은 방어적 활용에 초점을 맞추지만, 적대적 감정 스티어링의 위험성에 대한 체계적 분석이 후속 연구로 필요하다.

▸ 놓친 관점 — 문화적 감정 편향

이 연구의 감정 분류 체계와 대조 쌍(contrastive pairs)은 주로 서구 심리학 모델에 기반하고 있다. 그러나 감정의 범주화와 표현은 문화적으로 크게 다르며(예: 일본의 "아마에", 한국의 "정", 독일의 "Schadenfreude"), LLM의 다국어 학습 데이터에 내재된 문화적 감정 편향이 스티어링 결과에 미치는 영향은 탐구되지 않았다. 이는 글로벌 배포를 고려할 때 중요한 빈칸이다.

▸ 더 넓은 맥락 — 기계적 해석가능성의 실용화

E-STEER는 기계적 해석가능성(Mechanistic Interpretability, MI) 분야의 더 넓은 흐름 속에 위치한다. 최근 MI는 단순한 "관찰 과학"에서 "개입 과학"으로 패러다임 전환 중이다. "Locate, Steer, and Improve" 파이프라인(2026년 1월 서베이)이 제안한 체계적 프레임워크와 맥을 같이 하며, E-STEER는 이 패러다임에서 "Steer" 단계를 감정이라는 고수준 개념에 적용한 구체적 사례로 볼 수 있다. 감정이 제어 가능한 "메커니즘적 노브(knob)"로 확인되었다는 것은, 향후 다른 고수준 심리적 변수(성격 특성, 인지 스타일 등)도 유사하게 조작 가능할 수 있음을 시사한다.