문제 제기 — 생성 안에 숨은 의사결정
LLM 시스템은 단순히 텍스트를 생성하는 것 외에도 제어 의사결정을 내려야 한다. 응답할지, 질문을 명확히 할지, 정보를 검색할지, 도구를 호출할지, 오류를 수정할지, 상위 시스템으로 에스컬레이션할지 — 이 모든 결정이 현재 아키텍처에서는 생성 과정 내부에 암묵적으로 녹아 있다. 그 결과 평가(assessment)와 행동(action)이 단일 모델 호출 안에서 뒤엉키며, 실패 원인을 검사하거나 제약을 적용하거나 수리하기가 극히 어려워진다.
핵심 제안 — 신호와 정책의 분리
저자는 간단하지만 강력한 설계 원칙을 제시한다: 확률적 신호(stochastic signals)를 행동을 선택하는 정책(policy)으로부터 분리하라는 것이다. 이 인터페이스를 명시적으로 만드는 것은 불확실성을 제거하는 게 아니라, 제어를 검사 가능하게 만드는 것이다. 추적성이 향상되고, 실패를 신호 추정·의사결정 정책·실행 중 어디서 발생했는지 귀속할 수 있으며, 모듈 단위의 개선과 제약 적용에 자연스러운 인터페이스를 제공한다.
시스템이 선택할 수 있는 행동의 집합. 응답, 명확화 요청, 검색, 도구 호출, 수리, 에스컬레이션 등.
관찰된(observed), 추정된(estimated), 학습된(learned) 양으로 구성된 신호 집합. 확신도, 비용, 품질 추정치 등.
맥락을 행동으로 매핑하는 규칙. 규칙 기반, 임계치 기반, 학습 기반 등 다양한 형태 가능.
단일 단계 설정 — 라우팅과 적응적 추론
이 추상화는 이미 친숙한 설정들을 통합한다. 모델 라우팅(Model Routing)에서 행동은 어떤 모델을 호출할지이고, 효용은 품질-비용 트레이드오프, 후회(regret), 서비스 수준 목표를 반영한다. 적응적 추론 스케일링(Adaptive Inference Scaling)에서 행동은 어떤 추론 전략을 사용하고 얼마나 많은 연산을 할당할지 — 예컨대 샘플 수, 투표 라운드, 탐색 깊이 등이다. 두 설정 모두 동일한 아키텍처 패턴을 공유한다: 명시적 행동 공간, 의사결정 맥락, 실행 가능한 행동에 대한 정책.
순차적 설정으로의 확장
단일 단계 설정과 달리, 순차적 설정에서는 행동이 이후 의사결정에 사용할 수 있는 정보를 변경한다. 예를 들어 검색을 수행하면 새로운 맥락이 생기고, 이 맥락이 다음 의사결정의 신호에 영향을 미친다. 프레임워크는 이 확장에서도 단순한 인터페이스를 유지한다: 확률적 신호는 시간에 따라 진화할 수 있지만, 행동 선택은 여전히 정책 기반으로 명시적이다.
관련 연구와의 차별점
기존 연구의 큰 축은 두 가지다. 하나는 추론 시점 강화로, Chain-of-Thought, Self-Consistency, Tree-of-Thoughts, DeepSeek의 추론 지향 RL 등이 모델이 무엇을 생성하는가 또는 생성에 얼마나 많은 연산을 사용하는가를 개선한다. 다른 하나는 에이전틱 프레임워크로, ReAct, Reflexion, AutoGen, LATS 같은 시스템이 도구 사용, 계획, 반성, 모듈 분해를 통해 작업 수준의 오케스트레이션을 개선한다.
이 논문의 기여는 이 둘과 상호보완적이다: 새로운 프롬프팅이나 오케스트레이션 전략을 제안하는 것이 아니라, 작업 내(within-task) 제어를 위한 명시적 의사결정 계층을 도입하여, 언제 행동하고, 정보를 수집하고, 수정할지를 관장한다.
불확실성 추정치와 믿음 상태(belief states)가 LLM 매개 상호작용에서 의미 있는 객체라는 것을 보여주는 연구들이 있다. 우리의 기여는 제어가 어디에 놓이는가에 있다: 행동-아니면-명확화 결정을 프롬프팅이나 모델 훈련 안에 암묵적으로 두는 대신, 의사결정 관련 신호와 하류 제어 정책을 명시적이고 분리 가능하게 만든다.
가장 밀접한 기존 연구로는 정보의 가치(Value of Information) 방법론이 있다. Dong et al.(2026)과 Raiffa & Schlaifer(1961)의 고전적 프레임워크가 명확화 vs. 확정(clarify-or-commit) 트레이드오프를 기대 효용 대비 정보 비용으로 형식화한다. 최근 Amin(2026)은 다중 LLM 오케스트레이션을 순차적 베이지안 의사결정으로 정식화했으며, Papamarkou et al.(2026)은 에이전틱 AI의 제어 계층이 베이즈 일관적 의사결정을 내려야 한다고 주장하는 포지션 페이퍼를 발표했다.
실험 검증
세 가지 실험은 프레임워크의 상호보완적인 측면을 검증하도록 설계되었다.
실험 1 — 최소 설정에서의 핵심 메커니즘 분리
가장 단순한 환경에서 신호-정책 분리의 기본 효과를 검증한다. 핵심 메커니즘을 격리하여, 명시적 의사결정 계층이 없을 때 발생하는 무의미한 행동(futile actions)이 분리 후 얼마나 감소하는지를 측정한다.
실험 2 — 풍부한 신호와 행동 공간
더 다양한 신호와 넓은 행동 공간으로 확장한다. 복수의 추정 신호(확신도, 품질, 비용 등)가 결합될 때 정책이 어떻게 행동을 선택하는지, 그리고 이 선택이 작업 성공률에 어떤 영향을 미치는지 테스트한다.
실험 3 — 검색 기반 워크플로우에서의 모듈적 신호 구성
보다 현실적인 검색 기반 시스템에서 신호가 어떻게 모듈적으로 구성되고 갱신되는지를 연구한다. 검색 후 새로운 정보가 유입되면 신호가 업데이트되고, 이에 따라 후속 의사결정이 달라지는 순차적 동작을 검증한다.
세 실험 전체에서 의사결정 계층을 명시화하면 무의미한 행동이 줄어들고, 작업 성공률이 향상되며, 실패를 신호 추정·의사결정 정책·실행 중 어디에서 발생했는지 정밀하게 귀속할 수 있고, 구조적 제약을 적용하는 자연스러운 메커니즘이 제공된다는 것이 확인되었다.