Archives
원본 arxiv.org/html/2604.00414v1
AI / LLM 시스템 설계 arXiv:2604.00414 · 2026년 4월 1일

LLM 시스템의 의사결정 중심 설계

"생성하기 전에, 먼저 결정하라" — 신호 추정과 정책을 분리하여
LLM 제어를 검사 가능하고 수리 가능한 계층으로 만드는 프레임워크

Executive Summary

핵심 요약

01
현재 대부분의 LLM 시스템에서 제어 의사결정(응답할지, 명확히 할지, 검색할지, 도구를 호출할지)은 생성 과정 안에 암묵적으로 묻혀 있어, 실패를 진단하거나 제약을 걸기 어렵다.
02
이 논문은 의사결정 관련 신호(signal)와 그 신호를 행동으로 매핑하는 정책(policy)을 명시적으로 분리하는 프레임워크를 제안한다. 제어를 검사 가능하고 독립적으로 개선 가능한 계층으로 전환하는 것이 핵심이다.
03
이 추상화는 모델 라우팅, 적응적 추론 스케일링 같은 단일 단계 설정과, 행동이 이후 의사결정에 영향을 미치는 순차적 설정을 모두 통합한다.
04
세 가지 상호보완적 실험을 통해 이 계층을 명시화하면 무의미한 행동 감소, 작업 성공률 향상, 실패 원인 정밀 귀속이 가능해짐을 입증했다.
05
기존의 프롬프팅·오케스트레이션 전략과 상호보완적이며, LLM 시스템의 제어 논리를 구조적으로 다루는 새로운 설계 원칙을 제시한다.
Key Person

핵심 인물 프로필

WS
웨이 선
Wei Sun
IBM Research · Senior Research Scientist

IBM Research의 시니어 리서치 사이언티스트로, IBM AI 부문 부사장 David Cox의 기술 보좌역(Technical Assistant)을 맡고 있다. MIT에서 오퍼레이션스 리서치(Operations Research) 박사 학위, 같은 학교에서 계산 설계 및 최적화(Computational Design and Optimization) 석사 학위를 취득했다. 싱가포르 국립대학교에서 전기·컴퓨터 공학 1등급 우등 학사를 마쳤다.

예측 모델, 최적화, 인과 추론을 결합하여 복잡한 환경에서 신뢰할 수 있는 의사결정을 지원하는 AI 시스템 구축에 집중하고 있다. 디지털 마케팅, 여행·교통, 금융 서비스 등 다양한 산업에서 실제 문제에 적용된 연구를 수행해왔다. M&SOM 부편집장(2026~), NeurIPS·ICML·ICLR·AAAI 등 주요 학회에 다수 논문을 발표했으며, 2024년 INFORMS에서 "LLM과 OR/MS를 결합한 더 스마트한 의사결정" 튜토리얼을 진행했다. 콜럼비아 대학에서 인과적 의사결정과 LLM에 관한 게스트 강의를 하기도 했다.

Operations Research Causal Inference Prescriptive AI LLM Routing Decision Science
Full Analysis

논문 번역 및 분석

문제 제기 — 생성 안에 숨은 의사결정

LLM 시스템은 단순히 텍스트를 생성하는 것 외에도 제어 의사결정을 내려야 한다. 응답할지, 질문을 명확히 할지, 정보를 검색할지, 도구를 호출할지, 오류를 수정할지, 상위 시스템으로 에스컬레이션할지 — 이 모든 결정이 현재 아키텍처에서는 생성 과정 내부에 암묵적으로 녹아 있다. 그 결과 평가(assessment)와 행동(action)이 단일 모델 호출 안에서 뒤엉키며, 실패 원인을 검사하거나 제약을 적용하거나 수리하기가 극히 어려워진다.

핵심 제안 — 신호와 정책의 분리

저자는 간단하지만 강력한 설계 원칙을 제시한다: 확률적 신호(stochastic signals)를 행동을 선택하는 정책(policy)으로부터 분리하라는 것이다. 이 인터페이스를 명시적으로 만드는 것은 불확실성을 제거하는 게 아니라, 제어를 검사 가능하게 만드는 것이다. 추적성이 향상되고, 실패를 신호 추정·의사결정 정책·실행 중 어디서 발생했는지 귀속할 수 있으며, 모듈 단위의 개선과 제약 적용에 자연스러운 인터페이스를 제공한다.

의사결정 중심 추상화의 세 가지 요소
후보 행동

시스템이 선택할 수 있는 행동의 집합. 응답, 명확화 요청, 검색, 도구 호출, 수리, 에스컬레이션 등.

의사결정 맥락

관찰된(observed), 추정된(estimated), 학습된(learned) 양으로 구성된 신호 집합. 확신도, 비용, 품질 추정치 등.

정책

맥락을 행동으로 매핑하는 규칙. 규칙 기반, 임계치 기반, 학습 기반 등 다양한 형태 가능.

단일 단계 설정 — 라우팅과 적응적 추론

이 추상화는 이미 친숙한 설정들을 통합한다. 모델 라우팅(Model Routing)에서 행동은 어떤 모델을 호출할지이고, 효용은 품질-비용 트레이드오프, 후회(regret), 서비스 수준 목표를 반영한다. 적응적 추론 스케일링(Adaptive Inference Scaling)에서 행동은 어떤 추론 전략을 사용하고 얼마나 많은 연산을 할당할지 — 예컨대 샘플 수, 투표 라운드, 탐색 깊이 등이다. 두 설정 모두 동일한 아키텍처 패턴을 공유한다: 명시적 행동 공간, 의사결정 맥락, 실행 가능한 행동에 대한 정책.

순차적 설정으로의 확장

단일 단계 설정과 달리, 순차적 설정에서는 행동이 이후 의사결정에 사용할 수 있는 정보를 변경한다. 예를 들어 검색을 수행하면 새로운 맥락이 생기고, 이 맥락이 다음 의사결정의 신호에 영향을 미친다. 프레임워크는 이 확장에서도 단순한 인터페이스를 유지한다: 확률적 신호는 시간에 따라 진화할 수 있지만, 행동 선택은 여전히 정책 기반으로 명시적이다.

입력 쿼리
신호 추정
의사결정 정책
행동 선택
실행
신호 갱신 (순차적)

관련 연구와의 차별점

기존 연구의 큰 축은 두 가지다. 하나는 추론 시점 강화로, Chain-of-Thought, Self-Consistency, Tree-of-Thoughts, DeepSeek의 추론 지향 RL 등이 모델이 무엇을 생성하는가 또는 생성에 얼마나 많은 연산을 사용하는가를 개선한다. 다른 하나는 에이전틱 프레임워크로, ReAct, Reflexion, AutoGen, LATS 같은 시스템이 도구 사용, 계획, 반성, 모듈 분해를 통해 작업 수준의 오케스트레이션을 개선한다.

이 논문의 기여는 이 둘과 상호보완적이다: 새로운 프롬프팅이나 오케스트레이션 전략을 제안하는 것이 아니라, 작업 내(within-task) 제어를 위한 명시적 의사결정 계층을 도입하여, 언제 행동하고, 정보를 수집하고, 수정할지를 관장한다.

불확실성 추정치와 믿음 상태(belief states)가 LLM 매개 상호작용에서 의미 있는 객체라는 것을 보여주는 연구들이 있다. 우리의 기여는 제어가 어디에 놓이는가에 있다: 행동-아니면-명확화 결정을 프롬프팅이나 모델 훈련 안에 암묵적으로 두는 대신, 의사결정 관련 신호와 하류 제어 정책을 명시적이고 분리 가능하게 만든다.

— Wei Sun, 논문 §2 Related Work

가장 밀접한 기존 연구로는 정보의 가치(Value of Information) 방법론이 있다. Dong et al.(2026)과 Raiffa & Schlaifer(1961)의 고전적 프레임워크가 명확화 vs. 확정(clarify-or-commit) 트레이드오프를 기대 효용 대비 정보 비용으로 형식화한다. 최근 Amin(2026)은 다중 LLM 오케스트레이션을 순차적 베이지안 의사결정으로 정식화했으며, Papamarkou et al.(2026)은 에이전틱 AI의 제어 계층이 베이즈 일관적 의사결정을 내려야 한다고 주장하는 포지션 페이퍼를 발표했다.

실험 검증

세 가지 실험은 프레임워크의 상호보완적인 측면을 검증하도록 설계되었다.

실험 1 — 최소 설정에서의 핵심 메커니즘 분리

가장 단순한 환경에서 신호-정책 분리의 기본 효과를 검증한다. 핵심 메커니즘을 격리하여, 명시적 의사결정 계층이 없을 때 발생하는 무의미한 행동(futile actions)이 분리 후 얼마나 감소하는지를 측정한다.

실험 2 — 풍부한 신호와 행동 공간

더 다양한 신호와 넓은 행동 공간으로 확장한다. 복수의 추정 신호(확신도, 품질, 비용 등)가 결합될 때 정책이 어떻게 행동을 선택하는지, 그리고 이 선택이 작업 성공률에 어떤 영향을 미치는지 테스트한다.

실험 3 — 검색 기반 워크플로우에서의 모듈적 신호 구성

보다 현실적인 검색 기반 시스템에서 신호가 어떻게 모듈적으로 구성되고 갱신되는지를 연구한다. 검색 후 새로운 정보가 유입되면 신호가 업데이트되고, 이에 따라 후속 의사결정이 달라지는 순차적 동작을 검증한다.

세 실험 전체에서 의사결정 계층을 명시화하면 무의미한 행동이 줄어들고, 작업 성공률이 향상되며, 실패를 신호 추정·의사결정 정책·실행 중 어디에서 발생했는지 정밀하게 귀속할 수 있고, 구조적 제약을 적용하는 자연스러운 메커니즘이 제공된다는 것이 확인되었다.

Glossary

주요 키워드 · 용어 정리

용어설명
Decision-Centric Design의사결정을 시스템의 핵심 설계 요소로 취급하여, 신호와 정책을 분리하는 설계 철학
Signal의사결정에 필요한 확률적 정보. 관찰된 값, 추정된 품질, 학습된 임베딩 등 넓은 범위를 포괄
Policy의사결정 맥락(신호 집합)을 특정 행동으로 매핑하는 규칙 또는 함수
Model Routing쿼리 특성에 따라 적절한 모델을 선택하는 제어 메커니즘. 품질-비용 최적화가 핵심
Adaptive Inference Scaling문제 난이도에 따라 추론 전략과 연산량을 동적으로 조절하는 방식
Value of Information추가 정보 수집의 기대 효용 대비 비용을 정량화하는 의사결정 이론 개념
Sequential Decision이전 행동이 이후 결정에 사용 가능한 정보를 변경하는 다단계 의사결정 구조
Failure Attribution실패 원인을 신호 추정 오류, 정책 오류, 실행 오류로 분류·귀속하는 진단 방법
Futile Actions시스템 상태를 유의미하게 개선하지 못하는 불필요한 행동. 이 프레임워크로 감소 가능
Fact Check

팩트체크

논문 주장
Wei Sun은 IBM Research 소속이며, 이 프레임워크가 라우팅, 적응적 추론, 검색 제어 등을 통합한다고 주장한다.
검증 결과 — 정확
IBM Research 공식 페이지에서 Wei Sun의 소속과 직책이 확인된다. 그녀는 실제로 David Cox IBM Research AI 부문 VP의 기술 보좌역으로, 인과 추론과 LLM 라우팅 관련 연구를 활발히 수행하고 있다. 라우팅(Tsiourvas et al., NeurIPS 2025)과 적응적 추론(Snell et al., 2025; Huang et al., 2025) 관련 참조 문헌도 실제 발표된 연구들이다.
논문 주장
Chain-of-Thought(Wei et al., 2022), Self-Consistency(Wang et al., 2023), ReAct(Yao et al., 2022) 등을 "추론 시점 강화"와 "에이전틱 프레임워크"로 분류한다.
검증 결과 — 정확하나 보충 필요
참조된 논문들의 발표 연도와 학회는 정확하다. 다만, ReAct은 단순한 오케스트레이션 프레임워크를 넘어 추론과 행동의 시너지를 강조하는 점에서, 순수한 "오케스트레이션"으로만 분류하기에는 다소 단순화된 측면이 있다. 논문의 분류 자체가 틀린 것은 아니지만, 이 프레임워크들 간의 경계가 실제로는 더 모호하다.
논문 주장
Amin(2026)과 Papamarkou et al.(2026)의 최근 베이지안 연구를 인용하여 이 분야의 동향을 제시한다.
검증 결과 — 확인 제한
2026년 출판물은 매우 최근 것으로, 독립적 교차 검증이 제한적이다. 다만 순차적 베이지안 의사결정 프레임워크로 LLM 오케스트레이션을 다루려는 시도는 학계의 일반적 흐름과 일치하며, 정보의 가치(VoI) 이론의 LLM 적용은 논리적으로 자연스러운 확장이다.
Claude Insight

독자적 분석 · 인사이트

왜 이 논문이 중요한가: "제어의 가시성" 문제

현재 LLM 에이전트 개발의 가장 큰 고통점 중 하나는 디버깅이다. 에이전트가 잘못된 도구를 호출하거나 불필요한 검색을 반복할 때, 그 원인이 모델의 판단력 부족인지, 프롬프트의 문제인지, 아니면 시스템 설계의 구조적 결함인지 구분하기 어렵다. Wei Sun의 프레임워크는 이 문제에 대한 원칙적 해답을 제시한다: 신호 추정, 정책, 실행을 분리하면 각 계층을 독립적으로 검사하고 교체할 수 있다.

논문이 언급하지 않은 관점: 실제 배포의 복잡성

프레임워크의 이론적 우아함에도 불구하고, 실제 프로덕션 LLM 시스템에서 "신호"를 얼마나 정확하게 추정할 수 있는가는 여전히 열린 문제다. 현재 LLM의 확신도(confidence) 추정은 캘리브레이션이 잘 되지 않는 것으로 알려져 있고, 이는 의사결정 정책의 입력 자체가 불안정함을 의미한다. 프레임워크가 이를 인정하고 있지만("불확실성을 제거하는 게 아니라 검사 가능하게 만드는 것"), 실제 시스템에서 신호 품질 자체가 주요 병목이 될 수 있다.

더 넓은 맥락: OR과 AI의 수렴

이 논문은 오퍼레이션스 리서치(OR) 출신 연구자가 LLM 시스템 설계에 의사결정 이론의 언어를 도입한 사례다. 이는 우연이 아니다. LLM 시스템이 복잡해질수록 — 다중 모델, 다중 도구, 다중 단계로 확장될수록 — 순수 딥러닝적 접근(end-to-end 학습)보다 구조적·수리적 의사결정 프레임워크의 필요성이 커지고 있다. INFORMS 2024의 "LLM과 OR" 튜토리얼, 콜럼비아대 게스트 강의 등 Wei Sun의 활동은 이 융합 트렌드를 직접 반영한다. LLM 에이전트의 다음 도약이 "더 큰 모델"이 아니라 "더 나은 의사결정 구조"에서 올 수 있다는 시사점을 제공한다.

실무적 시사점

LLM 기반 시스템을 구축하는 엔지니어에게 이 논문의 메시지는 명확하다: 제어 로직을 프롬프트 안에 숨기지 말고, 별도의 의사결정 계층으로 추출하라. 이는 곧바로 적용 가능한 설계 패턴이다. 예를 들어, RAG 시스템에서 "검색할지 말지"를 LLM의 생성에 맡기는 대신, 쿼리 복잡도·기존 맥락 충분성·검색 비용 등의 신호를 추정하고, 이를 기반으로 명시적 정책이 결정하도록 구조화할 수 있다. 실패 시 어떤 신호가 잘못 추정되었는지, 정책의 임계치가 부적절했는지, 검색 실행이 실패했는지를 분리해서 진단할 수 있게 된다.