프로토타입에서 프로덕션까지 — AI 에이전트의 핵심 개념, 구축 방법, 그리고 신뢰성 확보를 위한 Google Cloud의 체계적 로드맵 완역·분석
프로덕션급 AI 에이전트를 구축하려면 거대 언어 모델(LLM)을 선택하는 것 이상이 필요하다. 확장 가능한 인프라, 견고한 데이터 통합 도구, 다양한 기술 요구사항을 수용하는 아키텍처 패턴이 포함된 완전한 솔루션이 요구된다.
Google Cloud는 에이전틱 시스템의 포괄적 개발을 지원하며, 직접 구축(Build), Google Cloud 에이전트 사용(Use), 파트너 에이전트 도입(Bring in)이라는 세 가지 경로를 제공한다. 이 모든 것은 MCP(Model Context Protocol)와 A2A(Agent2Agent) 프로토콜이라는 공통 프레임워크 위에서 상호운용되도록 설계되었다.
에이전틱 워크플로우는 다음 개척지입니다. 단순히 질문하고 답을 얻는 것이 아닙니다. AI에게 '이 제품 출시를 계획하라' 또는 '이 공급망 차질을 해결하라'와 같은 복잡한 목표를 주고, 그 목표 달성에 필요한 다단계 작업을 오케스트레이션하게 하는 것입니다. 이것이 생산성을 근본적으로 바꿀 것입니다.
Agent Development Kit(ADK)는 최대한의 제어력이 필요한 개발자와 기술 스타트업을 위한 코드 퍼스트 접근법이다. 오케스트레이션 로직, 도구 정의 및 등록, 컨텍스트 관리, 평가와 관측성(observability), 컨테이너화, 멀티 에이전트 구성이라는 핵심 역량을 제공한다. ADK로 구축한 에이전트는 Vertex AI Agent Engine, Cloud Run, GKE 등 컨테이너가 실행되는 어디든 배포할 수 있다.
Google Agentspace는 코드 없이 애플리케이션 우선 접근법을 제공한다. 비기술 팀원도 노코드 Agent Designer를 통해 프롬프트 기반으로 커스텀 에이전트를 구축할 수 있으며, 다양한 SaaS 애플리케이션에 걸쳐 통합 검색과 멀티모달 데이터 합성을 수행한다.
Gemini Code Assist는 IDE 통합, CLI(Gemini CLI), GitHub 연동, 에이전트 기반 개발까지 소프트웨어 개발 라이프사이클 전반에 걸쳐 AI 지원을 제공하는 개발자용 어시스턴트다. Gemini Cloud Assist는 Google Cloud 환경의 인프라 관리와 애플리케이션 운영을 위한 컨텍스트 인식 지원을, Gemini in Colab Enterprise는 데이터 과학 및 ML 워크플로우를 위한 협업 AI 환경을 제공한다.
더 전문적인 유즈케이스가 필요한 경우, Google Cloud Marketplace와 Agent Garden을 통해 서드파티 또는 오픈소스 에이전트를 쉽게 통합할 수 있다. 직접 구축한 에이전트와 혼합하여 사용 가능하다.
모델은 사용자 요청을 읽고, 무엇이 필요한지 파악하며, 지능적인 응답을 생성한다. 올바른 모델 선택은 가장 강력한 모델을 고르는 것이 아니라 유즈케이스에 맞는 능력(capability)·속도(speed)·비용(cost)의 최적 균형을 찾는 것이다.
초기 프로토타입 및 대규모 작업. 가장 비용 효율적이고 빠른 2.5 모델. 번역, 분류 등 고볼륨·저지연 작업에 최적화.
고볼륨·고품질 애플리케이션. 품질, 비용, 속도의 트레이드오프를 제어할 수 있도록 설계. Pro보다 낮은 가격에 강력한 성능.
복잡한 다단계 추론과 프론티어 코드 생성. 가장 지능적인 모델이자 가장 강력한 에이전틱·바이브코딩 모델.
Gemini 모델 패밀리는 추론 과정이 설정 가능하다. 특정 호출에 더 많은 추론 토큰을 할당하면 지연과 비용의 예측 가능한 증가를 정확도 향상과 교환할 수 있다. 견고한 인지 아키텍처는 여러 전문화된 에이전트를 활용하여 각 하위 작업에 가장 적합한 모델을 동적으로 선택하는 방식으로 전체 시스템의 비용과 성능을 최적화한다.
파인튜닝(Fine-tuning)은 모델을 선택한 후 큐레이션된 고품질 예시 데이터셋을 사용하여 특정 비즈니스 요구에 맞게 모델의 지식과 스타일을 전문화하는 과정이다. 단, 파인튜닝은 그라운딩이 아니다. 파인튜닝이 모델의 스타일을 적응시키는 것이라면, 그라운딩은 모델을 실시간 검증 가능한 데이터 소스에 연결하여 응답의 사실 정확성을 보장하는 것이다.
도구는 에이전트가 코어 추론 모델의 네이티브 기능을 넘어 수행할 수 있는 정의된 역량이다. 간단한 내부 계산부터 API 호출을 통한 외부 시스템 상호작용까지, 에이전트의 추론과 정보 검색·상태 변경 실행 능력 사이의 간극을 메운다. 도구에는 내부 함수/서비스, API, 데이터 소스, 그리고 다른 에이전트까지 포함될 수 있다.
오케스트레이션은 에이전트를 다단계 작업을 통해 안내하는 운영 핵심이다. 어떤 도구가 필요한지, 어떤 순서로, 그리고 그 출력들을 어떻게 조합하여 최종 목표를 달성할지를 결정한다.
대표적이고 효과적인 오케스트레이션 패턴은 ReAct(Reason + Action)이다. 이 프레임워크는 LLM의 추론과 행동 능력을 시너지시킨다. 모델이 추론 추적(사고)과 작업별 행동을 교차하며 생성하는 동적·다턴 루프를 확립한다.
에이전트가 목표와 현재 상태를 평가하고, 다음 최선의 단계와 도구 필요 여부에 대한 가설을 형성한다.
에이전트가 적절한 도구를 선택하고 호출한다.
에이전트가 도구의 출력을 받고, 이 새로운 정보를 컨텍스트에 통합하여 다음 추론 단계에 반영한다.
에이전틱 시스템의 데이터 아키텍처는 세 가지 요구를 충족해야 한다: 장기 지식 검색을 위한 영속 스토리지(Vertex AI Search, Firestore, BigQuery 등), 단기 대화 컨텍스트를 위한 저지연 접근(Memorystore), 트랜잭션 감사를 위한 내구성 원장(Cloud SQL, Cloud Spanner)이다.
프로덕션급 런타임은 확장성(자동 스케일링), 보안(ID 및 접근 제어), 신뢰성 및 관측성(에러 핸들링, 자동 재시도, 모니터링)을 제공해야 한다. 주요 배포 대상으로는 Vertex AI Agent Engine(완전 관리형), Cloud Run(서버리스), GKE(Kubernetes 기반)가 있다.
에이전트의 신뢰성과 유용성은 검증 가능한 사실에 기반하여 정확하고 신뢰할 수 있는 답변을 제공하는 능력, 즉 그라운딩(Grounding)에 달려있다. 이 가이드는 그라운딩 기법의 진화 경로를 제시한다.
RAG(Retrieval-Augmented Generation)는 외부 지식 베이스에서 관련 정보를 검색한 후 응답을 생성함으로써 LLM의 응답을 향상시키는 아키텍처 패턴이다. 사전 학습된 지식에만 의존하지 않고, 시맨틱 검색으로 검증 가능한 데이터를 찾아 LLM에 컨텍스트로 전달한다. Google Cloud의 관리형 RAG 솔루션은 Vertex AI Search와 Vertex AI RAG Engine이다.
GraphRAG는 지식 그래프를 구축하여, 단순히 유사한 구문을 매칭하는 대신 개념들 사이의 관계를 이해한다. 예를 들어 의료 AI 어시스턴트가 "증상 → 원인 → 치료법"의 관계를 파악해야 할 때 단순한 관련 스니펫 검색보다 훨씬 효과적이다.
가장 강력한 그라운딩 접근법인 Agentic RAG는 에이전트를 검색된 데이터의 수동적 수신자에서 지식 검색의 능동적 추론 참여자로 변환한다. ReAct와 같은 프레임워크를 따라 복잡한 쿼리를 분석하고, 다단계 계획을 수립하며, 순차적으로 여러 도구 호출을 실행하여 최선의 정보를 찾는다.
파운데이션 모델 성능이 기하급수적으로 향상될 것이라는 통념이 있었지만, 그 상승이 정체되는 변곡점에 도달하고 있으며 진정한 차별화는 전문화와 컨텍스트 엔지니어링에 있습니다. Agentic RAG는 컨텍스트 레이어의 핵심 축이며, AI 에이전트가 반복적으로 정보를 찾고, 검색하고, 근거 데이터에 대해 추론한 뒤 최종 답변을 생성할 수 있게 합니다.
스타트업이 커스텀 AI 에이전트를 구축할 때 개발 속도 대 유연성이라는 핵심 트레이드오프에 직면한다. 로우코드 플랫폼은 빠르지만 제어력이 낮고, 프레임워크나 처음부터 구축하는 방식은 유연하지만 자원이 많이 필요하다. ADK는 이 스펙트럼의 중간에 위치한다.
오픈소스 코드 퍼스트 툴킷. AI 에이전트의 구축, 평가, 배포를 위한 유연하고 모듈식 프레임워크.
애플리케이션이 LLM에 콘텐츠를 제공하는 방법을 표준화하는 오픈 프로토콜. 에이전트의 데이터 소스와 도구를 위한 범용 어댑터.
프로덕션 환경에서 AI 에이전트를 배포, 관리, 스케일링하기 위한 관리형 플랫폼.
AI 에이전트 간 통신과 협업을 위한 오픈 표준. 에이전트 카드, 작업 지향 아키텍처, 모달리티 비의존적 통신 지원.
ADK에서의 핵심 단계는 올바른 에이전트 아키텍처를 선택하는 것이다. LLM의 유연한 비결정적 능력과 하드코딩된 로직의 예측 가능한 결정적 제어 사이의 트레이드오프다.
LlmAgent는 가장 일반적인 에이전트 유형으로, Gemini와 같은 LLM을 활용하여 복잡한 추론, 동적 의사결정, 자연어 이해를 수행한다. 워크플로우 에이전트는 SequentialAgent(순차), ParallelAgent(병렬), LoopAgent(반복)로 나뉘며, 사전 정의된 패턴으로 다른 에이전트의 실행을 결정적으로 제어한다. CustomAgent는 BaseAgent를 상속받아 완전히 커스텀한 Python 로직으로 에이전트의 행동을 제어한다.
모델이 도구를 올바르게 사용하려면 그 정의가 명확하고 모호하지 않은 API 계약 역할을 해야 한다. 함수 시그니처(설명적 이름과 타입 힌트), 독스트링(도구의 목적·사용 기준·매개변수·반환 스키마를 정의하는 시맨틱 핵심), 반환 스키마(status 키 포함 딕셔너리), 그리고 상태 유지가 필요한 경우 ToolContext를 사용한다.
MCP(Model Context Protocol)는 AI와 LLM을 외부 데이터 소스 및 도구와 연결하기 위한 떠오르는 오픈 표준이다. ADK 에이전트는 MCP 클라이언트로서 서드파티 MCP 서버가 노출하는 도구를 소비하거나, 자체 ADK 도구를 MCP 서버로 래핑하여 다른 MCP 호환 에이전트에 제공할 수 있다.
A2A(Agent2Agent) 프로토콜은 누가 만들었든 어떤 프레임워크를 사용하든 에이전트 간의 발견, 통신, 보안 협력을 보장하는 오픈 표준이다. 에이전트 카드(디지털 "명함")를 통한 발견, 작업(Task) 지향 아키텍처, 텍스트·오디오·비디오를 아우르는 모달리티 비의존적 통신을 지원한다.
에이전트 구축은 정의, 테스트, 배포의 반복적 과정이다. 이 가이드는 Software Bug Assistant라는 LlmAgent를 예로 네 단계를 설명한다.
name(고유 식별자), description(역량 요약), model(기반 LLM) 세 가지 핵심 매개변수로 에이전트의 정체를 확립한다.
instruction 매개변수가 에이전트의 행동을 형성하는 가장 중요한 구성요소. 핵심 작업, 페르소나, 제약, 도구 사용법을 명시한다.
에이전트에 외부와 상호작용할 수 있는 역량 부여. LLM은 도구의 이름, 독스트링, 매개변수 스키마를 활용하여 호출 결정.
에이전트의 궤적(trajectory)을 검사하여 품질 평가. 성능 확인 후 프로덕션 배포. Agent Starter Pack이 이 과정을 가속화.
단일 에이전트에서 전문화된 에이전트 포트폴리오로 확장될 때, 관리·비기술 팀원 활용·데이터 접근 거버넌스라는 새로운 도전에 직면한다. Google Agentspace는 기업 데이터 통합(SaaS 앱 커넥터), 팀 전체 자동화(노코드 Agent Designer), 에이전트 함대 거버넌스 및 오케스트레이션(Agent Gallery)을 단일 플랫폼에서 제공한다.
Gemini CLI는 오픈소스 에이전트로 Gemini를 터미널에 직접 가져와 무료로 실험할 수 있게 한다(100만 토큰 컨텍스트, 분당 60 쿼리). Firebase Studio는 에이전틱 AI를 활용하여 UI 프로토타이핑부터 코드 생성, 보안 배포까지 전체 풀스택 개발 라이프사이클을 가속화하는 통합 클라우드 기반 작업공간이다.
LLM 기반 시스템의 비결정적 특성으로 인해 프로덕션급 신뢰성 달성이 어렵다. 피상적인 "바이브 테스팅"을 넘어 엄격한 엔지니어링 접근이 필요하다. AgentOps는 DevOps, MLOps, DataOps의 원칙을 AI 에이전트의 구축·배포·관리에 적용한 운영 방법론이다.
전통적 테스팅이 어휘적 정확성에 집중한다면, 에이전트 평가는 시맨틱 정확성(에이전트가 사용자 의도를 이해하고 유용하게 답했는가?)과 추론 정확성(에이전트가 논리적이고 효율적인 경로를 따랐는가?)이라는 더 어려운 문제를 다뤄야 한다.
결정적 단위 테스트. 도구, 데이터 처리, API 통합의 예상 동작을 검증. ADK의 Python 함수를 pytest로 테스트.
가장 중요한 계층. ReAct 사이클 내의 추론 정확성을 검증. 추론·행동·관찰 각 단계의 올바른 수행을 점검.
최종 응답의 시맨틱 정확성, 사실적 정확도, 전체 품질을 검증. 그라운딩 검증, 도움됨, 완전성을 평가.
배포 후 실시간 성능 추적. 도구 실패율, 사용자 피드백, 궤적 메트릭, E2E 지연시간을 모니터링.
Agent Starter Pack은 프로덕션 준비 참조 구현을 제공하여 AgentOps 원칙의 도입을 가속화한다. 인프라 코드(Terraform), CI/CD 파이프라인(Cloud Build), 관측성 및 로깅(Cloud Trace, Cloud Logging), 데이터 통합(BigQuery), 지속적 평가(Vertex AI evaluation)를 포함한다.
ADK가 에이전트의 애플리케이션 코드를 담당하고, Agent Starter Pack이 운영 환경을 담당하는 명확한 분리가 이루어진다. 부트스트랩 → ADK 개발 → 커밋 및 자동화 → 지속적 평가 → 자신 있는 배포의 다섯 단계 워크플로우가 완전한 엔드투엔드 AgentOps를 실현한다.
강력한 에이전트를 구축하는 것은 안전하고, 보안이 확보되며, 정렬된 에이전트를 보장하는 비타협적 책임을 수반한다. 불공정한 편향, 프라이버시 침해, 보안 취약점 등 해로운 또는 의도치 않은 결과를 방지하기 위한 안전장치를 처음부터 설계해야 한다.
ADK와 Agent Starter Pack은 이 영역에서 심층 방어(defense-in-depth) 전략을 제공한다. ADK로 세밀한 애플리케이션 수준 안전 제어를 구현하고, Agent Starter Pack이 강화된 클라우드 인프라의 자동 배포를 통해 이를 대규모로 집행한다. 보안 인프라와 접근 제어(Terraform + IAM), 입출력 가드레일(프롬프트 인젝션 검증, 유해 콘텐츠 필터링), 감사 및 모니터링(BigQuery 로그 싱크)을 아우른다.
AI 에이전트가 우리 삶에 통합됨에 따라, 신뢰, 프라이버시, 보안에 관한 새로운 도전을 해결하는 것이 매우 중요합니다. 보안과 프라이버시에 대해 생각하고, 어떻게 신뢰할 수 있는 제품을 만들 수 있는지 스스로에게 물어야 합니다.
| 용어 | 설명 |
|---|---|
| ADK | Agent Development Kit. Google이 만든 오픈소스 코드 퍼스트 프레임워크로, AI 에이전트의 구축·평가·배포를 위한 유연하고 모듈식 환경을 제공한다. |
| MCP | Model Context Protocol. 애플리케이션이 LLM에 컨텍스트를 제공하는 방법을 표준화하는 오픈 프로토콜. 에이전트의 데이터 소스·도구 연결을 위한 범용 어댑터. |
| A2A | Agent2Agent Protocol. 에이전트 간 통신·협업을 위한 오픈 표준. 에이전트 카드를 통한 상호 발견, 작업 지향 아키텍처를 제공한다. |
| ReAct | Reason + Action. 추론 추적과 작업별 행동을 교차 생성하는 오케스트레이션 패턴. 추론→행동→관찰의 동적 루프. |
| RAG | Retrieval-Augmented Generation. 외부 지식 베이스에서 관련 정보를 검색한 뒤 응답을 생성하여 LLM의 정확성을 높이는 아키텍처 패턴. |
| GraphRAG | 지식 그래프를 구축하여 개념 간 관계를 이해하는 그라운딩 기법. 단순 시맨틱 매칭을 넘어 관계 기반 추론을 지원한다. |
| Agentic RAG | 에이전트가 검색 과정에 능동적·추론적으로 참여하는 그라운딩 방식. 다단계 검색 전략을 자율적으로 실행한다. |
| AgentOps | Agent Operations. DevOps·MLOps·DataOps의 원칙을 AI 에이전트의 라이프사이클 관리에 적용한 운영 방법론. |
| Vertex AI Agent Engine | ADK 등으로 구축한 AI 에이전트를 프로덕션에서 배포·관리·스케일링하기 위한 Google Cloud의 완전 관리형 서비스. |
| Agent Starter Pack | 프로덕션 준비 에이전트 프로젝트를 부트스트랩하는 도구. IaC(Terraform), CI/CD, 관측성, 평가를 포함한 홀리스틱 템플릿 제공. |
| LlmAgent | ADK의 가장 일반적인 에이전트 유형. LLM을 활용한 복잡한 추론, 동적 의사결정, 자연어 이해의 핵심. |
| SequentialAgent | 하위 에이전트를 고정 순서로 실행하는 워크플로우 에이전트. 한 에이전트의 출력이 다음의 입력이 된다. |
| ParallelAgent | 독립적 작업을 위해 여러 하위 에이전트를 동시에 실행하는 워크플로우 에이전트. |
| LoopAgent | 종료 조건이 충족되거나 지정된 반복 횟수에 도달할 때까지 하위 에이전트를 반복 실행하는 워크플로우 에이전트. |
| HITL | Human in the Loop. 에이전트의 행동에 사람의 확인·개입을 포함하는 워크플로우 패턴. |
| 벡터 데이터베이스 | Vector Database. 벡터 임베딩을 저장·인덱싱·쿼리하도록 설계된 특수 시스템. 의미 기반 검색을 대규모로 지원한다. |
| SAIF | Secure AI Framework. Google이 제시하는 AI 안전 프레임워크. AI 시스템의 보안 표준과 모범 사례를 종합적으로 안내한다. |
1. "에이전트 전쟁"의 본질은 인프라가 아니라 프로토콜이다. 이 가이드에서 가장 주목해야 할 대목은 개별 도구 소개가 아니라 MCP와 A2A라는 두 개의 오픈 프로토콜을 전면에 내세운 전략이다. Google은 에이전트 생태계의 경쟁이 "누구의 프레임워크가 더 나은가"가 아니라 "누구의 프로토콜이 표준이 되는가"에서 결정될 것임을 읽고 있다. Anthropic이 MCP를 주도하고 Google이 A2A를 제안한 이 구도는 HTTP·REST처럼 에이전트 시대의 기초 문법을 선점하려는 플랫폼 전쟁이다.
2. "프로토타입 → 프로덕션" 간극이 이 가이드의 진짜 가치다. 대부분의 AI 에이전트 논의는 "무엇을 만들 수 있는가"에 집중하지만, 이 가이드는 Section 3에서 "어떻게 안정적으로 운영하는가"에 상당한 지면을 할애한다. 특히 4계층 평가 프레임워크(컴포넌트→궤적→결과→시스템)는 비결정적 시스템의 운영이라는, 기존 소프트웨어 엔지니어링에서는 접하지 못한 난제에 대한 구조적 해법을 제시한다. 이 부분은 벤더 중립적으로 적용 가능한 지식이다.
3. 빠진 퍼즐 — 비용 현실과 멀티벤더 전략. 가이드가 의도적으로 다루지 않는 두 가지가 있다. 첫째, 에이전틱 시스템의 실제 운영 비용이다. 다단계 ReAct 루프는 단순 API 호출 대비 토큰 소비를 기하급수적으로 늘린다. 스타트업에게는 "기능적으로 작동하는 에이전트"와 "경제적으로 지속 가능한 에이전트" 사이의 간극이 가장 큰 도전일 수 있다. 둘째, 실제 프로덕션 환경에서는 단일 벤더 생태계만으로 완결되는 경우가 드물다. Claude를 추론 엔진으로, Google의 Vertex AI Search를 그라운딩으로, AWS S3를 데이터 레이크로 사용하는 멀티클라우드 조합이 현실적이며, 이 가이드의 원칙들을 벤더 비의존적으로 적용하는 안목이 필요하다.
4. "Memory Distillation"은 진정한 차세대 키워드다. Section 2 말미에 간략히 언급된 "증류된 대화 메모리" 개념은 에이전트 시스템의 장기적 경쟁력을 결정할 요소다. 수개월 간의 대화 히스토리를 통째로 컨텍스트에 넣는 것은 비용과 혼란 모두에서 지속 불가능하다. LLM이 대화에서 핵심 사실과 선호를 자동으로 추출·구조화하는 메모리 증류는 진정한 개인화된 AI 경험의 전제조건이며, Vertex AI Memory Bank의 GenerateMemories와 CreateMemory 메커니즘은 이 방향의 초기 시도다.