안드레이 카파시 "바이브 코딩에서 에이전틱 엔지니어링으로
"가장 뒤처진 프로그래머." 카르파시가 말하는 소프트웨어 3.0의 도래
OpenAI 공동 창업자이자 Eureka Labs 창립자인 안드레이 카르파시(Andrej Karpathy)가 "프로그래머로서 이렇게 뒤처진 적이 없다"고 말한 이유. 작년에 그가 만든 단어 '바이브 코딩'은 무엇을 끝내고, 무엇을 시작하는가. 2025년 12월에 일어난 변곡점, Software 3.0의 의미, 그리고 LLM을 '동물'이 아니라 '귀신'으로 봐야 하는 이유에 대해.
핵심 요약 — 일곱 가지 명제
카르파시의 대담은 단순한 트렌드 보고가 아니다. 그는 "AI는 새로운 컴퓨팅 계층"이라는 자기 가설을 한층 더 밀고 나가, 2025년 12월에 일어난 변곡점 이후 소프트웨어 개발이라는 직업 자체가 어떻게 재조립되고 있는지 12가지 주제로 펼쳐 보인다. 그중 핵심만 추리면 다음과 같다.
-
2025년 12월이 분기점이었다
그때부터 Claude Code, Codex 등 에이전트형 도구가 만드는 코드 블록이 안정적으로 동작하기 시작했다. "마지막으로 수정한 게 언제였는지 기억나지 않는다"는 정도로 신뢰가 올라갔다.
-
Software 3.0은 컨텍스트 윈도우를 프로그램으로 쓰는 시대
1.0(명시적 코드) → 2.0(학습된 가중치) → 3.0(프롬프트·컨텍스트·도구로 LLM 해석기를 프로그래밍). 컨텍스트가 새로운 코드다.
-
일부 앱은 아예 사라져야 한다
카르파시가 만든 MenuGen은 멀티모달 모델이 이미지→이미지로 바로 처리할 수 있게 되면서 존재 이유를 잃었다. AI는 기존 앱의 가속기가 아니라, 일부 앱의 대체자다.
-
바이브 코딩은 바닥을, 에이전틱 엔지니어링은 천장을 올린다
전자는 누구나 소프트웨어를 만들게 한다. 후자는 전문 소프트웨어의 품질 기준을 지키며 가속한다. "10x 엔지니어"의 격차가 훨씬 더 벌어진다.
-
검증 가능성이 자동화의 속도를 결정한다
전통 소프트웨어는 specify할 수 있는 일을 자동화했다. LLM은 verify할 수 있는 일을 자동화한다. 자동 보상 신호가 있는 영역(수학·코딩·테스트)이 가장 빠르다.
-
LLM은 동물이 아니라 귀신이다
생물학적 동기·내재적 호기심·체현된 압력이 없는 통계적 시뮬레이션 객체. 의인화하지 말고, 어디서 동작하고 어디서 실패하는지 경험적으로 학습해야 한다.
-
생각은 외주줄 수 있어도, 이해는 외주줄 수 없다
에이전트가 사고를 떠맡을수록 인간의 병목은 이해로 이동한다. 무엇이 가치 있는지, 어떤 결과가 의심스러운지, 어떤 트레이드오프가 받아들일 만한지는 여전히 사람이 결정한다.
핵심 인물
본문 — 일곱 개의 매듭
대담은 Sequoia AI Ascent 2026 무대에서 시작됐다. Konstantine Buhler가 카르파시를 "AI 혁명의 교사"로 소개하자, Stephanie Zhan은 곧장 가장 자극적인 질문을 던졌다. "몇 달 전 '프로그래머로서 이렇게 뒤처진 적이 없다'고 하셨죠. 당신 같은 사람이? 그 감정은 흥분이었나요, 불안이었나요?" 카르파시의 답은 짧고 정확했다: "둘 다요."
2025년 12월, 무언가 바뀌었다
2025년 한 해 동안 Claude Code, Codex 같은 도구들은 "꽤 도움이 되지만 자주 고쳐줘야 하는" 상태에 머물러 있었다. 12월 휴가 기간에 시간이 늘어났고, 그가 새 모델들에 더 많은 작업을 맡기기 시작했을 때 변화가 보였다. 코드 청크가 점점 더 길게, 더 일관되게 돌아왔고, 점점 더 신뢰하게 됐다.
그의 진단은 명확하다. AI를 ChatGPT 옆에 붙은 부속물로 경험했던 사람이라면, 12월 이후 다시 한 번 보라는 것이다. 에이전트형, 일관된 워크플로우는 그때부터 실제로 작동하기 시작했다. 이 시점에서 그의 사이드 프로젝트 폴더가 폭발적으로 늘었고, 그 여파를 지금도 추적 중이라고 한다.
Software 3.0 — 컨텍스트가 새로운 코드
Stephanie가 "팀이 이 패러다임 전환을 진짜로 믿게 되는 날, 무엇을 다르게 만들어야 하나"라고 묻자, 카르파시는 자신의 시퀀스를 다시 펼친다.
그가 든 결정적인 예가 "설치"다. 옛 패러다임에서는 다양한 환경에 대응하는 셸 스크립트를 만들어야 했고, 그 스크립트는 곧 비대해지고 부서지기 쉬워졌다. OpenClaw라는 도구의 설치 방식은 그 반대였다. "이 텍스트 블록을 복사해 당신의 에이전트에게 붙여넣으세요." 에이전트가 환경을 살피고, 오류를 디버그하고, 적응한다. 더 부정확하지만, 더 적응적이다.
MenuGen — "이 앱은 존재하지 말았어야 했다"
식당에서 메뉴판에 그림이 없어 무엇인지 모르는 경험을 해결하려고, 그는 메뉴판 사진을 찍으면 OCR로 메뉴명을 뽑고, 이미지 생성으로 음식 그림을 만들어 주는 앱을 만들었다. Vercel 위에 배포했고, 결제도 붙였다. 흠잡을 데 없는 클래식한 풀스택 앱이었다.
그러다 그는 같은 일을 Software 3.0 방식으로 다시 보았다. 메뉴 사진을 멀티모달 모델(Gemini의 Nano Banana)에게 주고, "이 메뉴 사진에 음식 이미지를 직접 그려서 돌려줘"라고 시키면 끝이었다. 프론트엔드도, OCR 파이프라인도, 별도 이미지 생성 호출도 필요 없었다. 앱 전체가 신경망이 직접 수행하는 변환의 비계(scaffolding)에 불과했던 것이다.
많은 코드는 존재하지 말았어야 합니다. 신경망이 일을 거의 다 하고 있으니까요.
Andrej Karpathy on MenuGen
창업자에게 주는 함의는 명확하다: AI는 기존 앱을 더 빠르게 만들어주는 도구만이 아니다. 일부 앱은 앱으로 존재해서는 안 된다. 입력 미디어가 직접 출력 미디어로 변환되는 영역이 점점 넓어진다.
검증 가능성이 자동화의 지도를 그린다
그의 핵심 프레임은 두 줄로 압축된다.
LLMs automate what you can verify.
자동 보상 신호가 있는 작업 — 수학, 코딩, 테스트, 벤치마크, 게임 — 은 모델이 반복해서 연습할 수 있다. 그래서 빠르게 좋아진다. 코딩 에이전트가 일반 챗봇보다 훨씬 더 잘 작동하는 이유도 같다. 테스트가 통과하느냐 실패하느냐, 프로그램이 도느냐 망가지느냐, diff가 어떻게 생겼느냐 — 모두 검증 가능하다.
다만 검증만으로는 부족하다 — Jagged Intelligence
대담에서 그는 한 가지 정교화를 덧붙인다. 모델의 능력은 단지 "그 작업이 검증 가능한가"에만 좌우되지 않는다. 연구실(lab)이 어디에 학습 주의를 기울였는가가 결정적이다. 그가 제시한 거친 공식은 다음과 같다.
체스가 좋은 예다. GPT-3.5에서 GPT-4로 넘어가며 체스 실력이 급상승한 것은, 일반 지능이 전반적으로 좋아져서라기보다, 학습 데이터에 체스 데이터가 대거 포함됐기 때문이라고 그는 추정한다.
딸기와 세차장 — Jaggedness의 단면
이를 보여주는 가장 유명한 예시들이 있다. "strawberry"에 r이 몇 개인가? 한때 모델들이 자주 틀렸다. 더 최근 예시: "세차장이 50미터 거리인데 차를 몰고 갈까요, 걸어갈까요?" 최신 모델이 "가까우니 걸어가세요"라고 답하기도 한다.
10만 줄짜리 코드베이스를 리팩토링하고 제로데이 취약점을 찾아낼 수 있는 모델이, 세차장까지 50미터를 차로 갈까 걸어갈까에서는 헛소리를 합니다. 그게 jaggedness예요.
Andrej Karpathy
실용적 결론: 모델은 매뉴얼 없이 나온다. 어느 회로에서 RL을 받았는지 알 수 없다. 당신의 응용이 그 회로 안이라면 날아간다. 밖이라면 비참하게 실패한다. 창업자는 자기 도메인이 그 지도 위 어디에 위치하는지 탐색해야 한다.
바이브 코딩은 바닥을, 에이전틱 엔지니어링은 천장을 올린다
작년에 자기가 만든 단어 "바이브 코딩"의 후속을 묻자, 그는 깔끔하게 두 개념을 분리한다.
그는 못을 박는다. "바이브 코딩 때문에 취약점을 만들어도 된다는 면제부는 없습니다. 당신은 여전히 당신 소프트웨어에 책임이 있어요. 다만 더 빨리 할 수 있죠. 어떻게 하면 그걸 제대로 할 수 있는지가 핵심 질문입니다."
"10x 엔지니어"라는 옛 비유는 이제 부족하다. 에이전트를 잘 부리는 사람과 그렇지 못한 사람의 격차는 10배가 아니라 그 이상이 된다는 게 그의 예측이다.
채용도 바뀌어야 한다
그가 강하게 주장하는 것 중 하나: 채용 프로세스가 옛 패러다임에 머물러 있다. 작은 알고리즘 퍼즐을 풀게 하는 면접은 더 이상 적절하지 않다. 그가 제안하는 면접은 이렇다 — "트위터 클론을 에이전트들을 위해 만들어 보세요. 안전하게 만드세요. 그러면 제가 Codex 에이전트 10개를 풀어서 그 사이트를 뚫어보겠습니다. 뚫리면 안 됩니다."
LLM은 동물이 아니라 귀신이다
카르파시가 자기 블로그에서 다듬어 온 표현 — Animals vs. Ghosts — 의 의미를 다시 묻자, 그는 답한다.
동물은 진화가 만들어낸 존재다. 생존 압력, 체현된 감각, 호기심, 놀이, 내재적 동기가 있다. LLM에는 그 어느 것도 없다. 그것은 사전학습·사후학습·강화학습·제품 피드백·경제적 인센티브가 빚어낸 통계적 시뮬레이션이다. 외계 같지만 인간 산물의 평균을 합성한 외계다.
그래서 한 순간 천재 같다가 다음 순간 어이없이 멍청하다. 매끄러운 인간 정신이 아니라, 들쭉날쭉한 외계 도구다. 올바른 태도는 무시도 맹신도 아닌 경험적 친숙함 — 어디서 작동하는지, 어디서 실패하는지, 어떤 가드레일이 필요한지 직접 학습하는 것.
"생각은 외주줄 수 있어도 이해는 외주줄 수 없다"
마지막 질문은 교육이었다. 지능이 저렴해진 세상에서 깊이 배울 가치가 남는 것은 무엇인가. 카르파시는 최근 자기 머리를 흔들었다는 한 줄짜리 트윗을 인용한다.
You can outsource your thinking, but you can't outsource your understanding.
카르파시가 인용한 트윗
에이전트가 사고를 떠맡을수록, 인간 쪽 병목은 이해로 이동한다. 무엇이 만들 가치가 있는지, 어떤 질문이 중요한지, 어떤 결과가 의심스러운지, 어떤 트레이드오프가 받아들일 만한지 — 이걸 결정하려면 이해가 있어야 한다. 정보가 여전히 사람 머리로 흘러 들어가야 한다는 뜻이다.
그가 흥미를 느끼는 것은 그래서 LLM 지식 베이스(LLM Wiki) 같은 도구다. 답을 주는 기계가 아니라, 정보를 다른 각도로 투영해 이해를 증폭시키는 기계. 그의 microGPT 프로젝트도 같은 맥락이다. 의존성 없는 단일 파일 GPT 구현 — 사람도, 에이전트도 들여다볼 수 있는 작은 교육적 산물.
대담의 마지막. Stephanie가 농담한다. "몇 년 뒤에 다시 와서, 우리가 완전히 자동화 바깥으로 밀려났는지, 이해마저 모델이 떠맡았는지 확인해야겠네요." 카르파시는 짧게 감사를 표하고, 무대를 나선다.
주요 키워드
팩트체크
이번 대담의 1차 자료는 카르파시 본인이 발행한 정리본(karpathy.bearblog.dev/sequoia-ascent-2026)이며, 본인이 직접 "AI가 생성한 클린업 트랜스크립트지만 본인이 검토해 큰 오류는 없다"고 밝혔다. 따라서 인용·주장 관계의 사실관계는 안정적이다. 다만 매체와 후속 보도들 사이에 일부 표현 차이가 있다.
Claude의 인사이트
카르파시의 대담이 흥미로운 것은 그가 새 사실을 발표해서가 아니라, 이미 일어나고 있는 변화에 정확한 이름을 붙이기 때문이다. 그래서 그가 의도적으로 비워둔 자리, 혹은 그가 한 말이 실은 더 폭발적인 의미를 가지는 지점들이 있다. 다섯 가지로 정리한다.
"바닥 vs 천장"의 이분법이 가린 것 — 중간이 사라진다
바이브 코딩이 바닥을 올리고 에이전틱 엔지니어링이 천장을 올린다는 비유는 깔끔하지만, 이 둘 사이의 중간 — 평범한 직업 프로그래머가 어디로 가는지는 의도적으로 비워져 있다. 카르파시는 천장에 도달하는 사람을 응원하는 모드지만, 산업 전체에서 보면 "평균적 코드 작성 능력"의 시장 가치가 가장 빠르게 무너지는 구간일 가능성이 크다. 바이브 코더는 비전문가니까 가격이 낮고, 에이전틱 엔지니어는 희소하니까 가격이 높다. 가운데가 가장 위태롭다. 카르파시는 친절하게 이 부분을 말하지 않지만, 그의 프레임이 함축하는 결론이다.
"동물 아닌 귀신"이 가진 정치적 함의
카르파시의 ghost 비유는 종종 의인화 반대 논거로만 읽히지만, 더 깊은 함의가 있다. 동물이라면 권리, 책임, 인격성에 대한 도덕적 논의가 가능하다. 귀신은 그렇지 않다. 카르파시는 의도하지 않았겠지만, 이 비유는 AI에게 도덕적 지위를 부여하려는 모든 시도를 한 발 멀리 밀어내는 효과를 낸다. "이건 통계적 시뮬레이션이지 살아있는 무엇이 아니다"라는 입장은 안전성 논쟁, AI 권리 논쟁, AI 정렬 논쟁에서 매우 특정한 정치적 위치를 갖는다. 그 위치가 옳을 수도 있지만, 그게 정치적이지 않다고는 할 수 없다.
"채용을 바꾸라"는 말이 가장 폭발적이다
대담에서 카르파시가 던진 채용 면접 제안 — "트위터 클론을 만들고 보안까지 잡으세요, 그러면 제가 Codex 10개로 뚫어보겠습니다" — 은 한국 IT 기업에 가장 즉각적이고 폭발적인 함의를 가진다. 현재 한국 대형 IT 채용은 여전히 백준·코딩 테스트 중심이다. 카르파시의 프레임을 받아들이면, 이 면접 방식은 옛 패러다임의 측정 도구로 신패러다임의 인재를 거르는 셈이 된다. 즉, 가장 능력 있는 에이전틱 엔지니어가 면접에서 가장 불리해질 수 있다는 역설이다. 채용 시스템 자체가 누가 진짜 천장을 향해 갈 사람인지 식별할 능력을 잃은 것일 수도 있다.
"검증 가능성" 프레임의 한계
검증 가능성이 자동화의 속도를 결정한다는 명제는 강력하지만, 카르파시가 가볍게 지나친 반례가 있다. 그는 "글쓰기조차 LLM 심사위원단으로 검증 가능"이라고 했지만, 이는 검증 가능성을 누가 정의하느냐는 문제를 무시한다. LLM 심사위원단이 동의하는 좋은 글이, 인간 독자가 가치 있다고 여기는 글과 같다는 보장이 없다. 검증의 기준이 좁아지면 자동화는 빨라지지만 결과는 빈약해진다. 카르파시의 프레임에는 "검증 가능한 일은 자동화된다"는 명제와 함께 "검증 가능하게 만드는 과정에서 잃는 것은 무엇인가"라는 질문이 같이 따라와야 한다. 그가 의식적으로 비워둔 자리다.
한국 개발자/창업자 관점 — "에이전트 네이티브 인프라"의 기회와 함정
카르파시는 "문서·CLI·API·로그가 에이전트를 1차 사용자로 가정해 다시 쓰여야 한다"고 했다. 한국 개발 환경에서 이 말은 두 가지 의미를 가진다. 기회 측면으로는 — 국내 SaaS·DevOps 도구·금융 API들이 대부분 사람이 클릭하는 GUI 중심으로 설계돼 있어, 에이전트 네이티브로 다시 짓는 인프라 시장이 거의 비어 있다. 함정 측면으로는 — 한국 행정 시스템, 금융 인증, 본인 인증 흐름이 OTP·공인인증·캡차 등 "에이전트가 통과하기 어렵게" 설계된 보안 게이트로 가득하다. 카르파시의 비전은 미국식 OAuth·API 중심 인프라를 전제로 하는데, 한국은 정반대 방향으로 진화한 면이 많다. 에이전트 네이티브 인프라를 한국에 가져오려면 기술적 재구축뿐 아니라 제도적 게이트와도 협상해야 한다.
가장 중요한 한 줄
이 모든 대담을 압축하는 한 문장이 있다. 카르파시가 인용했고, 본인의 결론으로 가져온 그 문장 — "You can outsource your thinking, but you can't outsource your understanding." 이 말이 진정으로 위협적인 이유는, 그것이 단지 교육론이 아니라 고용 가능성과 시장 가치를 결정하는 새 기준이기 때문이다. AI 시대에 살아남는 직업은 "사고를 잘 외주하는 사람"이 아니라 "이해를 가진 사람"이다. 그리고 이해는 가르칠 수 있지만 자동화하기는 어렵다. 적어도 지금까지는. 카르파시가 Eureka Labs를 차린 이유, 이 대담을 한 이유, 그가 microGPT 같은 작은 단일 파일을 자꾸 만드는 이유 — 모두 같은 베팅을 향한다: 이해를 만들어내는 도구를 가진 자가 다음 10년의 가장 희소한 자원이 된다.