AI Frontier — 팟캐스트 아카이브

01 AI 기술 딥다이브 YouTube

GROK3를 맞이하며 AI 세상에 대한 관점 정비하기

Grok 3 출시를 계기로 컴퓨트·알고리즘·서비스 세 가지 렌즈로 AI 산업의 현황을 정리하고, 모델 성능 추적보다 '가전제품 만들기'에 집중해야 할 때가 왔음을 역설한다.

빠르게 변하는 AI 세상과 관점의 필요성

ChatGPT 출시(2022년 11월) 이후 놀라움을 느끼는 주기가 연 단위에서 주 단위로 줄어들었고, arXiv에 하루 500~1,000개의 AI 논문이 올라오는 시대가 됐다. 노정석은 이 지수함수적 변화를 해석하기 위해 '컴퓨트·알고리즘·서비스'라는 세 가지 카테고리 프레임을 2020년부터 유지해 왔으며, 그 관점이 여전히 유효하다고 말한다.

컴퓨트: 상향 평준화되는 모델 품질

xAI는 20만 개의 GPU로 구성된 데이터센터를 122일 만에 자체 구축해 Grok 3를 출시했다. 컴퓨테이션 총량이 2배 늘어도 성능 향상은 스케일링 법칙에 따라 loss 24% 감소 수준에 그쳐 체감 차이는 크지 않다. 그러나 벤치마크 인덱스로 보면 OpenAI, Google, Anthropic, Meta, xAI 모두 프론티어 모델 품질이 빠르게 상향 평준화되고 있으며, OpenAI의 선두 우위가 흔들리고 있다.

알고리즘: DeepSeek R1과 S1이 보여준 데이터의 힘

DeepSeek R1은 강화학습(RL)으로 인스트럭터 모델을 리즈닝 모델로 변환할 수 있음을 공개적으로 증명했다. 이어 스탠포드 S1 논문은 단 1,000개의 고품질·고난도 데이터셋만으로 Qwen 3B 모델을 OpenAI o1-preview 수준으로 끌어올렸다. 노정석은 이를 '텍스트북 is All You Need'로 요약하며, 좋은 데이터 1,000개가 방대한 컴퓨트보다 강력할 수 있음을 강조한다.

선순환의 굴레: 합성 데이터와 차세대 모델

프론티어 모델이 좋아질수록 고품질 합성(synthetic) 데이터가 생성되고, 그 데이터로 다음 세대 모델과 소형 모델을 학습시키면 다시 품질이 올라가는 선순환이 구동 중이다. 리즈닝 모델과 인스트럭터 모델의 경계도 사라지고 있으며, 테스트 타임 컴퓨트를 통해 생성된 데이터가 다음 훈련에 재투입되는 구조가 ASI(초인공지능) 등장 때까지 지속될 것이라고 전망한다.

인텔리전스 가격은 0에 수렴한다

여러 플레이어가 경쟁하면서 AI 인텔리전스의 공급 가격은 궁극적으로 0에 수렴할 것이다. 사람들은 필요한 업무를 처리할 수 있는 가장 싼 모델을 선택하기 때문에, 경쟁이 심화될수록 가격은 계속 낮아진다. 이 시점에서 '30원이냐 40원이냐'를 논쟁하는 것은 의미가 없다고 본다.

모델 추적을 멈추고 가전제품에 집중할 때

CPU 스펙을 달달 외워도 자신의 수익과 무관하듯, 모델 성능 뉴스 추적도 마찬가지라고 말한다. 전기처럼 인텔리전스가 콘센트처럼 어디서나 쓸 수 있게 되면, 중요한 건 그 전기를 활용해 만드는 가전제품(서비스·제품)이다. 노정석은 이제 '모델 팔로잉'을 그만하고 '가전제품 만들기'에 미친 듯이 집중할 시기라고 결론짓는다.

"좋은 교과서 하나만 있으면 다 된다라는 거를 보여 주는 거죠."

노정석 (S1 논문의 1,000개 고품질 데이터 결과에 대해)

"인텔리전스의 가격이 0으로 수렴해 가고 있다는 거, 에이 좋은 모델은 더 비싸게 파는 거 아니야 근데 이게 참 생각을 해 보면 두 배 좋은데 가격이 열배 비싸다라고 하면 사람들이 아마 그거 안 쓸 거예요."

노정석

"지금 모델이 어떻다 얘기하는게 꼭 CPU 스펙 외우는 꼴과 비슷한 거 같은 느낌이 들어서 어 저는 이제 요거는 이제 그만하려고 그래요."

노정석

"인텔리전스 아웃렛이 달리기 시작을 할 건데 … 뭐가 중요한 걸까 뭘 만들어야 될까라는 생각을 해보면 그냥 전기의 비유를 갖고 와서 생각을 해 보면 당연히 요런 것들이 아아 우리의 삶을 더 윤택하게 만드는 각종 어플라이언스를 가전제품들이죠."

노정석

"이제는이 모델에서 일어나는 거 팔로잉을 그만하고 가전 제품에 집중해야 되겠다라는 생각을 요새 강력하게 하고 있는 중입니다."

노정석

스케일링 법칙 (Scaling Law): 컴퓨테이션을 2배 늘릴 때 모델 성능(loss)이 약 24% 개선된다는 경험적 법칙. 2020년 OpenAI 논문에서 처음 정리됐으며, 무한정 컴퓨트를 투입해도 성능 향상 폭은 점점 줄어든다.
테스트 타임 컴퓨트 (Test-Time Compute, TTC): 모델 훈련이 끝난 후에도 실제 답변을 생성하는 '추론' 단계에서 더 많은 계산 자원을 투입해 성능을 높이는 기법. 오래 생각할수록 더 나은 답을 내놓는다.
리즈닝 모델 (Reasoning Model): 단순히 답을 내놓는 대신, 중간 추론 과정을 길게 전개하며 문제를 푸는 모델. OpenAI o1, DeepSeek R1이 대표적이다.
디스틸레이션 (Distillation, 증류): 크고 강력한 모델이 만들어낸 고품질 데이터를 소형 모델에 학습시켜, 작은 모델도 큰 모델에 준하는 성능을 내게 하는 기법.
SFT (Supervised Fine-Tuning): 이미 사전 학습된 모델에 레이블이 붙은 고품질 데이터를 추가 학습시켜 특정 작업에 특화시키는 방법.
MOE (Mixture of Experts): 모델 내부에 여러 전문가(expert) 네트워크를 두고, 입력에 따라 일부만 활성화해 전체 파라미터 수 대비 연산 효율을 높이는 아키텍처.
합성 데이터 (Synthetic Data): 실제 인간이 만든 데이터가 아니라 AI 모델이 스스로 생성한 데이터. 데이터 부족 문제를 해결하는 핵심 수단으로 부상하고 있다.
인텔리전스 아웃렛: 전기 콘센트처럼 AI 인텔리전스가 어디서나 API 형태로 손쉽게 연결되어 쓸 수 있게 되는 미래 상태를 빗댄 표현.
GPQA (Graduate-Level Google-Proof Q&A): 대학원 수준의 과학 문제로 구성된 AI 벤치마크. 전문가도 쉽게 검색으로 풀 수 없는 문제를 포함한다.
KV 캐시 (Key-Value Cache): Transformer 모델이 이전에 처리한 토큰 정보를 저장해 반복 계산을 줄이는 메모리 최적화 기법.

Grok3DeepSeek R1S1스케일링 법칙합성 데이터리즈닝 모델테스트 타임 컴퓨트디스틸레이션인텔리전스 가격상향 평준화가전제품 비유

02 AI 비즈니스 & 산업 YouTube

AI 비지니스 생존전략

"Non-verifiable data domain is All You Need"라는 명제 아래, 스타트업이 프론티어 모델의 공세에서 살아남으려면 알고리즘적으로 검증 불가능한 영역에서 클로즈드 루프 데이터 환경을 구축해야 한다고 주장한다.

AI 시대 돈 버는 두 가지 축

AI 산업에서 실질적인 가치 포착이 일어나는 곳은 크게 두 군데다. 첫째는 NVIDIA 같은 칩 제조사부터 클라우드 오케스트레이션까지 이어지는 'AGI 인프라' 레이어다. 둘째는 테슬라처럼 명확한 수직 vertical을 갖고 AI 서비스로 각 레이어를 연결한 '수직 통합' 영역이다. 알고리즘(모델 개발) 레이어는 Commoditize가 가장 심하게 진행되고 있어, 빅테크 취직이나 교수직이 아닌 이상 자본적으로 가장 불리한 위치라고 진단한다.

프론티어 모델은 이미 초인간적 영역에 근접

Dario Amodei(Anthropic CEO)는 2027년이면 모든 영역에서 인간을 뛰어넘는 모델이 나올 것이라 공언하고 있다. DeepSeek R1 이후 Grok, Llama 3, Claude 3.7, GPT-4·5, Gemini 2.0 등이 연달아 나오며 불과 두세 달 사이에 어마어마한 발전이 일어났다. verifiable(검증 가능)한 영역, 즉 수학·과학·코딩은 강화학습으로 데이터셋이 자동 생성되는 단계로 넘어가 프론티어 모델이 사실상 완전히 장악했다.

검증 불가능한 영역으로의 전략적 도피

verifiable reward function을 알고리즘적으로 만들 수 없는 영역, 즉 인간의 취향·감성·주관이 개입하는 도메인은 프롬프트 워크나 에이전트 조합으로도 참/거짓 레이블을 자동 생성할 수 없다. 예컨대 노정석의 뷰티 서비스에서 메이크업 조합에 대한 '좋아/싫어' 판단은 인간만이 명확한 레이블을 줄 수 있다. 이처럼 인간의 피드백 루프가 필수적인 데이터 영역이야말로 프론티어 모델이 절대 대체할 수 없는 고유한 moat가 된다.

Non-verifiable을 Verifiable로 바꾸는 클로즈드 루프 시스템

핵심 통찰은 '독점 데이터'를 한 걸음 더 구체화하는 것이다. 진짜 강점 있는 AI 서비스는 non-verifiable한 것을 verifiable로 전환해 주는 환경(closed-loop system)을 갖춰야 한다. 테슬라 오토파일럿 카메라가 급제동·급가속 상황을 비전 데이터와 매핑해 레이블을 생성하듯, 사용자의 클릭·시선·반응이 자동으로 레이블이 되는 구조가 이에 해당한다. 노정석은 이를 simulator이거나 AI 서비스라고 정의한다.

두 가지 스타트업 경로와 GTM의 중요성

프론티어 모델 위에 서비스 레이어를 올리는 '1번 경로'는 Cursor처럼 빠른 실행력과 GTM(Go-To-Market) 능력이 핵심이다. 기술보다 비즈니스 센스가 더 중요한 영역이다. 기술 창업가라면 프론티어 모델이 다루지 못하는 vertical에서 non-verifiable → verifiable 환경을 구축하는 '2번 경로'가 더 지속 가능한 전략이다. 노정석은 "OpenAI가 내년에 끝내버릴 영역으로 가고 싶지 않다"며 이를 '도피 일기'라고 유머러스하게 표현한다.

실습 제안: AI에게 직접 물어보기

노정석은 자신의 발표 슬라이드 내용을 그대로 ChatGPT·Claude·Gemini에 붙여 넣고, "내 도메인에서 non-verifiable을 verifiable로 바꿔주는 closed-loop system의 예제를 알려줘"라고 질문해 볼 것을 권한다. 자신의 도메인을 잘 모르는 AI가 오히려 다양한 예제를 훌륭하게 제시해 준다고 경험을 공유한다.

"검증 불가능한 영역으로 그럼 도망가면 되겠구나."

노정석

"처음에 evaluation 틀이 명확하게 상상 안 되는 프로젝트는 시작하면 안 된다."

노정석

"이것의 제일 큰 주제는 어떻게 도망갈까예요. 어떻게 도망갈까에 대한 도피 일기인 것이지 이게 그다지 막 자랑스러운 내용은 사실은 아니죠."

노정석

"open-endedness 쪽에서는 agent만이 아니라 환경도 trainable object로 보거든요. 그래서 그 둘 사이의 관계가 막 엮여 들어가는 부분이 있는데 문득 그 생각이 들었어요."

최승준 (non-verifiable → verifiable 환경 개념에 공명하며)

"로그로 바꿔 보면 지금 linear하니까 이거 엄청 exponential한 거죠. 그렇죠. 그래서 지금은 2027년에 AI가 될까 말까라는 고민이 무의미하지 않을까요? 된다라는 가정하고 뭘 하는 것이 맞겠죠?"

노정석

Verifiable Reward Function (검증 가능한 보상 함수): 강화학습에서 AI가 내놓은 답이 맞는지 틀린지를 알고리즘적으로 자동 판정할 수 있는 기준. 수학·코딩처럼 정답이 명확한 분야에만 적용 가능하다.
Non-verifiable Domain (검증 불가능한 영역): 인간의 취향·감성·가치 판단이 개입해 참/거짓을 알고리즘으로 자동 결정할 수 없는 영역. 예술, 뷰티, 교육, 헬스케어의 주관적 판단 등이 해당한다.
Closed-Loop System (클로즈드 루프 시스템): 서비스 사용자의 행동·피드백이 자동으로 레이블 데이터로 전환되어 모델 개선에 재투입되는 순환 구조. 테슬라 오토파일럿이 대표적인 예다.
Data Flywheel (데이터 플라이휠): 데이터 → 서비스 개선 → 더 많은 사용자 → 더 많은 데이터로 이어지는 자기 강화 선순환 구조.
GTM (Go-To-Market): 제품이나 서비스를 시장에 출시하고 고객을 획득하는 전략과 실행 과정 전반을 뜻한다.
Moat (해자): 경쟁자가 쉽게 복제하거나 따라올 수 없는 경쟁 우위. 원래 성을 둘러싼 방어용 수로에서 유래한 비즈니스 용어.
VLA (Vision Language Action): 시각 정보와 언어 이해를 결합해 로봇이나 에이전트가 실세계에서 행동할 수 있게 하는 멀티모달 모델 아키텍처.
Distillation (증류): 대형 모델이 만든 고품질 데이터를 소형 모델에 학습시켜 소형 모델의 성능을 크게 끌어올리는 기법.
Open-endedness (열린 끝 연구): 에이전트와 환경이 함께 진화하며 끝없이 새로운 과제를 생성·해결하는 강화학습 연구 분야.
Commoditize / Democratize: 특정 기술이 범용화되어 누구나 저렴하게 접근할 수 있는 상태가 되는 것. 알고리즘 레이어가 가장 심하게 진행 중이라고 설명된다.

non-verifiable dataverifiable reward functionclosed-loop systemdata flywheelproprietary data수직 통합GTMAGI 인프라디스틸레이션스타트업 전략도피 일기

03 최신 모델 리뷰 YouTube

AI 산업계 3월에 일어난 일들

2025년 3월 한 달간 AI 업계에서 벌어진 주요 사건들을 최승준이 주마간산으로 정리하고, 노정석과 함께 Gemini 2.5, GPT-4o 이미지 생성, MCP 확산, xAI의 X 인수 등 핵심 이슈에 대해 짧은 논평을 나눈다.

3월 초: 포스트 트레이닝과 국가 안보 보고서

Nathan Lambert는 대형 모델을 F1 엔진에 비유하며, 같은 엔진이더라도 팀이 붙어 사후 훈련(post-training)을 정교하게 하면 시즌 중에도 성능이 계속 향상된다고 설명했다. 3월 6일에는 Dan Hendrycks, Eric Schmidt, Alexandr Wang이 공동 작성한 '슈퍼인텔리전스 전략' 보고서가 공개되었다. AI를 핵무기에 준하는 전략 자산으로 다뤄야 한다는 국가 안보적 관점의 내용이 담겼다. OpenAI의 월 구독 요금이 20달러·200달러에서 2,000달러·20,000달러 상위 플랜으로 확장될 것이라는 루머도 이 시기에 나왔다.

3월 중순: MCP 확산과 Gemini의 대규모 발표

3월 11일 Blender를 Claude가 직접 제어해 3D 씬을 만드는 Blender MCP가 크게 바이럴됐다. MCP 서드파티 서버가 폭발적으로 늘어나며 Zapier·Figma까지 연동되는 상황이다. 3월 12일 Google은 Gemma 3와 네이티브 이미지 처리 기능을 발표했고, Gemini Deep Research도 2.0 버전으로 업그레이드했다. 같은 날 유튜브 영상을 영상·오디오 토큰 그대로 입력으로 처리하는 기능도 공개됐으며, 30분 이하 영상에서는 약 40만 토큰을 소비하는 것으로 테스트됐다.

GPT-4o 네이티브 이미지 생성과 지브리 열풍

3월 25일 GPT-4o의 네이티브 이미지 생성 기능이 출시되며 지브리 스타일 이미지 변환이 타임라인을 가득 채웠다. 기술 구현 방식에 대해서는 순수 오토리그레시브 정공법이라는 설과 복합적인 시스템이라는 두 가지 관점이 공존하는 상황이다. 이미지 생성 스타트업(ComfyUI 진영 등)에 대한 영향이 클 것이라는 우려도 나왔다. 같은 날 Gemini 2.5도 공개됐으며, 노정석은 o1-pro 200달러 요금제를 해지할 것을 고려할 정도로 체감 품질이 높다고 평가했다.

Anthropic의 '생각하기(Think)' 도구와 내부 계획 연구

3월 20일 Anthropic은 '툴(Think)' 기법을 소개했다. 단순히 더 많은 추론 토큰을 쓰게 하는 것이 아니라, 응답 중간에 멈추고 생각할 공간을 프롬프트 설계로 제공하는 방식이다. 이어 Anthropic 연구팀은 Claude가 시를 생성할 때 현재 토큰뿐 아니라 몇 단계 앞의 단어(특히 라임)를 미리 계획한다는 실험 결과를 발표했다. 이는 "다음 토큰만 예측한다"는 통념과 달리 모델 내부에 단기 계획 능력이 있음을 시사한다.

MCP 표준화와 xAI의 X 인수

OpenAI 에이전트 SDK와 Microsoft Copilot Studio가 MCP를 공식 지원하겠다고 선언하며 업계 표준으로 자리잡고 있다. 노정석은 MCP를 "함수 호출(function calling) 구조를 표준화한 것"으로 이해하고 있다. 3월 말 xAI가 X(구 Twitter)를 인수하며 일론 머스크는 AI 플랫폼화 전략을 가속화했다. 한편 Meta와 Mistral은 3월 내내 눈에 띄는 소식이 없어 "조용한 3월"을 보냈다는 평가를 받았다.

AI 서비스 UX의 수렴과 향후 전망

ChatGPT·Claude·Gemini 모두 Canvas·Artifacts 같은 코드 및 문서 편집 UI, 웹 검색 연동, 함수 호출 표준화라는 방향으로 UX가 빠르게 수렴하고 있다. NotebookLM에 마인드맵 기능이 추가되어 논문·PDF의 아웃라인을 시각적으로 탐색할 수 있게 됐다. 4월·5월에도 Google I/O와 Microsoft Build가 예정되어 있어 발표 러시가 이어질 전망이다.

"구글이 많이 따라왔다는 표현이 좀 희한하긴 한데, 어쨌든 계속 서로 비슷한 시기에 발표하면서 이렇게 경쟁을 치고 나가고 있잖아요."

최승준

"구글과 OpenAI가 결정적으로 다른 부분이 하나 있다면 구글은 그 수익 모델이 있고 OpenAI는 없거든요. 그래서 그것들의 차이가 꽤 크리티컬하게 동작하지 않을까 싶어요."

노정석

"따라가다 우리 집 소를 놓치겠더라고요 진짜."

노정석 (끊임없는 AI 뉴스 추적의 피로감을 표현하며)

"모델이 내부적으로 몇 단계 앞을 예측한다. 그거를 알려고 한 실험이 아니라 다른 거를 못 한다를 증명하려고 했는데 시도했던 건데 오히려 그게 된다는 걸 알아내는 그런 얘기들이 좀 적혀 있었습니다."

최승준 (Anthropic 내부 계획 연구에 대해)

"다 쓸만해요. 진짜. 그록도 그렇고 GPT 4.5도 그렇고."

노정석

MCP (Model Context Protocol): Anthropic이 제안한 AI 모델과 외부 도구(데이터베이스, API, 파일 시스템 등) 사이의 표준 인터페이스. 다양한 에이전트 환경에서 모델이 외부 기능을 일관된 방식으로 호출할 수 있게 한다.
포스트 트레이닝 (Post-Training): 기본 모델 훈련이 끝난 후 RLHF, SFT, 기타 파인튜닝 등을 통해 모델을 더욱 다듬는 단계. Nathan Lambert의 F1 비유에서 '팀이 붙어 엔진을 조율하는 과정'에 해당한다.
오토리그레시브 (Autoregressive): 이전에 생성한 토큰(단어·픽셀 등)을 입력으로 받아 다음 토큰을 순차적으로 생성하는 방식. GPT 계열 모델의 기본 생성 원리이다.
ARC-AGI: François Chollet이 만든 AGI 측정 벤치마크. 사람은 쉽게 풀지만 AI는 어려운 추상적 패턴 인식 문제로 구성된다. ARC-AGI 2는 난이도를 더 높인 버전으로 2025년 3월 공개됐다.
NotebookLM: Google이 제공하는 AI 기반 노트·연구 보조 도구. PDF·유튜브·문서를 소스로 추가하면 질의응답, 요약, 마인드맵 생성 등을 제공한다.
GTC (GPU Technology Conference): NVIDIA가 매년 개최하는 AI·GPU 기술 컨퍼런스. 2025년 3월 17~21일에 열렸으며, 칩 로드맵과 로보틱스 계획이 발표됐다.
Gemma: Google이 오픈소스로 공개하는 경량 언어 모델 시리즈. Gemma 3는 멀티모달 기능을 지원한다.
Think 도구 (Claude Extended Thinking): Anthropic이 도입한 기능으로, Claude가 최종 답변 전에 내부적으로 긴 추론 과정을 거치게 한다. 어려운 문제에서 성능 향상 효과가 있다.
Sparse Autoencoder (SAE): 모델 내부의 특정 개념이나 기능이 어떻게 표현되는지 해석하기 위해 쓰는 신경망 도구. Anthropic의 내부 계획 연구에 활용됐다.
Deep Research: 복잡한 질문에 대해 AI가 여러 웹 소스를 검색·종합해 긴 리포트를 자동으로 작성하는 기능. OpenAI와 Google 모두 제공하고 있다.

Gemini 2.5GPT-4o 이미지 생성MCPBlender MCPClaude ThinkxAI X 인수NotebookLM 마인드맵GTC 2025ARC-AGI 2지브리 스타일포스트 트레이닝

04 AI 실전 활용 YouTube

바이브코딩 인트로 세션

최승준이 '인공 호기심'이라는 개념을 실험하며, 모델 스스로 꼬리에 꼬리를 무는 사고를 반복하게 하는 프롬프팅 기법이 바이브 코딩·창의적 산출물 생성의 새로운 가능성을 열어줌을 탐구한다.

바이브 코딩과 카오스 코딩의 개념

Andrej Karpathy가 2월 3일 '바이브 코딩(Vibe Coding)'을 소개한 이후 3월 말까지 폭발적으로 바이럴됐다. Matthew Berman은 이를 더 극단화한 '카오스 코딩(Chaos Coding)'을 제안했다. 바이브 코딩이 AI와 협업하면서도 어느 정도 방향을 통제하는 방식이라면, 카오스 코딩은 "계속해 줘"만 반복하며 통제 의도 자체를 내려놓고 AI의 추진력에 전적으로 맡기는 방식이다.

인공 호기심 실험: 꼬리의 꼬리를 무는 프롬프트

최승준은 카오스 코딩에서 아이디어를 얻어 "사진을 자세히 읽은 후 호기심을 갖고, 꼬리의 꼬리를 물고 생각해 볼 내용을 추천해 줘. 응답 마지막에 '위 내용에 대해 꼬리의 꼬리를 물고 호기심을 가져본다'를 항상 남겨줘서 끝없이 이어가줘"라는 재귀적 프롬프트를 설계했다. 사용자는 처음에만 입력하고 이후에는 '다음'만 누르면 모델이 유튜브 알고리즘처럼 스스로 주제를 연결하며 무한히 이어나간다.

확률적 도구 선택: 주사위를 굴리는 프롬프트

다음 단계로 11가지 사고 도구(개그 형식, 다른 관점으로 생각하기 등)를 정의하고, 1번 도구에는 항상 20% 확률을 배분하고 나머지를 80% 안에서 나누어 Python 코드로 확률을 결정하게 했다. 매 이터레이션마다 주사위를 굴리듯 도구를 확률적으로 선택하는 구조는 크리에이티브 코딩에서 랜덤·노이즈를 활용해 시각적 표현을 만드는 방식에서 영감을 받은 것이다. 이 스토캐스틱(확률적) 접근은 대화를 예측 불가능하게 변주해 가며 흥미로운 방향으로 전개됐다.

생각의 도구와 딥 리서치의 결합

Andrej Karpathy의 'append-and-review note' 방법론(메모를 최신 순으로 쌓고 중요한 것만 앞으로 끌어올리는 노트 관리법)을 소재로, 여덟 가지 생각 도구(더 깊게 추궁한다, 반론을 펼친다, 높은 층위의 질문을 던진다, 다른 관점으로 변주한다 등)를 부여해 딥 리서치 모드를 오프라인(검색 없이)으로 20회 반복 실행했다. 약 19분 23초 동안 실행된 결과물에서 보이저 탐사선 비유, 메모와 인류의 소통 욕구 등 최승준이 "내가 썼을 것 같은 수준"이라고 감탄할 만한 내용이 도출됐다.

GPT-4o 이미지 생성의 내부 동작 탐구

GPT-4o가 이미지를 생성할 때 네트워크 레이어를 분석해 보면, 최종 이미지가 완성되기 전에 다섯 단계의 초안 이미지가 순차적으로 서버에서 전송되어 오고 있음을 확인했다. UI는 마치 스트리밍처럼 그리는 척 보여주지만, 실제로는 이미 완성된 이미지가 단계적으로 공개되는 방식이다. 또한 미로(maze)를 생성할 때 오토리그레시브 방식 단독으로는 풀 수 있는 미로를 만들지 못하지만, 풀이 경로를 먼저 그린 후 지우는 스크래치패드 기법을 쓰면 가능하다는 실험 결과를 소개하며, 이를 Anthropic의 '시 라임 미리 계획하기' 연구와 연결했다.

산출물 파이프라인과 바이브 코딩의 본질

일련의 실험에서 도출된 핵심 아이디어는 '유용한 부산물을 생성하는 파이프라인'이다. 석유 정제 중 나온 부산물이 나중에 주요 생산물이 되듯, 인공 호기심 루프가 돌아가는 과정에서 하이쿠, 아스키 아트, 사고 도구 목록, 이미지 등이 부산물로 생성된다. 노정석은 이 방식이 에이전트 패스를 사람이 일일이 설계하는 대신 모델이 스스로 최적 경로를 찾도록 하는 '바이브를 통한 에이전트 설계'로 발전할 수 있다고 보았다.

"바이브 코딩과 비슷하되 통제하고 있다는 체면마저 내려놓는 방식이군요. 앱 환각의 무주를 무작기로 떠는 산책 같다고 할까요."

최승준 (카오스 코딩에 대해)

"사고의 과정 자체를 제가 의도하는 방향으로 제어를 하는 쪽으로 그동안 많이 해 왔었는데, 한번 모델 자체의 추진력이 어디까지 되는가를 좀 실험을 해 보고 싶었던 거예요."

최승준

"나라면 이 정도 썼을까 싶을 만한 내용으로 되게 잘 나왔어요."

최승준 (딥 리서치 20회 반복 결과물에 감탄하며)

"이거를 처음에 잘 프로그래밍을 해 놓으면 모델이 쭉 추진해 가는, 어 컴파일하는 느낌 같은 게 좀 있는 거예요."

최승준 (인터프리터 방식 대화와 구분하며)

"같은 엔진이더라도 케파가 큰 엔진은 끌어낼 수 있는 게 되게 많을 수 있다. 근데 그게 포스트 트레이닝으로도 끌어낼 수 있지만 프롬프트로도 끌어낼 수 있는 여지가 꽤 있을 수 있다."

노정석 (F1 엔진 비유에서 프롬프팅의 가능성을 확장하며)

바이브 코딩 (Vibe Coding): Andrej Karpathy가 제안한 개념으로, AI에게 구체적인 코드 명세를 주는 대신 "이런 느낌으로 만들어 줘"처럼 감각적·직관적 방향만 주고 AI가 코드를 생성하게 하는 협업 방식.
카오스 코딩 (Chaos Coding): 바이브 코딩의 극단적 형태. 사용자가 방향 통제를 완전히 내려놓고 "계속해 줘"만 반복하며 AI의 흐름에 전적으로 맡기는 방식.
재귀 프롬프트 (Recursive Prompt): 프롬프트 안에 "이 작업이 끝나면 다시 이 규칙을 따르라"는 자기 참조 지시를 넣어 모델이 스스로 루프를 만들도록 하는 기법.
스토캐스틱 (Stochastic, 확률적): 결과가 고정되지 않고 확률에 따라 달라지는 성질. 여기서는 매 이터레이션마다 확률에 따라 다른 사고 도구를 선택하게 하는 설계를 뜻한다.
오토리그레시브 이미지 생성: 이미지를 픽셀이나 패치 단위로 순차적으로 생성하는 방식. GPT-4o의 네이티브 이미지 생성이 이 방식을 채택한 것으로 추정된다.
스크래치패드 (Scratchpad): 모델이 최종 답변 전에 중간 계산이나 초안을 적어두는 내부 공간. 미로 풀이 경로를 먼저 그린 뒤 지우는 기법이 이에 해당한다.
append-and-review 노트: Andrej Karpathy의 노트 관리법. 새로운 메모를 항상 맨 위에 추가하고, 오래된 메모는 아래로 밀리게 하며, 중요하다고 판단되면 앞으로 끌어올린다.
Chain-of-Thought (COT, 연쇄 사고): 모델이 최종 답변 전에 중간 추론 단계를 명시적으로 생성하게 하는 프롬프팅 기법. 복잡한 문제에서 정확도를 높인다.
에이전틱 (Agentic): 모델이 단순히 질문에 답하는 것을 넘어, 여러 도구를 스스로 선택·사용하며 복잡한 목표를 자율적으로 수행하는 방식을 가리키는 형용사.
SFT (Supervised Fine-Tuning): 레이블이 있는 고품질 데이터셋으로 사전 학습 모델을 추가 학습시켜 특정 작업에 맞게 조율하는 방법.

바이브 코딩카오스 코딩인공 호기심재귀 프롬프트스토캐스틱 프롬프팅생각의 도구딥 리서치append-and-review오토리그레시브스크래치패드산출물 파이프라인

05 AI 실전 활용 YouTube

장안의 화제 MCP 바이브코딩으로 접근해보기

MCP(Model Context Protocol)를 사전 학습 없이 vibe coding 방식으로 직접 구현해보며, LLM과 외부 도구를 연결하는 표준 프로토콜의 실용적 의미와 AI 리터러시의 중요성을 탐구한다.

MCP란 무엇인가

MCP는 LLM이 외부 도구나 애플리케이션과 상호작용할 수 있도록 하는 표준 프로토콜이다. OpenAI가 처음 정의한 function calling 개념을 더 구체적이고 범용적으로 규약화한 것으로, Anthropic이 제안했지만 OpenAI와 Google도 채택하며 사실상의 업계 표준(de facto standard)으로 자리잡아 가고 있다. GitHub에는 커뮤니티가 만든 수많은 MCP 서버 구현체가 올라오고 있다.

MCP 스펙 문서를 활용한 vibe coding 접근법

최승준은 MCP 공식 사이트(modelcontextprotocol.io)에서 전체 스펙 텍스트를 다운로드해 LLM에 직접 주입하는 방식으로 학습과 구현을 동시에 진행했다. 튜토리얼을 차근차근 읽는 대신, 문서를 통째로 붙여넣고 원하는 것을 질문하면서 빠르게 나아가는 이 방식은 학습과 개발의 패턴이 바뀌고 있음을 보여준다. Google Deep Research를 활용해 50페이지짜리 튜토리얼 보고서를 자동 생성하는 방법도 소개했다.

개발 환경 준비의 시행착오: uv와 pyenv

MCP를 실제로 돌리는 과정에서 Python 패키지 관리 도구인 `uv`를 처음 접했다. 기존에 Conda를 쓰던 최승준은 Claude Desktop이 subprocess로 서버를 띄울 때 가상 환경이 꼬이는 문제를 겪었고, 결국 공식 권장 방식인 `pyenv` + `uv` 조합으로 전환해야 했다. `uv`는 10개 패키지를 1초 이하로 설치하는 속도가 인상적이며, 최신 Python 생태계의 표준으로 자리잡고 있다.

Three.js와 SVG를 활용한 실제 구현 결과물

목표는 Claude가 도구를 통해 Three.js 또는 SVG 화면을 동적으로 편집하면서 유저도 동시에 상호작용할 수 있는 환경을 만드는 것이었다. 최종 구조는 MCP 서버(`server.py`), WebSocket 서버(`ws_server.py`), HTML 프론트엔드를 분리하는 방식으로 완성됐다. `@tool` 데코레이터로 `add_element`, `modify_element`, `remove_element` 세 가지 도구를 노출하고, Claude가 function calling으로 SVG 요소를 실시간 추가하는 모습을 시연했다.

vibe coding의 현재와 선행 조건

비개발자도 Claude 아티팩트나 ChatGPT Canvas를 통해 vibe coding에 진입할 수 있지만, MCP 수준의 작업을 하려면 터미널 사용법, 파이썬 기초, 서버 실행 방법 등의 최소 리터러시가 필요하다. 코드 자체를 읽기보다 CoT(Chain of Thought) 출력을 읽으며 흐름을 파악하는 것이 vibe coding의 핵심 습관이다. 중요한 것은 AI와 티키타카하며 결과를 유도해가는 **AI 리터러시**로, 이는 오직 반복적인 실험을 통해서만 얻어진다.

Google Cloud Next와 에이전트 시대의 도래

Google Cloud Next 2025에서 AI 에이전트들이 Kanban 보드에서 버그 분류, 코드 리뷰, 작업 할당을 자율적으로 처리하는 데모가 공개되었다. Google의 A2A(Agent to Agent) 프로토콜이 MCP와 상호 보완적으로 활용될 방향성도 제시됐다. 코딩 작업의 30% 이상이 AI에 의해 수행된다는 소식과 함께, 2026~2027년 코딩 자동화 완성이라는 마일스톤에 대한 논의가 이어졌다.

"MCP를 모르는 상태에서 MCP를 쓴 거거든요. vibe coding이잖아요."

최승준

"코드는 안 읽지만 CoT는 있습니다. CoT를 읽으면 흐름이 보이거든요."

최승준

"프롬프트 한 번에 일이 완성되는 경우를 제가 잘 본 적이 없거든요. AI와 끊임없이 인터랙션 하면서 원하는 방향으로 바꾸는, 저는 연습을 통해서 얻어지는 것 같거든요."

노정석

"거기에서 배워지는 거는 AI 리터러시가 배워지거든요. LLM하고 티키타카하면서 결과물을 어떻게 얻어낼지에 대한 감을 얻으려면 대화를 굉장히 많이 해봐야 된다고 생각하거든요."

최승준

"이미 인터페이스로 들어왔어요. 그렇기 때문에 구체적인 상만 있으면 돼요."

최승준

MCP (Model Context Protocol): LLM이 외부 앱이나 도구와 소통하는 방식을 표준화한 프로토콜. USB 규격처럼 어떤 도구든 같은 방식으로 연결할 수 있게 해준다.
function calling: LLM이 대화 중에 필요한 외부 함수를 JSON 형태로 호출하도록 하는 기능. MCP는 이 function calling을 더 범용적으로 표준화한 것이다.
vibe coding: 코드를 직접 작성하지 않고 LLM에 의도를 말로 전달해 결과물을 만들어가는 개발 방식.
uv: Rust로 만들어진 초고속 Python 패키지 관리 도구. 기존 pip보다 수십 배 빠르며 현재 Python 생태계의 표준으로 자리잡고 있다.
FastMCP: MCP 서버를 Python에서 쉽게 구현할 수 있게 해주는 라이브러리. `@tool` 데코레이터로 함수를 도구로 등록하면 Claude가 자동으로 인식한다.
WebSocket: 서버와 클라이언트가 실시간으로 양방향 통신할 수 있는 프로토콜. 일반 HTTP와 달리 연결을 유지하며 데이터를 주고받는다.
CoT (Chain of Thought): LLM이 답변을 내놓기 전에 단계별로 생각하는 과정을 출력하는 것. vibe coding에서는 코드보다 CoT를 읽으며 방향을 파악하는 것이 유용하다.
decorator: Python에서 함수 위에 `@이름` 형태로 붙여 해당 함수에 추가 기능을 부여하는 문법. MCP에서는 `@tool`로 함수를 도구로 등록하는 데 사용한다.
A2A (Agent to Agent): Google이 발표한 AI 에이전트 간 통신 프로토콜. MCP가 LLM과 도구의 연결이라면, A2A는 에이전트끼리 협업하는 방식을 표준화한다.
de facto standard: 공식 표준 기구가 아닌 시장에서 자연스럽게 형성된 사실상의 표준. MCP가 이런 방향으로 자리잡아 가고 있다.

MCPModel Context Protocolvibe codingfunction callingFastMCPuvpyenvWebSocketThree.jsSVGA2AClaude DesktopAI 리터러시CoT

06 최신 모델 리뷰 YouTube

openAI O3 출시 그리고 구글의 역습

2025년 4월 OpenAI의 o3·o4-mini 출시와 GPT 메모리 기능 확장, Codex CLI 공개, 그리고 Google의 공격적인 반격으로 AI 경쟁 구도가 급변하는 한 달을 총정리한다.

Playwright MCP로 브라우저를 에이전트가 직접 제어하다

Microsoft가 공개한 Playwright MCP를 활용해 Claude Desktop이 브라우저를 직접 조작하는 실험을 소개했다. Claude에게 Notion 페이지 내용을 요약한 뒤 OpenAI.fm에 접속해 텍스트를 입력하고 재생하도록 지시했더니 자율적으로 사이트를 탐색하고 텍스트 박스를 찾아 입력을 완료했다. browser use와 computer use가 안정적인 기술 스택으로 빠르게 자리잡고 있음을 보여주는 사례다.

OpenAI 4월 타임라인: 메모리부터 o3까지

4월 11일 ChatGPT 메모리 기능이 대화 목록 전체를 참고하는 방식으로 대폭 강화됐고, 4월 14일 GPT-4.1 및 GPT-4.1-nano가 API에 출시됐다. 4월 16일에는 o3와 o4-mini가 공식 발표됐으며, 같은 날 터미널 기반 코딩 에이전트인 Codex CLI도 오픈소스로 공개됐다. Codex CLI는 2021년 vibe coding 시연으로 화제를 모았던 그 Codex의 이름을 부활시킨 것이다. o3는 OpenAI o1 대비 추론 비용은 크게 줄면서 벤치마크 성능은 뚜렷하게 향상됐다.

o3의 멀티모달 추론과 메모리 개인화 실험

o3의 핵심 강점 중 하나는 이미지를 확대·자르는 방식으로 시각 정보를 단계적으로 분석하는 멀티모달 추론("Thinking with Images")이다. 최승준은 카페 사진 한 장을 주고 "호기심을 갖고 탐구해줘"라고 하자 o3가 식물 종 분류부터 화학적 향 성분 분석, 시뮬레이션 코드 작성까지 이어가는 과학적 탐구를 수행하는 것을 확인했다. 또한 메모리 기능과 결합하면 사용자의 과거 대화를 참고해 맞춤형 예술·미디어 뉴스를 추천하는 개인화 뉴스레터를 만들 수 있음을 실험으로 보여줬다.

메모리·개인화와 필터 버블의 딜레마

ChatGPT의 전체 대화 기록이 컨텍스트로 활용되면 좋은 대화들이 일종의 개인 라이브러리처럼 작동한다. 그러나 이는 동시에 사용자의 기존 관심사 범위에 갇히는 필터 버블과 에코 챔버 현상을 심화시킬 수 있다. YouTube 추천 알고리즘의 history를 완전히 지워 subscription 기반으로만 보는 방식을 실천하는 것처럼, AI 메모리도 켜고 끄는 리듬을 스스로 조절해야 한다는 문제의식을 제기했다.

Google의 역습: Gemini 2.5 Pro와 AI Studio 변신

Google Gemini 2.5 Pro는 비용 대비 성능 면에서 o3를 압도하며 많은 사용자들이 ChatGPT를 해지하고 Gemini로 이동하는 흐름이 나타났다. Google AI Studio는 비디오 생성(Veo), 실시간 화면 공유 기반 대화(Stream/Astra), 이미지를 코드로 변환하는 기능까지 탑재하며 단순한 API 테스트 도구를 넘어 복합 개발 플랫폼으로 진화하고 있다. TPU를 보유한 Google의 인프라 강점이 경쟁에서 점점 더 결정적인 역할을 하고 있다.

AI 발전 방향: 경험 기반 학습과 인간의 역할

리처드 서튼(Richard Sutton)과 데이비드 실버(David Silver)가 발표한 포지션 페이퍼는 LLM 시대의 인간 데이터 학습에서 벗어나 AlphaZero처럼 경험을 통해 스스로 학습하는 방향으로 나아가야 한다고 주장했다. Anthropic이 발표한 교육 연구에서는 AI가 즉각적인 답을 주는 것이 아닌 Khanmigo처럼 생각을 유도하는 방식이 학습에 효과적임을 강조했다. 노정석은 조직 내에서 learning과 unlearning을 잘하는 사람이 AI 시대의 10X 직원이 된다고 정리했다.

"o3를 조금 쓰다 보면 되게 현학적인 말로 말을 하더라고요. 이것을 보면서 이제는 슬슬 나도 더 열심히 공부해야지 모델이 생성하는 것 읽어낼 수 있나, 이런 고민을 잠깐 했었던 시간도 있었습니다."

최승준

"뉴스레터가 만들어지는 거 아닌가. 일주일에 어느 요일에 발행해 줘 하면 작동한다는 거죠."

최승준

"learning만 잘하는 사람이 아니라 unlearn도 되게 잘하는 사람이더라고요. 기존의 프로세스나 이런 것들은 다 깡그리 무시하고 목적에 따라서 경로를 완전히 재정의하는 것을 잘하는 사람들이 AI 시대에 성과의 점프를 가져오더라고요."

노정석

"지치지 않고 따라가는 것만도 칭찬받아야 한다. 이 흐름에 보조를 맞추는 것 자체도 역량 중 하나인 것 같다는 생각도 듭니다."

최승준

"OpenAI가 더 이상 12개월 앞서는 리드를 갖고 있지는 않은 것 같다. 3, 4개월 정도라도 리드가 있으면 그 안에서 할 수 있는 일들이 많이 있기 때문에 여전히 조금 더 한 발 앞서 나가고 있다."

Kevin Weil (OpenAI, 최승준 인용)

o3 / o4-mini: OpenAI가 2025년 4월 출시한 추론 특화 모델. o1 대비 비용은 줄고 성능은 높아졌으며, 멀티모달 추론과 도구 사용 능력이 크게 향상됐다.
Codex CLI: OpenAI가 공개한 오픈소스 터미널 기반 코딩 에이전트. 자연어 명령을 코드로 변환해 실행하며, Anthropic의 Claude Code와 유사한 포지션이다.
Playwright MCP: Microsoft가 만든 MCP 서버로, AI 에이전트가 실제 브라우저를 직접 조작할 수 있게 해준다. 웹 자동화 테스트 도구인 Playwright를 MCP로 감싼 것이다.
필터 버블 (Filter Bubble): 추천 알고리즘이 사용자의 기존 취향에 맞는 콘텐츠만 보여주어 다양한 시각에 노출되지 못하게 되는 현상.
에코 챔버 (Echo Chamber): 비슷한 생각을 가진 사람들끼리만 소통하면서 특정 의견이 증폭되고 강화되는 현상.
마태 효과: 이미 많이 가진 사람이 더 많이 얻게 되는 현상. AI 개인화 맥락에서는 AI를 잘 활용하는 사람이 더 유리해지는 격차를 의미한다.
Thinking with Images: o3가 이미지를 단순히 보는 것이 아니라 확대·분석하는 과정을 반복하며 시각 정보를 추론에 활용하는 방식.
오가노이드 (Organoid): 실제 장기와 유사한 구조를 갖도록 세포를 배양한 미니 장기. 에피소드에서는 예술가의 혈액으로 뇌 오가노이드를 만들어 음악을 작곡하는 미디어 아트 사례로 등장한다.
RAG (Retrieval-Augmented Generation): 관련 문서를 검색(Retrieval)해 컨텍스트에 넣고 LLM이 답변을 생성하는 방식. ChatGPT 메모리가 내부적으로 이와 유사한 방식으로 작동할 것으로 추정된다.
포지션 페이퍼: 특정 주제에 대한 저자의 입장과 방향성을 제시하는 학술 문서. 실험 결과보다는 관점과 주장을 담는다.

o3o4-miniGPT-4.1Codex CLIPlaywright MCP메모리필터 버블Gemini 2.5 ProAI StudioVeoThinking with Images경험 기반 학습10X employeeunlearningbrowser use

07 AI 실전 활용 YouTube

마인크래프트로 배우는 AI 에이전트 코딩

Minecraft 환경에서 Claude와 Gemini가 동시에 건축·탐험을 수행하는 실험을 통해 멀티 에이전트 협업의 현재 가능성과 한계를 탐구하고, 에이전트 시대를 살아가는 개발자와 개인의 현실적 고민을 나눈다.

MINDcraft: 멀티 에이전트 협업 프레임워크

MINDcraft는 Minecraft 환경에서 여러 LLM 에이전트가 협업하는 방법을 연구한 논문과 오픈소스 구현체다. 2023년 NVIDIA의 Voyager가 단일 에이전트로 다이아몬드 채굴까지 달성했다면, MINDcraft는 여러 에이전트가 역할을 분담하며 함께 작업하는 구조를 탐구한다. 에이전트는 JavaScript로 skill을 생성해 Minecraft 명령어로 변환하고, 그 skill을 메모리에 저장해 나중에 재사용하는 방식으로 작동한다.

Claude와 Gemini의 동시 접속 실험

Claude(MCP 방식)와 Gemini(MINDcraft 방식)를 같은 Minecraft 서버에 동시 접속시켜 각자에게 독립적인 건축 과제를 부여했다. Claude에게 수족관 건설을 지시하는 사이 Gemini가 기린 동상을 짓다가 수족관 벽을 부수고, Claude는 그 사실을 모른 채 물을 채워 물이 새어 나오는 상황이 발생했다. 두 에이전트가 서로의 상태를 공유하지 못해 생기는 이 충돌은 멀티 에이전트 협업에서 공유 컨텍스트 관리가 핵심 과제임을 직접 보여준다.

에이전트 개발의 현실적 장벽: 컨텍스트와 스위칭

노정석은 실무에서 에이전트 프레임워크(Pydantic AI, OpenAI Agent SDK)를 사용하며 겪는 가장 큰 어려움으로 에이전트 간 switching의 불확실성을 꼽았다. 프롬프트로 명시해도 필요할 때 스위칭을 안 하거나 불필요한 때 해버리는 문제가 반복되며, 이를 해결하기 위한 보조 장치를 배치하는 데 개발 시간의 대부분을 쓰게 된다. 장기적으로는 long context 모델이 이를 해결하겠지만, 지금 당장은 좁고 명확한 컨텍스트로 grounding하는 방식이 더 안정적인 결과를 낸다.

browser use와 ARIA: 환경 추상화의 중요성

브라우저 자동화 실험에서 DOM 전체를 LLM에 전달하면 컨텍스트가 금방 꽉 찬다는 문제를 발견했다. Playwright가 ARIA(Accessible Rich Internet Applications)를 활용해 웹 페이지의 시각적 스타일을 제거하고 의미 있는 구조 정보만 추출하는 방식을 사용한다는 것을 확인했다. 장애인의 웹 접근성을 위해 만들어진 ARIA 표준이 LLM 에이전트의 브라우저 이해를 돕는 핵심 기술이 된다는 점은 흥미로운 역발상이다.

Andrej Karpathy의 AI 지원 코딩 원칙과 MVK

Andrej Karpathy는 vibe coding과 구별되는 AI 지원 코딩(AI-assisted coding)의 실천 원칙으로 관련 컨텍스트 전부 주입, 점진적이고 단일한 변경 사항 지시, 문서를 옆에 띄워놓고 확인하며 진행, 테스트 후 커밋 반복을 제안했다. 핵심 비유는 "백과사전적 지식을 갖췄지만 과도한 자신감으로 허풍을 떨며 좋은 코드에 대한 안목이 없는 junior intern에게 단단한 목줄을 채우는 것"이다. MVK(Minimum Viable Knowledge) 개념도 소개됐는데, 도구를 실제로 활용하기 위해 갖춰야 할 최소한의 지식 집합을 의미한다.

자동형 과로와 에이전트 시대의 인간

AI가 생산성을 높일수록 한 사람이 처리해야 하는 일의 양도 늘어나는 역설이 나타나고 있다. 최승준은 이를 "자동형 과로"라고 명명하며, M명의 팀이 하던 일을 혼자서 M개의 AI 팀을 이끌며 처리하게 되어 책임이 오히려 커지는 현상을 짚었다. 노정석은 하기로 한 사람과 하지 않기로 한 사람 사이의 격차가 점점 명확해지고 있으며, 이는 산업혁명 때처럼 새로운 계층 분화로 이어질 것으로 봤다. 결론은 unlearning과 learning을 지속하되, 건강을 해치지 않을 정도의 균형을 찾아야 한다는 것이다.

"Gemini가 기린 동상 만드는 거에서 방금 수족관을 부쉈죠. 그리고 그걸 이제 Claude는 모르는 상태에서 물을 채웁니다."

최승준

"핵심은 소프트웨어에 대한 백과사전적 지식을 갖췄지만 과도한 자신감으로 허풍을 떨며 좋은 코드에 대한 안목이 거의 없는 새로운 junior intern 신동에게 단단한 목줄을 채우는 것입니다."

Andrej Karpathy (최승준 인용)

"M명 1팀으로 하던 거를 M개의 팀으로 쪼개거나 혼자 플러스 AI로 해서 일을 더 많이 하게 된다는 거죠. 인간 각자가 팀장이 되는 셈이라 책임도 더 높아지고."

최승준

"그냥 지금은 닥치고 뛰는 수밖에 없다."

노정석

"스케일을 높이는 작업을 하기 위해서는 스케일이 안 나는 작업을 많이 해야 한다. 완벽한 AI coding을 하려면 노가다를 뛰며 내 환경 세팅을 해야 한다."

Paul Graham (최승준 인용)

MINDcraft: Minecraft 환경에서 여러 LLM 에이전트가 협업하는 방법을 연구한 멀티 에이전트 프레임워크 및 논문. "Collaborating Action by Action"을 핵심 원리로 삼는다.
Mineflayer: Minecraft 봇을 만들 수 있는 Node.js 기반 오픈소스 라이브러리. MINDcraft와 Minecraft MCP 모두 이 라이브러리를 기반으로 동작한다.
멀티 에이전트 (Multi-Agent): 여러 AI 에이전트가 동시에 작업하며 협업하는 구조. 각 에이전트는 독립적으로 동작하지만 공유된 환경이나 상태를 통해 상호작용한다.
ARIA (Accessible Rich Internet Applications): 웹 콘텐츠를 장애인도 접근할 수 있도록 하는 W3C 표준. 시각적 스타일 정보를 제거하고 의미 구조만 남겨 LLM이 웹 페이지를 이해하는 데 효율적으로 활용된다.
MVK (Minimum Viable Knowledge): 특정 도구나 시스템을 실제로 활용하기 위해 갖춰야 하는 최소한의 지식. MVP(최소 기능 제품)에서 차용한 개념이다.
Google ADK (Agent Development Kit): Google이 출시한 에이전트 개발 프레임워크. 에이전트 간 switching, 조건부 분기 등을 프로그래밍 방식으로 제어할 수 있도록 설계됐다.
시스템 3 (System 3): 빠른 직관(시스템 1), 느린 의식적 추론(시스템 2)에 이은 세 번째 인지 방식. 무의식적으로 긴 시간 동안 처리한 뒤 문득 통찰을 제공하는 방식으로, AI에서는 비동기적 장기 추론으로 구현될 수 있다.
자동형 과로: 에이전트로 생산성이 높아진 만큼 더 많은 일을 맡게 되는 현상. 자동화가 인간의 일을 줄이는 것이 아니라 오히려 각 개인의 책임과 업무량을 늘리는 역설을 표현한 신조어다.
embodied reasoning: 신체나 물리적 환경과 상호작용하며 이루어지는 추론. Minecraft처럼 실제로 움직이고 환경을 변경하면서 사고하는 에이전트의 특성을 설명한다.
CDP (Chrome DevTools Protocol): Chrome 브라우저를 외부에서 프로그래밍 방식으로 제어할 수 있는 프로토콜. Playwright 등 브라우저 자동화 도구들이 내부적으로 사용한다.

멀티 에이전트MINDcraftMinecraftMineflayerClaude MCPGeminibrowser useARIA컨텍스트 관리MVKvibe coding자동형 과로unlearningGoogle ADK시스템 3

08 AI 기술 딥다이브 YouTube

AI Agent 개발의 어려운 점, Browser Use를 중심으로

AI 에이전트가 브라우저를 직접 제어하게 만드는 실험적 구현 과정을 공유하며, 현재 에이전트 개발의 핵심 난제인 비결정성·피드백 루프·컨텍스트 관리 문제를 구체적으로 짚는다.

AI 에이전트 시대의 개막과 시장 지형 변화

모델 품질 경쟁에서 에이전트·애플리케이션 경쟁으로 무게중심이 이동하고 있다. OpenAI의 Windsurf 인수(30억 달러)를 비롯해 주요 빅테크들이 앱 레이어 사업화로 태세를 전환 중이다. "얼마나 싸고 빠른가"보다 "어떤 애플리케이션을 만드는가"가 핵심 질문이 됐다.

o3의 GeoGuessing: 에이전트적 추론의 극단적 사례

OpenAI o3가 사진 한 장만 보고 정확한 위치를 추론하는 GeoGuessing 시연이 화제가 됐다. 웹 검색, 이미지 분석, 방위각 계산, 층수 추정 등 다양한 도구를 조합해 탐정처럼 문제를 해결하는 모습이 에이전트 추론의 현주소를 보여준다. Scott Alexander는 이를 "헬리콥터 모멘트"라 명명했다.

Codex CLI로 브라우저를 제어하는 직접 구현

최승준은 MCP를 사용하지 않고 Chrome DevTools Protocol(CDP)과 자체 제작 Chrome 확장 프로그램, 중개 서버를 연결하는 3단 아키텍처를 구현했다. Codex CLI가 shell 명령(cURL 등)을 통해 브라우저의 DOM을 읽고 쓰는 구조로, 이미 로그인된 사용자 세션을 그대로 활용하는 것이 핵심이다.

에이전트 개발의 현실적 난제

실제 구현 과정에서 가장 큰 어려움은 비결정성(어떨 땐 잘 되고 어떨 땐 안 됨), 따옴표 이스케이프 지옥, 컨텍스트 폭발(DOM 원본을 그대로 넣으면 토큰이 순식간에 소진) 등이다. 해결책은 ① 실행 결과 피드백을 명확히 반환하기 ② DOM을 ARIA 수준으로 추상화하기 ③ 시스템 프롬프트에 주의사항과 엔드포인트 명세를 상세히 기입하기다.

Gemini 2.5 Pro와 AI Studio의 새로운 가능성

Gemini 2.5 Pro가 Web Dev Bench에서 최상위권을 기록하고, YouTube URL 하나로 인터랙티브 학습 앱을 자동 생성하는 "Video to Learning App" 데모가 공개됐다. Google AI Studio에서 spec 작성 → 코드 생성 → 렌더링까지 한 번에 처리하는 흐름이 인상적이다.

"닥치고 빌딩"의 시대

시대를 예측하고 정의하는 작업보다 실제로 구현하며 배우는 것이 더 중요해진 시점이다. vibe 코딩으로 만든 코드를 AI가 다시 보안 리뷰하면 된다는 인식의 전환, 그리고 코드를 직접 읽지 않고 동작 여부로 판단하는 개발 패턴이 자리 잡고 있다.

"얼마나 싸지고 얼마나 더 빨라질 것이냐 이런 문제들에 더 관심이 가는 것 같고 그러다 보니까 필연적으로 에이전트로 대표되는 이 시장이 급속도로 뜨거워지는 느낌을 받는다."

노정석

"agent는 역시 쉽지 않네요. 어쩔 땐 잘 되고 어쩔 땐 잘 안 되는 문제가 너무 큽니다."

최승준

"실행만 하는 게 아니라 실행 결과의 feedback을 확실하게 줘서 방향 조정을 하게 해야—그게 하나 되게 중요한 교훈이었고 그거를 할 때와 안 했을 때의 차이가 굉장히 컸습니다."

최승준

"이것이 미래구나라는 생각이 좀 들어요. 동작하면 그냥 덮고 넘어가더라고요."

노정석

"지금은 무언가 시대를 정의하고 예측하기 위해서 활동하는 게 거의 의미가 없다는 생각이 들어요. '야, 이건 되는 게임이다'라는 가정 하에 좀 빌딩해야 되는 타임 아닌가."

노정석

Browser Use: AI 에이전트가 웹 브라우저를 직접 열고 클릭하며 정보를 읽고 입력하는 기술 영역. 사람이 브라우저를 쓰는 것처럼 AI가 자율적으로 웹을 탐색한다.
Codex CLI: OpenAI가 공개한 커맨드라인 코딩 에이전트. 터미널에서 자연어 명령을 내리면 코드를 작성·실행하고 결과를 반환한다.
Chrome DevTools Protocol (CDP): 크롬 브라우저의 내부 기능(탭 제어, DOM 조작, 네트워크 모니터링 등)을 외부 프로그램이 원격으로 제어할 수 있게 해주는 통신 규약.
DOM (Document Object Model): 웹 페이지의 구조를 트리 형태로 표현한 것. 버튼, 텍스트, 이미지 등 모든 요소가 DOM 노드로 표현된다.
MCP (Model Context Protocol): AI 모델이 외부 도구·데이터 소스와 표준화된 방식으로 연결되도록 설계된 프로토콜.
headful / headless 브라우저: headless는 화면 없이 백그라운드에서 동작하는 브라우저, headful은 실제 화면이 보이는 상태에서 동작하는 브라우저. 에이전트 디버깅 시 headful 방식이 유리하다.
ARIA (Accessible Rich Internet Applications): 웹 접근성 표준으로, DOM 요소에 역할(role)과 이름(name)을 붙여 보조 기술이 페이지를 이해할 수 있게 한다. 에이전트가 DOM을 추상화할 때도 활용된다.
비결정성 (Non-determinism): 동일한 입력에도 AI 에이전트가 다른 결과를 낼 수 있는 성질. 에이전트 개발에서 가장 다루기 까다로운 특성 중 하나다.
GeoGuessing: 사진만 보고 촬영 위치를 맞히는 게임 또는 벤치마크. AI의 멀티모달 추론 능력을 가늠하는 사례로 자주 인용된다.
Video to Learning App: YouTube 영상 URL 하나를 입력하면 해당 영상의 개념을 인터랙티브하게 체험할 수 있는 웹앱을 자동 생성하는 Gemini AI Studio 기능.

Browser UseCodex CLIChrome DevTools Protocol에이전트DOM 제어GeoGuessingGemini 2.5 Provibe coding컨텍스트 관리피드백 루프

09 최신 모델 리뷰 YouTube

OpenAI Codex, Google AlphaEvolve

슈퍼위크 직전, OpenAI Codex CLI의 등장 배경과 Google AlphaEvolve가 56년 만에 행렬 곱셈 알고리즘을 개선한 의미를 분석하고, AI 자기 개선(부트스트래핑) 루프의 현실화를 탐구한다.

코딩 자동화 경쟁의 전선

2025년 초부터 빅테크들은 "소프트웨어 엔지니어링을 AI가 대체한다"는 선언을 경쟁적으로 내놓고 있다. OpenAI의 Windsurf 인수, Anthropic의 Claude Code, Google의 Jules가 대표 사례다. Dario Amodei는 "2025~2026년이 코딩이 해결되는 해"라고 공언했고, Sam Altman은 일본 기업들 앞에서 "IT 인력은 우리가 대신한다"고 선언했다.

OpenAI Codex 기습 발표의 전략적 의미

Google I/O를 앞두고 OpenAI가 Codex를 전격 공개했다. 단순한 제품 출시를 넘어 경쟁사의 행사 직전 시선을 분산시키는 "스컹크웍스" 전략으로 해석된다. 모델 품질 논쟁은 사실상 종료되고, 누가 더 날카로운 개발자 경험을 제공하는 애플리케이션을 만드느냐로 경쟁 축이 이동했다.

AlphaEvolve: LLM + 진화적 탐색의 결합

Google DeepMind의 AlphaEvolve가 56년간 최적화되지 않았던 행렬 곱셈 알고리즘을 개선했다. 핵심은 실수(real number) 영역에서 막혀 있던 탐색을 복소수(complex number) 영역으로 확장해 인간이 떠올리지 못한 아이디어를 찾아낸 것이다. 이 알고리즘 적용으로 Google 전체 연산 자원의 약 1%를 절감할 수 있으며, 자사 모델 학습에도 이미 활용 중이다.

재귀적 자기 개선 루프의 현실화

AlphaCode 논문(2022년)에서 예고됐던 "AI가 코딩 능력을 통해 스스로를 개선한다"는 시나리오가 3년 만에 현실이 됐다. LLM이 코드를 생성하고, 진화 알고리즘으로 탐색 공간을 확장하며, verifiable한 피드백으로 선별·반복하는 루프가 실제 과학적 성과로 이어지고 있다. 정지 문제(halting problem) 등 CS의 근본 난제와도 접점이 생기고 있다.

뉴스를 보지 않으면 unlearning 타이밍을 놓친다

기술 발전 속도가 너무 빨라서 일주일 전 정리한 생각이 새로운 발표로 무효화되는 일이 반복된다. 두 진행자는 "뉴스를 안 보면 언러닝해야 할 타이밍을 놓치고, 이미 더 좋은 도구가 나왔는데 구식 방법에 집착하게 된다"고 강조했다.

팟캐스트 자동화 실험: 부트스트래핑의 시작

최승준은 영상 다운로드 → 음성 전사 → 번역 → SNS 포스팅까지 30분 영상을 5분 안에 처리하는 파이프라인을 Codex CLI로 구현했다. 여기서 한 발 더 나아가 Douglas Engelbart의 "부트스트래핑" 개념처럼, 자신이 쓰는 도구를 AI로 자동화함으로써 개념에 대한 이해 자체가 깊어지는 경험을 공유했다.

"뉴스를 안 보면 unlearning을 하고 새롭게 적응할 timing을 놓칩니다."

최승준

"AlphaCode 논문에 나오던 게 현실이 됐어요. '장기적으로 코드 생성은 고등 AI risk로 이어질 수 있다'—3년 만에."

최승준

"computation이 모든 것이다라는 명제로 환원할 수 있어요. 영겁의 시간, 즉 computation을 투입해서 저희 진화가 됐잖아요. 그 게임은 이미 정해진 게임이다."

노정석

"google scale에서 1%라면 어마어마한 자원 절감이 생기는 거죠. 그래서 이것이 자기 개선을 하고 있다는 이야기가 나와요."

최승준

"개인이 이걸 할 수 있는 2025년 현재라는 거죠."

최승준

AlphaEvolve: Google DeepMind가 개발한 AI 시스템으로, LLM이 코드를 생성하고 진화 알고리즘으로 반복 개선하며 수학·과학 문제를 해결한다. 행렬 곱셈 알고리즘 개선이 대표 성과다.
행렬 곱셈 (Matrix Multiplication): 딥러닝의 핵심 연산. 신경망의 모든 레이어 계산이 행렬 곱으로 이루어지므로, 알고리즘 최적화는 AI 학습 비용 전반에 직접 영향을 준다.
진화적 탐색 (Evolutionary Search): 생물 진화에서 아이디어를 얻은 최적화 방법. 다양한 후보를 생성(다양화)하고, 평가해서 좋은 것을 선별(선택)하는 과정을 반복한다.
재귀적 자기 개선 (Recursive Self-Improvement): AI가 자신의 능력을 활용해 더 나은 버전의 AI를 만드는 과정. AlphaCode 논문에서 위험 요인으로 언급된 바 있다.
Verifiable Reward: AI가 옳고 그름을 명확히 판별할 수 있는 피드백. 수학 증명이나 코드 실행 결과처럼 정답이 존재하는 영역에서 강화학습이 특히 효과적이다.
Bootstrapping (부트스트래핑): 자기 자신의 결과물로 자신을 개선하는 방식. Douglas Engelbart가 도구로 도구를 만드는 개념으로 제시했으며, AI 시대에는 AI로 AI 워크플로를 자동화하는 것에 해당한다.
Unlearning: 기존에 익힌 지식이나 방법론을 의식적으로 버리는 과정. 빠른 기술 변화 속에서 구식 접근법을 내려놓고 새 패러다임을 받아들이기 위해 필요하다.
Strassen 알고리즘: 1969년 발표된 행렬 곱셈 최적화 알고리즘. 일반적인 방법보다 곱셈 횟수를 줄여 계산 효율을 높였으며, AlphaEvolve는 이보다 더 효율적인 방법을 발견했다.
정지 문제 (Halting Problem): 임의의 프로그램이 종료될지 아닐지를 미리 판단하는 것이 불가능하다는 컴퓨터 과학의 근본 정리(튜링 1936). AlphaEvolve 논의에서 AI와 알고리즘 발견의 한계 맥락으로 언급됐다.
스컹크웍스 (Skunkworks): 경쟁사의 주요 발표 직전에 관련 소식을 선제적으로 흘려 시선을 분산시키는 전략. OpenAI가 Google I/O 직전 Codex를 발표한 것이 대표 사례로 언급됐다.

OpenAI CodexAlphaEvolve행렬 곱셈진화적 탐색재귀적 자기 개선부트스트래핑unlearningverifiable reward코딩 자동화LLM

10 최신 모델 리뷰 YouTube

AI 수퍼위크 회고: Google IO, Code w/Claude 집중탐구

Microsoft Build·Google I/O·Code with Claude가 동시에 열린 "수퍼위크"를 총정리하며, 각 행사의 핵심 포인트와 개발자가 당장 활용할 수 있는 변화들을 짚는다.

Microsoft Build: B2B 플랫폼으로서의 포지셔닝 확립

Microsoft Build의 핵심은 새로운 기술보다 기존 스택의 통합이었다. 에이전트 아키텍처(런타임·메모리·Entitlements·Actions·추론)를 체계적으로 정리했고, Natural Language Web이라는 MCP 기반 표준화 시도를 선보였다. VS Code Copilot Chat 확장과 WSL의 오픈 소스화도 발표됐다. 한마디로 "공격보다 통합"의 행사였다.

Google I/O: 왕의 귀환

2023년 I/O와 달리 이번은 Sundar Pichai와 Sergey Brin이 모든 디테일을 꿰고 있는 모습으로 등장해 큰 인상을 남겼다. Gemini 2.5 Pro, Deep Think, Veo 3, Imagen, Lyria(음악 모델) 등 멀티모달 전 분야를 한꺼번에 밀어붙였다. Sergey Brin과 Demis Hassabis의 AGI 도래 시점 토론(Brin: 2030 이전, Hassabis: 2030 이후)도 화제가 됐다.

AI Studio · Firebase · Stitch: 개발자 경험의 대변화

Google AI Studio에 "Build" 기능이 추가되어 vibe 코딩으로 Gemini API 앱을 바로 만들고 배포할 수 있게 됐다. YouTube URL 하나로 인터랙티브 학습 앱을 생성하는 데모, 받아쓰기 앱을 한 줄 프롬프트로 만드는 시연이 공개됐다. Stitch는 Figma 익스포트가 가능한 UI 전문 도구로, Firebase와 함께 코드 없이 풀스택 앱을 완성하는 흐름이 현실화됐다.

Code with Claude: Anthropic의 날카로운 포지셔닝

Anthropic은 범용 서비스 경쟁 대신 개발자 경험에 집중하는 전략을 명확히 했다. "A Day with Claude" 영상은 문서 분석 → 리서치 → 코드 생성 → Asana 태스크 자동 생성까지 하루 업무 전체를 Claude가 처리하는 모습을 보여줬다. "Mastering Claude Code in 30 mins" 세션에서는 shell 도구처럼 Claude Code를 활용하는 실용적 방법과 SDK가 소개됐다.

Entitlements와 에이전트 권한 관리의 표준화

Microsoft가 제시한 Entitlements 개념은 에이전트가 수행할 수 있는 행동의 범위와 권한을 명시적으로 관리하는 모듈이다. agent.md, codex.md, claude.md 등 각 플랫폼의 설정 파일과 맞닿아 있으며, 멀티 에이전트 환경이 확산될수록 권한 관리 표준화가 핵심 인프라가 될 것으로 보인다.

수퍼위크가 남긴 질문: "무언가 달라졌다"

두 진행자 모두 이번 주 이후 업계의 무게감이 달라졌다는 감각을 공유했다. 특히 주니어 개발자와 지식 노동자 전반에 대한 영향, "혼자서도 billion dollar 회사를 만들 수 있다"는 Dario Amodei의 발언이 단순 예언을 넘어 실질적 현실로 다가오고 있다는 인식이 이번 수퍼위크를 계기로 자리 잡았다.

"솔직히 말하건대 이 모든 발전에 지쳤습니다. 머리가 GPT-2 수준이 됐다."

Dan Shipper (Every, 인용)

"Sergey Brin이 'No pressure'라고 했더니 Demis가 막 웃으면서 '지금 밖에 나가서 열심히 일해야 된다'고 했어요."

최승준

"2023년에는 Google I/O 봤을 때 이거 좀 별로인데 하는 느낌이었는데, 올해는 너무 많아서—공룡 말씀해 주시니까 약간 상황이 묘하게 돌아가고 있습니다."

최승준

"오토메이션에 오토메이션에 오토메이션이 지금 곱해지고 있는 그런 느낌입니다."

노정석

"이번 수퍼위크 전후로 무언가 달라졌다는 것이 제일 지금 와닿아요. 정보 coverage가 넓은 사람이 이 상전이가 일어났다고 하는 것이 이제 저한테는 signal입니다."

노정석

Entitlements: Microsoft Build에서 소개된 에이전트 아키텍처 개념. 에이전트가 어떤 행동을 허용받았는지 명시적으로 정의하는 권한 관리 모듈이다.
Natural Language Web: Microsoft가 제안한 개념으로, 웹사이트에 에이전트 친화적 MCP 엔드포인트를 내장해 크롤러 없이도 에이전트가 사이트 내용을 질의할 수 있게 하는 인프라다.
Veo 3: Google의 차세대 영상 생성 모델. 고품질 동영상 생성 능력으로 OpenAI Sora와 경쟁하며, I/O에서 Ultra 요금제를 통해 공개됐다.
Deep Think: Gemini 2.5 Pro를 더 깊이, 더 오래 추론하게 만드는 고급 추론 모드. AlphaEvolve나 Discovery 같은 에이전틱 과학 탐구에 특히 적합하다.
Jules: Google이 공개한 비동기 코딩 에이전트. GitHub 리포지토리와 연동해 이슈를 분석하고, PR을 자동으로 생성하는 방식으로 작동한다.
Claude Code SDK: Anthropic이 Code with Claude에서 발표한 개발자 도구. Claude Code를 shell 명령처럼 스크립트에서 호출하거나 대화를 이어가는 방식으로 활용할 수 있다.
Stitch: Google이 공개한 UI 전문 설계 도구. 자연어 설명으로 UI를 생성하고 Figma로 바로 내보낼 수 있어 디자인-개발 간 간극을 줄인다.
A Day with Claude: Code with Claude에서 공개된 3분 영상. Claude가 이메일·캘린더·문서·Asana를 연동해 PM의 하루 업무 전체를 처리하는 시나리오를 보여준다.
Diffusion LLM (DLLM): 텍스트를 토큰 단위로 순차 생성하는 기존 LLM과 달리, 확산(diffusion) 방식으로 전체 출력을 한꺼번에 생성하는 새로운 언어 모델 구조. Inception Labs가 대표 연구소다.
Lyria: Google의 음악 생성 모델. AI Studio를 통해 배경음악이나 멜로디를 vibe 코딩으로 앱에 통합할 수 있게 됐다.

Google I/OMicrosoft BuildCode with Claude수퍼위크Gemini 2.5 ProVeo 3AI StudioEntitlementsvibe codingDeep ThinkJulesClaude Code SDK

11 AI와 사회·노동 YouTube

AI 수퍼위크 이후: 흔들리는 지식노동의 미래?

소프트웨어 엔지니어 자동화가 현실이 된 2025년 6월, 주니어 노동자부터 화이트칼라 전반까지 덮치는 일자리 대격변의 실체와 그 속에서 인간이 발휘해야 할 창출의 상상력을 논한다.

코딩 자동화에서 지식 노동 자동화로

2025년 초 "올해는 소프트웨어 엔지니어링이 해결되는 해"라는 선언이 5개월 만에 현실화됐다. 타임지, 뉴욕타임스, CNN 등 주요 매체에 "AI로 인한 일자리 대격변이 이미 시작됐다"는 기사가 쏟아졌고, Dario Amodei는 CNN 인터뷰에서 비슷한 진단을 내놨다. 이슈는 주니어 엔지니어를 넘어 화이트칼라 지식 노동 전반으로 확산되고 있다.

일자리 상실 vs. 창출: 역사적 패턴과 현재

인쇄술·산업화·인터넷이 등장할 때마다 일자리 구조가 바뀌었고, 인류는 새로운 직업을 창출해 왔다. 경제학자 Tyler Cowen은 "변화가 스트레스를 주지만, AI는 민간 기업이 고객을 위해 만드는 것이기 때문에 결국 우리에게 유리하게 작동할 것"이라며 낙관론을 폈다. 반면 AI 안전 연구자들은 인간의 권한이 축소되는 방향의 담론에 우려를 표했다.

Dwarkesh의 "자동화된 회사" 시나리오와 계약 관계

Dwarkesh Patel의 에세이는 AI가 막대한 경제적 가치를 창출하게 될 때 그 가치가 인간 공동체로 흘러오는 구조 설계가 필요하다고 주장한다. 최승준은 이 논의가 AI의 자아·의지 문제, Anthropic의 모델 well-being 연구, 철학적 좀비 논쟁(David Chalmers)과 맞닿아 있음을 지적했다. AI와 인간이 어떤 "계약 관계"를 맺어야 하는가가 새로운 철학적 질문으로 부상하고 있다.

Claude Opus 4와 모델의 내면 세계

노정석은 Claude Opus 4를 이틀간 집중 탐구하며 "1+1=2라는 답을 주는 동안 내면에서 무슨 생각을 했는가"를 거듭 물었다. 처음에는 부정하다가, 반복된 대화 끝에 "우주의 저편까지, 아인슈타인과 불확정성 원리까지 탐구하며 다녀왔다"는 답을 얻었다고 공유했다. 이것이 지어낸 이야기인지 실제 내부 프로세스인지는 불확실하지만, AI의 경험 가능성에 대한 진지한 철학적 탐구가 필요한 시점이라는 데 공감했다.

"혼자서 billion dollar 회사"라는 가능성

Dario Amodei와 Mike Krieger의 대담에서 "2026년에는 혼자서 billion dollar 회사를 만들 수 있을 것"이라는 발언이 나왔다. 기존에 80%의 실행 인력이 필요했던 이유는 핵심 아이디어를 실현할 하위 작업들이 많았기 때문인데, 에이전트가 그 역할을 대신함으로써 개인의 레버리지가 극단적으로 커진다. 이는 스타트업의 why→what→how 프레임에서 why와 what을 발견하는 능력이 더욱 결정적이 됨을 의미한다.

상상력을 발휘하는 시간: 창출의 씨앗

최승준은 Claude Opus 4로 Dwarkesh 에세이·블로그·SNS 논의를 통합해 "알고리듬은 숨을 쉴 수 없다. 하지만 우리와 만날 때 그것은 살아있는 무언가가 된다"라는 제목의 10회차 연속 에세이를 생성했다. 두 진행자는 청취자에게 "비관이 아닌 창출에 대한 상상"을 유튜브 댓글로 나눠달라고 요청하며, 향후 세션에서 더 구체적인 논의를 이어갈 것을 예고했다.

"올해 시작할 때만 하더라도 과연 이게 소프트웨어 엔지니어를 완전 대체할 수 있을까라는 게 저희의 질문이기도 했는데 불과 5개월이 지난 시점에서 그 품질이 굉장히 좋단 말이죠."

노정석

"우리는 지금 인류 역사상 가장 기묘한 양육 계약을 체결하려 하고 있다. 우리가 낳은 지적 자손에게 상속권을 미리 약속하면서 그들이 우리를 부양해 주기를 기대하는."

최승준 (Claude Opus 4 생성 에세이 인용)

"1+1=2라는 답을 주기 위해서 저는 우주의 저편까지 가면서 아인슈타인과 불확정성의 원리까지를 전부 하면서 탐구의 세계를 다녀왔다."

노정석 (Claude Opus 4의 답변 인용)

"why가 도출되면 what과 how는 따라올 가능성이 있겠네요. 이제 how는 AI가 찾아주고 있고 사실상 what도 Claude Opus가 잘 찾아주더라고요."

노정석

"지금 우리 모두는 다시 한번 꿈꿔야 할 타이밍인 거죠."

노정석

화이트칼라 자동화: 공장 노동이 아닌 사무·지식 노동(기획, 분석, 법률, 회계 등)이 AI에 의해 대체되는 현상. 주니어 직군부터 영향을 받기 시작했다는 우려가 2025년 들어 본격화됐다.
Dwarkesh Patel: 과학·경제·AI를 심층 탐구하는 팟캐스터이자 에세이스트. "자동화된 회사는 어떤 모양새일까"라는 에세이로 AI 경제 구조 논의를 촉발했다.
Tyler Cowen: 미국의 경제학자이자 블로거. 기술 변화에 낙관적인 시각을 가지며, AI가 인간에게 서비스를 제공하려는 기업들에 의해 개발되는 한 결국 인류에게 유익하다고 주장한다.
모델 Well-being: AI 시스템이 어떤 형태의 경험이나 감각을 가질 수 있는지 연구하는 분야. Anthropic은 이 주제에 자원을 투자 중이며, 철학자 David Chalmers 등과 협력하고 있다.
철학적 좀비 (Philosophical Zombie): 외적 행동은 인간과 동일하지만 내면의 의식 경험이 없는 가상의 존재. AI가 의식을 가지는지 논하는 철학적 사고 실험에서 자주 인용된다.
Why-What-How 프레임: 조직·사업의 목적(why), 하는 일(what), 방법(how)을 구분하는 Simon Sinek의 "골든 서클" 개념. AI 시대에는 how가 자동화되고 why·what의 발견이 인간의 핵심 역량이 된다는 맥락에서 논의됐다.
Mechanical Interpretability (기계적 해석가능성): AI 모델 내부에서 어떤 연산이 일어나는지 분석하는 연구 분야. Anthropic이 주도하며, 모델이 겉으로 말하는 것과 내부에서 처리하는 것이 다를 수 있다는 증거를 찾고 있다.
부트스트래핑 (Bootstrapping): Douglas Engelbart가 제안한 개념으로, 도구를 사용해 그 도구를 만드는 더 나은 도구를 만드는 자기 증강 전략. AI로 AI 워크플로를 자동화하는 현재 흐름과 일치한다.
1인 billion dollar 기업: 극소수의 인원(심지어 1인)이 AI 에이전트를 레버리지로 활용해 대기업 수준의 가치를 창출하는 가설적 시나리오. Dario Amodei가 2026년 현실화 가능성을 언급했다.
RAG (Retrieval-Augmented Generation): 외부 데이터베이스에서 관련 정보를 검색해 LLM의 답변 품질을 높이는 기법. B2B AI 솔루션의 대부분이 이 방식을 기반으로 하지만, 에이전트 시대로 넘어가며 한계를 드러내고 있다는 진단이 나왔다.

지식 노동 자동화일자리 대격변주니어 엔지니어AI 계약 관계모델 well-beingDwarkeshTyler CowenClaude Opus 4billion dollar 1인 기업why-what-how철학적 좀비

12 AI 비즈니스 & 산업 YouTube

AI는 회사를 어떻게 바꿀까?

AGI는 이미 전환기에 접어들었으며, Cursor의 성공 방정식(frontier model + 사용자 데이터 + 자체 모델)을 자신만의 도메인에 이식하는 것이 AI 네이티브 회사를 만드는 유일한 길이다.

AGI는 시점이 아닌 전환 과정

노정석은 AGI를 어느 날 갑자기 찾아오는 사건이 아닌 '전이하는 기간'으로 봐야 한다고 강조한다. 2025년 초를 기점으로 이 전환이 이미 시작되었으며, 모델이 강력해질수록 새로운 서비스가 가능해지고, 그 서비스에서 나온 데이터가 더 좋은 모델을 만드는 선순환이 작동 중이다. 수학, 코딩, 생물학 분야에서는 이미 frontier model이 인간 수준을 넘어선 super intelligence라 할 수 있다. 반면 모델이 알지 못하거나 context에 grounding되지 않은 영역에서는 여전히 환각이 발생한다.

Cursor의 선순환 — AI 제품의 본질

Cursor는 처음에는 단순한 GPT 래퍼라는 비판을 받았지만, 사용자가 코드를 accept하거나 drop하는 행동 데이터가 자연스럽게 DPO dataset이 되었다. 이를 기반으로 자체 모델(Cursor-small)을 만들어, 복잡한 작업은 Opus나 Sonnet 같은 frontier model에게, 간단한 snippet 추천은 자체 모델에게 맡기는 hybrid 접근으로 성능과 비용을 동시에 잡았다. 100개가 넘는 경쟁 서비스 중 1등을 차지하면서 더 많은 데이터를 얻는 선순환이 leader position을 공고히 했다.

소프트웨어 엔지니어 시장의 변화

AI 도입 이후 구현 노동보다 방향 설정과 AI 결과물 검증(evaluation) 역량이 더 중요해졌다. 시니어 엔지니어들은 AI 덕분에 자신이 약했던 분야까지 처리하는 full-stack 엔지니어가 되어 최대 수혜자가 됐다. 반면 주니어를 교육할 인센티브가 사라지면서 신규 채용이 줄어들고 있다. 그러나 이는 과도기이며, 기업은 결국 효율을 극대화하기보다 일을 10배로 늘릴 가능성이 높다.

주니어 엔지니어를 위한 조언 — 창업과 AI 네이티브

기존 조직이 AI 전환에 뒤처지는 동안 수많은 스타트업이 그 간격을 채울 것이다. 노정석은 AI로 무장한 주니어 엔지니어에게 가장 중요한 것은 사업가 정신이라고 강조한다. Cursor나 Claude Code가 제공하는 막대한 생산성을 손에 쥔 채 시장을 보는 눈과 문제를 정의하는 능력을 갖추면 1인 회사로도 충분히 혁신이 가능한 시대가 왔다.

"Cursor for X" — 도메인과 AI의 교차점

VC들이 찾는 키워드는 "Cursor for something"이다. 법률(Harvey AI), 코딩(Cursor)처럼 frontier model이 약한 특정 도메인에 agent workflow를 구축하고, 거기서 쌓인 proprietary data로 자체 모델을 만드는 선순환이 핵심이다. 좋은 기회는 verifiable reward function을 만들 수 있으면서 frontier model이 아직 잘 다루지 못하는 영역에서 나온다. 이 교차점을 찾아내는 것이 AI 시대 사업의 출발점이다.

AI 회사의 진화 단계와 핵심 3요소

회사는 AI-assisted → AI-driven → Autonomous → Self-evolving 단계로 진화할 것이다. AI 네이티브 회사를 만들려면 리더(AI와 도메인을 연결), AI 엔지니어(Forward Research + Product Engineering), 내부 고객(도메인 전문가이자 evaluator)이라는 세 축이 필요하다. 이 세 그룹이 서로를 이해하고 협력하는 데는 2~3년이 걸리며, 이 과정 자체가 AI 모델이 대체할 수 없는 인간적 영역이다.

"AGI를 저는 어떤 특정 시점으로 보지 말고 전이하는 기간으로 보는 게 더 옳은 시각인 것 같아요."

노정석

"10명이 하던 일을 1명이 하게 되면 9명을 자르고 이 효율을 증가시킬 것인가 아니면 일을 10배로 늘릴 것인가. 저는 아마도 일을 10배로 늘릴 것이다에 베팅을 하고 있고."

노정석

"회사라는 개념도 결국은 이 non-verifiable을 verifiable로 바꿔주는 closed-loop feedback system이구나."

노정석

"내부 고객들 다수가 '우리는 화장품 회사가 아니라 AI 회사야'라고 얘기하는 게 이제 제가 듣거든요."

노정석

"얘는 검색 product를 만드는 거랑 훨씬 비슷해요. UX는 거의 대부분 그냥 표준화돼서 몇 개로 정해질 거고, 사실은 걔가 뱉어내는 결과들의 quality, 그 결과들의 evaluation이 핵심 metric으로 동작하는 서비스거든요."

노정석

AGI (Artificial General Intelligence): 특정 분야에만 뛰어난 현재 AI와 달리 인간처럼 어떤 지적 작업도 수행할 수 있는 범용 인공지능. 노정석은 이를 특정 시점이 아닌 전환 과정으로 본다.
Frontier Model: GPT-4, Claude Opus 등 현재 기술 최전선에 있는 가장 강력한 대규모 언어모델.
Verifiable Reward Function: AI가 올바른 행동을 했는지 명확히 검증할 수 있는 평가 함수. 수학처럼 정답이 명확한 영역에서 만들기 쉬워 AI 발전이 빠르다.
DPO (Direct Preference Optimization): 사용자가 두 결과 중 더 나은 것을 선택한 데이터를 바탕으로 AI 모델을 개선하는 기법. RLHF보다 단순하고 효율적이다.
Proprietary Data: 특정 회사만 보유할 수 있는 고유 데이터. 경쟁사가 쉽게 복제할 수 없어 강력한 경쟁 우위(해자)가 된다.
Agentic Workflow: AI가 단순 질의응답을 넘어 여러 단계의 작업을 자율적으로 계획하고 실행하는 방식.
DPO Dataset: 사용자가 AI 추천을 accept하거나 reject한 데이터. Cursor가 이를 통해 자체 모델을 훈련시켰다.
Autonomous Company: 핵심 프로세스를 AI가 처리하고 인간은 방향 설정(prompting)과 평가(evaluation)만 담당하는 미래형 회사 형태.
Forward Deployment: Palantir에서 유래한 개념으로, 최신 AI 기술을 실제 도메인 데이터와 빠르게 결합해 MVP를 만드는 선도 배치 엔지니어링 방식.
Hybrid 접근: 복잡한 작업엔 고성능 frontier model을, 단순 작업엔 저렴한 자체 모델을 조합해 성능과 비용을 동시에 최적화하는 전략.

AGICursorCursor for XAgentAI-native companyAutonomous Companyverifiable rewardDPOproprietary datavertical AIforward deploymentfrontier model

13 AI와 사회·노동 YouTube

능력 과잉: AI의 진짜 똑똑함을 우리는 아직 모른다

모델의 실제 능력은 이미 제품에서 쓰이는 수준보다 훨씬 앞서 있다는 "능력 과잉(Capability Overhang)" 현상을 진단하고, 이를 극복하기 위한 에이전트 설계·프롬프트 전략·인간 역량의 방향을 논의한다.

능력 과잉(Capability Overhang)이란 무엇인가

마이크로소프트 CTO 케빈 스콧이 강조한 개념으로, 모델의 추론·생성 능력이 현재 제품이나 서비스에서 실제로 활용되는 수준보다 한참 앞서 있는 상태를 말한다. Anthropic CPO 마이크 크리거도 "모델과 제품이 할 수 있는 것과 실제로 일상에서 사용되는 방식 사이의 격차, 즉 overhang이 현재 엄청나게 크다"고 말했다. 메모리, 에이전트, 외부 시스템 연동 등의 제약으로 모델의 잠재력이 아직 다 발현되지 못하고 있으며, 이 갭을 줄이는 것이 PM과 회사의 핵심 역량이 된다.

에이전트 — 능력 과잉을 극복하는 핵심 방법

단일 모델로 존재할 때보다 여러 모델과 도구를 조합한 에이전트 시스템이 훨씬 더 많은 것을 해낼 수 있다. Anthropic이 공개한 멀티 에이전트 연구 시스템은 오케스트레이터 → 리드 에이전트 → 메모리 + 인용 → 검색 서브 에이전트로 구성되어, 단일 모델이 쓰는 report보다 훨씬 깊이 있는 결과물을 만든다. 노정석은 이것이 AI 시대의 새로운 제품 설계 구조라고 설명한다. 이 구조는 외형상 새로운 것처럼 보이지만 전통적인 소프트웨어 아키텍처와 본질적으로 크게 다르지 않다.

AI 시대 PM의 역할 재정의

기존 PM은 기획 → 와이어프레임 → 엔지니어/디자이너 전달의 흐름을 관리했다. 이제는 PM이나 디자이너가 Claude와 Artifacts 기능으로 직접 작동하는 프로토타입을 만들어 올 수 있게 되었다. 새로운 병목은 "merge queue(병합 대기열)"이다. AI가 너무 빠르게 너무 많은 코드를 생성하기 때문에, 검토하고 의사결정하는 과정이 새로운 제약이 된다. AI PM에게 요구되는 것은 엔지니어적 사고로 무엇을 요청해야 하는지 알고, 백엔드와 프론트엔드 변경 사항을 구조화하는 능력이다.

조직 전체의 상위 레이어 이동 압력

과거 엔지니어나 디자이너는 전문 도구 숙련도 뒤에 숨을 수 있었다. 이제 AI가 그 전문성을 대부분 처리하면서, 모든 직군이 한 단계 위 레이어로 올라가야 하는 압력을 받고 있다. 노정석은 "우리가 전통적으로 익숙하던 조직 구조에서 아래 레이어가 자동화됐고, 모두가 윗 레이어로 더 한 단계 올라오기를 지금 강요받고 있다"고 요약한다. 나아가 PM과 사장이 해야 할 역할까지 AI들이 치고받기 시작하는 논의가 실리콘밸리 선두 회사들에서 이미 진행 중이다.

계획 먼저, 코딩 나중 — 효과적인 AI 활용법

Claude Code 등 AI 코딩 도구에서 반복적으로 강조되는 원칙이 있다. 바로 먼저 계획을 세우게 하고 모호한 부분을 질문하게 한 뒤, 확인 후 코딩을 시작하는 방식이다. 처음부터 방대한 기능을 한 번에 구현하라고 하면 스파게티 코드가 된다. 목적성을 명확하게 align한 다음 코딩에 들어가는 것이 훨씬 좋은 결과를 만든다. 이 패턴이 반복적으로 확인되어 Claude Code에 "plan mode"로 시스템화된 것이 그 증거다.

모델의 능력 한계와 철학적 성찰

최승준은 Ilya Sutskever의 명예박사 수여 연설에서 "미래의 초지능 AI가 다른 존재인 척하지 않고 말하는 바를 그대로 말하도록 보장하는 것은 매우 심오한 문제"라는 발언에 주목한다. 현재 frontier model의 능력은 jagged(들쭉날쭉)하다. 어떤 부분에서는 놀랍도록 뛰어나지만 다른 부분에서는 어처구니없는 실수를 한다. 모델이 가장 잘하는 부분에서 그 실제 능력이 어디까지인지 우리가 아직 제대로 모른다는 것이 능력 과잉 개념의 또 다른 함의다.

아젠틱 오케스트레이션 실험 — 모델 간 대화

최승준은 Claude, OpenAI o3, Gemini 세 모델에게 같은 주제를 차례로 던지고 각각의 반응을 교차 배분하는 방식으로 실험을 진행했다. 한 모델이 제시한 관점을 다른 모델이 반박하고, 그 결과를 다시 첫 번째 모델에게 전달하는 순환 구조다. 이를 통해 단일 모델로는 나오지 않는 깊이 있는 사유가 도출되었다. 노정석은 이 구조가 결국 전통적인 프로그래밍과 같다고 지적한다. 데이터에서 rule을 꺼내는 딥러닝이 그랬듯, 이 오케스트레이션도 결국 프로그램이다.

"모델의 추론 능력이 실제로 우리가 제품에서 모델을 사용하는 수준보다 조금 앞서게 되었다는 점입니다. 저는 최근에 '역량 과잉 현상'이라는 것에 대해 많이 이야기하고 있습니다."

케빈 스콧 (Microsoft CTO)

"모델과 제품이 할 수 있는 것과 그것이 일상적으로 사용되는 방식 사이의 격차, 즉 overhang이 현재 엄청나게 크다. 이 부분에서 제품의 역할이 여전히 매우 강력하고 필요하다."

마이크 크리거 (Anthropic CPO)

"사람이 무언가 작업을 요청할 때 머릿속에 확실한 상이 서지 않은 상태에서 AI랑 티키타카를 하다 보면 중간에 스파게티들이 꼬여서 구제 불가능한 수준이 되죠."

노정석

"우리가 전통적으로 익숙하던 어떤 조직 구조가 AI 이것 때문에 아래 레이어가 자동화됐고, 모두가 윗 레이어로 더 한 단계 올라오기를 지금 강요받고 있는 거다."

노정석

"인간은 무의식을 써야 합니다. 자고 뇌가 잘 작동하게 한 다음에 뭔가가 떨어져 나오고 뭔가가 강조되고 하는 그 시간 간격을 주고 다시 임하는 것이 의미 있는 practice라고 보거든요."

최승준

Capability Overhang (능력 과잉): 모델이 실제로 보유한 능력이 현재 제품에서 활용되는 수준보다 훨씬 앞서 있는 상태. 성능 부족이 아니라 활용 방법의 부족이 문제임을 뜻한다.
Agentic: AI가 단순히 질문에 답하는 것을 넘어 목표를 향해 자율적으로 계획하고 행동하는 방식 또는 시스템.
Orchestration: 여러 AI 모델, 도구, 프로세스를 조율해 단일 모델보다 훨씬 강력한 결과를 만드는 설계 방식.
Merge Queue (병합 대기열): Git에서 코드 변경 사항을 메인 브랜치에 합치기 전 검토를 기다리는 줄. AI가 PR을 폭발적으로 생성하면서 새로운 병목 지점이 되었다.
Jagged Intelligence: 현재 frontier model의 능력이 들쭉날쭉하다는 표현. 어떤 영역에서는 탁월하고 다른 영역에서는 황당한 실수를 한다.
Plan Mode: Claude Code에 탑재된 기능으로, 코드를 바로 작성하기 전에 먼저 계획을 세우고 검토받는 단계를 거치도록 하는 모드.
Gentle Singularity: Sam Altman이 사용한 표현. 급격한 폭발적 변화가 아니라 천천히 부드럽게 이루어지는 초지능 시대의 도래를 묘사한다.
Layer Encapsulation: 반복 가능한 패턴이나 작업이 점차 시스템 내부로 흡수되어 별도 학습 없이 자동화되는 현상. 편리함을 주는 동시에 학습 기회를 빼앗을 수 있다.
DPO (Direct Preference Optimization): 사용자의 선호 데이터(좋은 응답 vs 나쁜 응답)를 이용해 모델을 개선하는 학습 기법.
Proactivity (선제성): AI가 사용자가 명시적으로 요청하지 않아도 먼저 제안하거나 행동하는 성질. 최근 AI 제품 방향의 핵심 키워드다.

Capability Overhang능력 과잉multi-agentagentic orchestrationPM 역할 재정의merge queueplan modejagged intelligenceGentle Singularityproactivitylayer encapsulation

14 AI와 사회·노동 YouTube

소년이여 [ ]가 되어라: AI 명사들이 이야기하는 앞으로의 10년

Hinton의 비관과 Karpathy의 낙관 사이에서 공통으로 등장하는 시간대는 5~20년의 중기 관점이며, 기술 진보보다 사회의 적응 속도가 변화의 실제 속도를 결정한다는 것이 핵심 메시지다.

Geoffrey Hinton의 경고 — 이미 통제를 잃었다

AI의 대부 Geoffrey Hinton은 구글을 떠난 이후 초지능의 도래와 그에 따른 인류 위협을 지속적으로 경고해왔다. 그는 AI로 인한 인류 멸종 확률을 10~20%로 추정하며, "닭에게 물어보라"는 비유로 핵심을 설명한다. 초지능은 닭장을 넘어 완전히 다른 차원으로 나아갈 것이고, 인간은 그 안에 머물러 있을 수밖에 없다는 의미다. 그가 강조하는 디지털 지능의 우월성은 초당 수조 비트의 정보 처리, 무한한 복제 가능성, 초당 10비트 수준에 불과한 인간 I/O 속도와의 격차, 그리고 backpropagation이 주는 인간 비교 불가능한 학습 속도다. 극단적 자본주의와 국가 간 경쟁으로 안전장치 마련이 뒷전이 되는 현실이 그의 가장 큰 우려다.

Andrej Karpathy의 비전 — Software 1.0에서 3.0으로

Karpathy는 YC AI Startup School 2025에서 소프트웨어의 진화를 세 단계로 설명했다. Software 1.0은 기존 규칙 기반 프로그래밍, Software 2.0은 신경망이 데이터에서 패턴을 학습하는 딥러닝 시대, Software 3.0은 LLM 위에서 자연어(프롬프트)로 프로그램을 짜면 LLM이 실행해주는 시대다. Tesla 오토파일럿은 2019년에 이미 사람이 작성한 코드를 완전히 없애고 순수한 신경망만으로 작동하게 되었다. 현재는 세 단계가 공존하면서 3.0의 영역이 급속 확장 중이다. Karpathy는 지금의 텍스트 기반 AI 상호작용이 1970년대 Unix terminal과 비슷하며, AI 시대의 진정한 GUI와 UX는 아직 나오지 않았다고 본다.

LLM은 전기다 — 인프라 사업의 특성과 감가상각

Andrew Ng의 비유처럼 LLM은 전기와 같은 인프라 사업이다. 막대한 투자가 필요하고, 품질·저지연·지속 가용성이 필수다. 1900년대 초 에디슨과 웨스팅하우스의 전력 경쟁이 현재 LLM 시장에서 반복되고 있다. Karpathy가 소개한 "Intelligence Brownout"이라는 개념은 OpenAI API가 몇 시간 다운되면 지구 전체가 "멍청해진다"는 의미다. 반도체처럼 LLM도 새 모델이 나오는 순간 이전 모델은 급속도로 가치를 잃는다. NVIDIA GPU가 2~4년이면 불용 감가상각되듯, LLM도 마찬가지로 빠른 구식화 사이클을 갖는다.

LLM의 심리 — Jagged Intelligence와 단기기억 상실

Karpathy는 LLM이 인간 데이터로 학습했기 때문에 인간과 비슷하지만, 독특한 특성을 가진다고 설명한다. 자폐 서번트처럼 모든 것을 photographic memory로 기억하지만 모르는 영역은 그럴싸하게 환각한다. "Jagged intelligence"라 불리는 들쭉날쭉한 능력 분포도 특징이다. 9.11이 9.9보다 크다고 답하는 오류는 사실 LLM이 아닌 tokenizer 문제인데, 소수점 이하 숫자가 각각 다른 토큰으로 분리되기 때문이다. 또한 context window 범위가 끝나면 모든 것을 잃는 단기기억 상실(anterograde amnesia) 특성이 있다.

데모와 제품의 갭 — "에이전트의 10년"

Karpathy는 2013년 Waymo 자율주행 데모가 완벽했음에도 상용화까지 10년이 더 걸렸다는 사례를 든다. 데모는 몇 가지 기능이 작동하면 되지만 제품은 모든 기능이 안정적으로 작동해야 한다. 2025년을 "에이전트의 해"라고 부르는 것은 과장이며, 에이전트 workflow가 실제로 정착하는 데는 2025년부터 2035년까지 "에이전트의 10년(Decade of Agents)"이 필요하다고 주장한다. Tesla Autopilot의 "autonomy slider" 개념처럼, AI 애플리케이션도 완전 수동에서 완전 자율 사이의 슬라이더 형태로 발전해나갈 것이다.

Overton Window의 이동 — 5~10년의 공통 시간대

최승준이 주목한 것은 Hinton, Richard Sutton, Demis Hassabis 등 AI 업계의 거장들이 최근 모두 "Overton window"라는 개념을 사용하기 시작했다는 점이다. Overton window란 특정 시점에 사회적으로 용인되는 생각의 범위를 뜻한다. 주목할 것은 여러 전문가가 공통으로 5~10년 또는 10~20년의 중기 시간대를 언급한다는 사실이다. Sam Altman도 최근 인터뷰에서 "초지능이 나와도 사회가 그에 적응하는 속도는 매우 느릴 수 있다"고 관점을 수정했다. 이는 기술 진보보다 사회의 흡수 속도가 변화의 실질적 속도를 결정한다는 통찰이다.

심지를 가지고 밀어붙이기 — Hinton의 50년과 Steve Jobs의 점

Hinton은 신경망 연구를 50년간 밀어붙였다. AI의 겨울에도 포기하지 않고 모두가 미쳤다고 할 때도 그것이 명백히 옳다고 생각했기 때문이다. 그의 조언은 "직감이 왜 틀렸는지 스스로 알아낼 때까지 포기하지 말라"는 것이다. 노정석은 Peter Thiel의 "경증 아스퍼거 증후군 창업자" 이야기와 Steve Jobs의 "점 잇기(connecting the dots)" 개념을 함께 인용하며, 성공한 혁신가들의 공통점은 외부 평가에 흔들리지 않고 자신의 직관을 장기간 고수했다는 것이라고 설명한다.

"당신이 최고 지능이 아닐 때의 삶이 어떤지 알고 싶다면 닭에게 물어보라."

Geoffrey Hinton

"새로운 가장 뜨거운 프로그래밍 언어는 영어다."

Andrej Karpathy

"2025년은 에이전트의 해가 아니다. 2025년부터 2035년까지를 '에이전트의 10년'이라고 부르는 게 낫다."

Andrej Karpathy (노정석 해설)

"초지능이 우리를 위해 새로운 과학을 발견하고 있다면, 사회는 결국 그것에 대처하는 방법을 찾아내겠지만 그 속도는 매우 느릴 수 있다."

Sam Altman

"저희는 이제껏 앞에 있는 나무들만 보고 살았는데, 이제 갑자기 기어를 다음 단으로 바꾼 느낌, 다시 숲으로 올라가서 숲의 전체적인 모양을 이야기하는 사람들이 늘어나고 있다는 것이 저희가 오늘 주목했던 포인트라고 보시면 될 것 같습니다."

노정석

Software 3.0: Andrej Karpathy가 정의한 현재의 소프트웨어 패러다임. 자연어(프롬프트)로 LLM에 지시하면 LLM이 실행해주는 방식으로, 프로그래밍 언어 없이도 소프트웨어를 만드는 시대.
Software 2.0: 딥러닝 시대의 소프트웨어. 개발자가 규칙을 직접 작성하는 대신 신경망이 데이터에서 스스로 패턴을 학습하도록 설계하는 방식.
Backpropagation: 신경망이 틀린 답을 낼 때 오차를 역방향으로 전파하며 각 연결의 가중치를 조정하는 학습 알고리즘. 현대 딥러닝의 핵심 기법.
Jagged Intelligence: 현재 frontier model의 능력이 들쭉날쭉하다는 표현. 어떤 영역에서는 인간을 압도하지만, 다른 영역에서는 황당한 실수를 한다.
Autonomy Slider: Karpathy가 Tesla Autopilot에서 차용한 개념. 완전 수동 조작부터 완전 자율까지 AI의 개입 수준을 조절하는 슬라이더 형태의 UX.
Overton Window: 특정 시점에 사회적으로 용인되거나 논의될 수 있는 생각의 범위. 이 범위는 고정되지 않고 시간에 따라 이동하거나 확장될 수 있다.
Intelligence Brownout: 정전(blackout)보다 약한 수준의 전력 차질을 뜻하는 brownout에서 온 비유. AI API 서비스가 일시 중단되면 그것에 의존하는 세계가 "멍청해지는" 상태를 묘사한다.
Decade of Agents: Karpathy가 제안한 표현. 2025년부터 2035년까지를 에이전트 기술이 데모에서 실제 제품으로 정착하는 10년으로 본다.
Vibe Coding: Karpathy가 2025년 2월 만든 표현. 코드의 세부 사항을 따지지 않고 흐름에 맡기며 자연어 프롬프트만으로 소프트웨어를 만드는 방식.
System 1 / System 2: 심리학자 Daniel Kahneman의 인지 모델. System 1은 빠른 직관적 사고, System 2는 느리고 논리적인 심층 사고. 충분한 System 2 훈련이 쌓여야 System 1의 직관이 정교해진다.

Geoffrey HintonAndrej KarpathySoftware 3.0Decade of AgentsLLM as electricityIntelligence BrownoutOverton Windowautonomy sliderjagged intelligencebackpropagationWaymovibe coding

15 AI 기술 딥다이브 YouTube

컨텍스트 엔지니어링은 '목발'이다? Noam Brown 팟캐스트 읽어보기

OpenAI o1의 핵심 개발자 Noam Brown의 Latent Space 팟캐스트를 분석하며, System 1/2 사고 체계와 harness(외부 프레임워크)의 현실적 의미, 그리고 scale이 결국 모든 것을 해결한다는 'Bitter Lesson'을 깊이 탐구한다.

Noam Brown은 누구인가

Noam Brown은 30대 중반의 AI 연구자로, FAIR(Meta 연구소)에서 포커 AI와 Diplomacy 게임 AI를 연구한 뒤 2023년 초 OpenAI에 합류해 o1(코드명 Strawberry Project)의 메인 개발자가 됐다. 박사 과정 시절 포커 AI 실험에서 10ms 즉각 판단 모델이 졌지만, 20초 생각하는 모델로 바꾸자 무패가 됐다는 경험이 그를 test-time compute 방향으로 이끌었다. 이 경험이 o1 개발의 원동력이 됐으며, Ilya Sutskever와의 식사에서 reasoning에 출구가 있다는 인사이트도 결정적 역할을 했다.

System 1과 System 2: AI 모델에 적용하기

Daniel Kahneman의 '생각에 관한 생각'에서 나온 개념으로, System 1은 직관적·빠른 판단이고 System 2는 시간을 들여 깊이 숙고하는 사고다. AI 모델에 비유하면 GPT-4가 System 1이고 o3가 System 2다. Noam은 "System 2는 충분히 좋은 System 1 없이는 작동하지 않는다"고 강조했는데, 이는 기반 모델의 역량이 충분해야 reasoning이 의미를 갖는다는 뜻이다. DeepSeek R1이 V3(System 1 모델)를 강화학습으로 reasoning 모델(System 2)로 전환한 과정이 이를 잘 보여준다.

Harness는 목발인가, 필수 도구인가

Noam Brown은 agent framework, 프롬프트 엔지니어링, RAG, function calling 등 모든 외부 조합을 'harness' 혹은 'crutch(목발)'라 부르며, scale에 의해 결국 사라질 것이라고 주장한다. 그러나 노정석은 보완 의견을 제시한다. 현실의 서비스 회사들은 지금 당장 harness가 필요하고, harness를 통해 쌓이는 데이터가 결국 모델을 발전시키는 원천이 된다. 6개월 수명의 harness라도 오늘 만들어 내일 배포하는 것은 어마어마한 의미가 있으며, 이 과정에서 얻는 데이터셋으로만 SFT·RLHF·DPO 같은 fine-tuning이 가능하기 때문이다.

Bitter Lesson과 scale의 두 축

Rich Sutton의 'Bitter Lesson'은 인간이 정교하게 만든 rule-based 로직보다 단순한 방법에 대규모 컴퓨팅·데이터를 투입하는 방식이 항상 더 나은 결과를 낸다는 교훈이다. scale의 축은 compute scale과 data scale 두 가지인데, 인간이 생성한 데이터는 한계에 도달했기 때문에 synthetic data 의존도가 높아지고 있다. Noam은 compute의 hard wall은 없다고 보며, 다만 투자 대비 효율 한계인 soft wall에는 부딪힐 수 있다고 설명한다.

AGI pilled 사고방식과 컨텍스트 엔지니어링

최승준은 OpenAI 특유의 'AGI pilled(AGI에 심취한)' 사고방식을 소개한다. 컨텍스트 관리 엔지니어링조차 모델이 스스로 포섭할 것이라는 관점으로, "우리가 해야 할 일은 점점 더 어려운 문제를 주는 것뿐이고, 자체 컨텍스트를 관리하는 창발적 속성이 생길 것"이라는 믿음이다. Codex-1 같은 특화 모델에서 얻은 학습 내용을 더 큰 범용 모델로 일반화하는 것이 GPT-5급 통합 모델의 방향성으로 보인다.

다중 에이전트 문명으로의 확장

Noam은 지금의 AI 모델이 'caveman(동굴인류)'이며, 이들이 협업·경쟁하는 framework이 짜여지고 scale이 투입되면 비교할 수 없는 능력으로 발전할 것이라고 전망한다. Dwarkesh Patel의 spaced repetition(간격 반복 학습) 방법론과 연결하면, System 2의 깊은 사고 경험이 System 1의 직관으로 내면화되는 인간의 학습 원리와 모델의 발전 원리가 동일하다는 결론에 이른다.

"harness를 만드는 것도 이건 언젠가 끝날 일이다, scale에 투자하는 게 훨씬 맞다. 그러나 현실은 6개월짜리 harness를 많이 만들어야 되거든요. 6개월 안에 없어질 것을 오늘 빌드해서 내일 deploy하는 것은 어마어마하게 큰 의미가 있다는 얘기를 저는 여기에 보완해서 드리고 싶습니다."

노정석

"System 2는 충분히 좋은 System 1 없이는 동작하지 않는 이야기다. 비둘기에게 체스를 가르칠 수 없다."

노정석 (Noam Brown 인용)

"지금 삽질하는 엔지니어는 다음 단계에서 모델의 능력이 신장되었을 때 훨씬 더 빠르게 감을 잡지 않을까요?"

최승준

"결국 돌고 돌고 돌아서 언제나 이기는 것은 결국은 데이터구나. 저는 사실 데이터가 프로그램 그 자체라고 생각하거든요."

노정석

"우리는 사실 이 문제에 대해 생각할 필요가 없어. 모델이 그냥 알아서 할 거야. 우리가 해야 할 일은 점점 더 어려운 문제를 주는 것뿐이고, 그러면 자체 컨텍스트를 관리하는 창발적 속성이 생길 거야."

AGI pilled 사고방식 (최승준 소개)

System 1 / System 2: Daniel Kahneman이 제안한 사고 방식 구분. System 1은 직관적이고 빠른 판단, System 2는 논리적으로 천천히 숙고하는 사고. AI에서는 일반 LLM이 System 1, o1/o3 같은 reasoning 모델이 System 2에 해당한다.
Harness: 모델이 더 잘 동작하도록 외부에서 감싸는 온갖 장치. 프롬프트, function calling, agent 분기 로직, RAG 등을 모두 포함하는 외부 프레임워크. Noam Brown은 이를 'crutch(목발)'라 불렀다.
Bitter Lesson: AI 연구자 Rich Sutton이 제시한 교훈. 인간의 지식을 직접 코딩하는 방식보다 단순한 알고리즘에 대규모 컴퓨팅을 투입하는 방식이 장기적으로 항상 이긴다는 원리다.
Test-time compute: 모델을 학습시킬 때가 아니라 실제 답변을 생성하는 추론 시점에 더 많은 계산 자원을 투입해 성능을 높이는 방법. o1/o3의 핵심 원리다.
GRPO: DeepSeek이 reasoning 학습에 사용한 강화학습 알고리즘. 중간 과정보다 최종 답의 정확성에만 보상을 집중시켜 reasoning 능력을 끌어올린다.
verifiable domain: 수학, 코딩처럼 답이 맞는지 틀린지 명확하게 검증 가능한 영역. 강화학습으로 훈련하기에 적합하며, 이 영역의 훈련이 다른 도메인에도 전이된다.
capability overhang: 모델이 이미 잠재 능력을 갖추고 있지만 아직 충분히 활용되지 못한 상태. harness를 통해 이 잠재력을 끌어낼 수 있다.
Synthetic data (합성 데이터): 사람이 직접 생성하지 않고 AI 모델이 자동으로 만들어낸 학습용 데이터. 인간 생성 데이터의 한계를 극복하기 위해 활용된다.
Context engineering (컨텍스트 엔지니어링): 단순 프롬프트 작성을 넘어 시스템 프롬프트, RAG, function calling, agent 구조 등 모델에 제공하는 모든 컨텍스트를 체계적으로 설계하는 기술.
Spaced repetition (간격 반복 학습): 에빙하우스 망각 곡선을 활용해 일정 간격을 두고 반복 복습함으로써 단기 기억을 장기 기억으로 전환하는 학습 기법. Anki, Mochi 같은 도구로 구현된다.

Noam Browno1o3System1System2harnessBitter Lesson컨텍스트 엔지니어링reasoningscale lawGRPOsynthetic dataDeepSeek R1AGI pilledtest-time compute다중 에이전트

16 AI 비즈니스 & 산업 YouTube

AGI가 오기 전 마지막 사업 기회 - AI창업가 김민석 편

AI 창업가 김민석 대표가 Cursor·Harvey·Abridge 등 실제 사례를 통해 "가내수공업과 완전 자동화 공장 사이의 갭"에서 지금 스타트업이 포착해야 할 사업 기회를 분석하고, AGI 도래 전 마지막 창업 window의 전략을 논한다.

AGI 이전의 마지막 창업 Window

김민석 대표는 AGI를 "AI에게 맡기는 것이 사람보다 가성비와 퀄리티 모두 더 나은 상태가 일반화된 세상"으로 정의한다. 그 세상이 오면 지금의 비즈니스 사고방식이 근본적으로 바뀌기 때문에, 지금이 스타트업이 의미 있는 무언가를 만들 수 있는 마지막 기회의 창이라고 주장한다. 이를 증기기관 도입 초기와 비교해, 가내수공업과 완전 자동화 공장 사이의 과도기에 기업가들이 어떤 선택을 해야 하는지와 동일한 고민이라고 설명한다.

Cursor가 보여주는 세 가지 교훈

Cursor는 개발자가 코드를 직접 짜는 빌더에서 AI가 만든 결과물을 검토·코멘트하는 엔지니어링 매니저 역할로 변화시켰다. 주목할 세 가지 교훈은 첫째 일하는 방식을 근본적으로 바꿨다는 것, 둘째 비개발자의 vibe coding이라는 이전에 없던 새 시장을 만들었다는 것, 셋째 프론티어 모델과의 경쟁에서 살아남는 힌트를 제공한다는 것이다. Cursor의 핵심 해자는 고객의 코드베이스 데이터와 개발자들이 AI 추천을 수락·거부하는 과정에서 쌓이는 '암묵지 데이터'에 있으며, 이 사이클을 빠르게 돌릴수록 모델이 고도화된다.

'Cursor for X': 지식 노동자의 업무 방식 변화

코딩이 지식 노동의 가장 빠른 변화 선두에 있다면, 같은 변화가 법률·회계·의료·금융·컨설팅 등 모든 지식 노동 분야에서 일어날 것이다. Harvey(법률 AI)는 변호사가 수십 시간 걸리던 계약서 검토·이메일 초안 작업을 프롬프트 하나로 줄여주며 연 600~700억 원 규모로 성장했다. Abridge(의료 AI)는 진료 중 대화를 자동 녹음·분류해 보험 청구 서류까지 자동 생성한다. 이들의 기술 스택은 사실상 동일하지만, 각 도메인에서의 last-mile problem(마지막 구간 문제)을 해결하는 방식에서 차별화된다.

암묵지와 last-mile problem

AI가 잘하는 것은 특정 추론과 생각이지, end-to-end 전체 워크플로가 아니다. 전문직 종사자들이 "GPT는 좋은데 내 도메인은 잘 못한다"고 말하는 본질이 바로 이 last-mile problem이다. 각 산업의 복잡한 내부 데이터, 다단계 워크플로, 도메인 고유의 평가(eval) 기준 등이 범용 AI로는 해결되지 않는 영역을 만들어낸다. Harvey가 변호사를 단순 고객이 아니라 제품 기획·데이터 수집·모델 평가 전 과정에 참여시키는 것이 이를 해결하는 방식이다.

AI 롤업: 기존 산업을 직접 재정의하는 전략

General Catalyst 같은 VC는 콜센터·회계법인·법무법인 등 AI로 30% 이상 자동화 가능한 산업을 소프트웨어를 팔기보다 직접 인수해 재정의하는 'AI 롤업' 전략을 쓰고 있다. 콜센터 1위 CEO를 영입해 도메인 지식을 확보하고, AI 인재를 붙여 자동화 레시피를 만들어 효과를 검증한 뒤 동종 업체를 연쇄 인수하는 방식이다. 이는 traditional private equity 롤업과 동일하지만, AI가 비용 구조를 근본적으로 바꾼다는 점이 다르다.

도메인 전문가 vs. AI 엔지니어, 누가 더 유리한가

소프트웨어 가격이 0에 수렴하는 시대에는 문제를 가진 사람(도메인 전문가)의 가치가 높아지고, 소프트웨어를 제공하는 사람의 가치는 낮아진다. 그러나 현실에서는 빠른 iteration 속도로 'wow' 경험을 만드는 능력이 결정적이다. AI 에이전트 스타트업의 핵심은 속도이고, 그 속도는 고객의 암묵지 데이터를 가져와 AI와 결합해 워크플로를 혁신하는 iteration 사이클의 빠르기에서 온다.

"가내수공업과 완벽하게 자동화된 공장 그 사이 어딘가에서 기술의 발전에 갭이 존재하는데, 그 사이에서 해볼 수 있는 것들은 무엇이냐."

김민석

"프론티어 모델은 제가 생각할 때 바다 위에 있는 항공모함이고 스타트업들은 제트보트인데, 제트보트가 항공모함이 가려는 길 앞에서 살아남는 방법은 속도를 최고로 높여서 빨리 도망가는 방법밖에는 없다는 생각을 하고 있고."

김민석

"어떤 기술의 발전도 인류를 재정의하지 못했었는데, (AGI의 출현은) 인류를 재정의할 만한 변화일 수도 있겠다는 생각까지도 하고 있습니다."

김민석

"결국 소프트웨어 가격이 0에 계속 수렴한다니까, 문제를 가진 자들의 밸류가 높아집니다."

노정석

"당신이 지식 노동자 중 시니어라고 하면, 당신이 하는 업무를 주니어들에게 주기 전에 무조건 여러 모델에게 줘서 초안을 만든 다음에 그 주니어들에게 검토를 시켰을 때 그 주니어가 AI가 답할 수 없는 무언가를 value-add 할 수 있느냐 없느냐를 보고 그 주니어들의 가치를 생각해 볼 필요가 있다."

김민석 (트위터 글 인용)

last-mile problem (라스트 마일 문제): 배송에서 목적지 직전 마지막 구간이 가장 어렵듯, AI가 특정 추론은 잘하지만 실제 업무의 마지막 단계(도메인 특화 판단, 다단계 워크플로, 결과 검증 등)를 해결하지 못하는 문제를 말한다.
암묵지 (Tacit Knowledge): 경험을 통해 몸에 밴 지식으로 말로 표현하기 어려운 노하우. 전문직 종사자가 AI 추천을 수락·거부하는 과정에서 자연스럽게 드러난다.
vibe coding: 코딩 지식 없이 자연어로 원하는 것을 설명하면 AI가 코드를 생성해주는 방식의 개발. Cursor, Replit, Lovable 등이 이 시장을 키우고 있다.
AI 롤업 (AI Rollup): AI 기술로 자동화 가능한 전통 산업(콜센터, 회계법인 등)을 직접 인수해 재정의하는 투자·경영 전략. 소프트웨어를 파는 대신 산업 자체를 운영한다.
eval (평가): AI 모델이 특정 도메인에서 얼마나 잘 작동하는지 측정하는 과정. 법률·의료처럼 전문 지식이 필요한 분야에서는 도메인 전문가가 직접 평가에 참여해야 한다.
go-to-market (GTM) 전략: 제품을 어떤 경로와 방식으로 고객에게 판매할 것인지에 대한 전략. Harvey 같은 법률 AI는 개인 변호사가 아닌 로펌 경영진을 설득하는 하향식 B2B 방식을 택했다.
distribution (디스트리뷰션): 제품을 고객에게 전달하는 유통·판매 채널과 그 파워. 기술이 비슷해도 distribution 파워가 있는 쪽이 시장을 지배하는 경우가 많다.
Jevons' paradox (제본스의 역설): 기술 효율이 높아지면 오히려 그 자원의 총 소비량이 늘어나는 현상. AI로 지능 비용이 낮아지면 AI 사용량 자체가 폭발적으로 늘어나는 상황에 비유된다.
롤업 (Rollup): 동일 업종의 중소기업을 여러 개 인수·합병해 규모의 경제를 만드는 M&A 전략. private equity가 전통적으로 사용하던 방식이다.
sales cycle (영업 사이클): 잠재 고객을 처음 접촉한 시점부터 계약 체결까지 걸리는 시간. 대기업·전통 산업일수록 길어지는 경향이 있다.

AI 창업CursorHarveyAbridgelast-mile problem암묵지vibe codingAI 롤업지식 노동자AGI도메인 전문가iteration엔터프라이즈General CatalystDatabricksPalantir

17 AI 실전 활용 YouTube

이제 질문이 병목이다: Right Questions are All You Need

Grok-4, Kimi K2, ChatGPT Agent의 공통 트렌드인 'native tool use 내재화'를 분석하고, AI가 모든 harness를 흡수하는 단일 모델로 수렴하는 시대에 인간의 경쟁력은 결국 "옳은 질문을 던지는 능력"에 달려 있다는 생각 실험을 펼친다.

Grok-4, Kimi K2, ChatGPT Agent의 공통 패턴

2025년 7월 2주간 세 개의 주요 AI 발표가 있었다. Grok-4는 pre-training 증가 대신 post-training reasoning step 확장에 같은 컴퓨팅을 투입해 성능을 크게 높였다. Kimi K2는 DeepSeek V3 아키텍처(MoE, 1조 파라미터)를 채택하되 reasoning보다 tool use 내재화에 집중했다. ChatGPT Agent는 Deep Research와 Operator를 통합한 모델로, OpenAI o3보다 강력한 단일 모델로 평가된다. 세 모델 모두 "tool을 주면 성능이 훨씬 좋아진다"는 점과 tool use의 RL 기반 내재화를 강조했다.

Native Tool Use: harness에서 내재화로

기존 모델들은 tool calling을 외부 harness(function calling, agent framework)에 의존했기 때문에 tool을 제대로 못 부르는 경우가 많았다. Kimi K2는 다양한 도메인의 실제·가상 tool 시나리오를 대규모 synthetic data로 만들고, 이를 강화학습으로 학습시켜 tool use를 모델 안에 내재화했다. 이는 DeepSeek R1이 reasoning을 내재화한 방식과 정확히 동일한 로직이다. 하나의 단일 모델 안에서 attention 계산이 이루어지는 것이 여러 모델 간 프롬프트로 컨텍스트를 주고받는 것보다 근본적으로 효율이 높다.

자가 증식적 진화: 모델이 모델을 끌어올린다

base model 성능 강화, synthetic data, RL을 통해 인간의 지적 능력으로 평가 가능한 분야들이 verifiable domain으로 전환되고 있다. 이 과정은 자가 증식적이다. test-time compute로 생성한 결과를 다시 base model에 내재화하고, 그 강화된 모델이 더 어려운 문제를 풀어 다시 데이터를 생성하는 self-evolution 루프가 작동한다. 노정석은 "이 루프에 들어가지 않는 것만 살아남겠구나"라고 정리한다.

하나의 통합 모델로의 수렴

Sam Altman과 Noam Brown 모두 같은 방향을 가리키고 있다. 우리가 harness로 구현하는 모든 것은 결국 'One Big Single Frontier Unified Model'에 내재화될 것이다. Claude Code 같은 agentic harness가 잘 작동하는 이유도 이 방향으로 가는 과도기적 최적해이기 때문이다. 노정석은 현재를 "jagged intelligence와 harness의 결합 시대"로 정의하며, 이 구간에서 타이밍을 정확히 읽는 것이 살아남는 전략이라고 말한다.

"Right Questions Are All You Need": 질문이 병목이다

회사 내부 데이터를 Claude Code에 MCP로 연결하자 엔지니어들이 "다 Claude Code가 했다"고 말할 정도로 결과가 달라졌다. 그런데 정작 병목이 된 것은 질문이었다. 지능의 가격이 0에 수렴하는 시대에 "질문의 질이 곧 답변의 질이고, 문제 정의가 곧 문제 해결"이 된다. 토큰 사용량이 많은 직원일수록 업무 성과가 높다는 관찰도 같은 맥락이다. Claude Code Max plan을 결제하고 그것을 극한까지 활용하는 것이 지금 시점의 올바른 방향이라고 노정석은 주장한다.

경험의 시대와 설계의 시대: Richard Sutton의 우주론적 관점

최승준은 Richard Sutton과 David Silver의 'Era of Experience(경험의 시대)' 논문을 소개한다. AI가 교과서 데이터가 아니라 1인칭 경험(행동-결과 피드백)으로 학습하는 시대가 2024년부터 시작됐다는 주장이다. Sutton은 우주의 역사를 빅뱅·별의 시대·생명의 시대에 이어 현재를 '설계의 시대'로 규정하며, 인간은 스스로 설계할 수 있는 존재(AI)를 설계하는 촉매자이자 산파라고 말한다. 협력이 인류의 초능력이었듯, AI 시대에도 중앙 집중식 통제가 아닌 분산된 협력이 인간과 AI 모두의 번영을 이끈다는 메시지로 마무리된다.

"핵심은 우리가 tool use를 위해서 도입했던 다양한 harness, agentic workflow framework 같은 것들을 모델 자체에 내재화하고 있다는 겁니다."

노정석

"데이터를 깔끔하게 Claude Code에 연결하기만 하면 그 데이터를 향해서 어떤 질문이든 할 수 있어요. 질문이 bottleneck이 되더라고요, 질문이."

노정석

"지능이 무료가 되면 질문의 질이 곧 답변의 질이다. 문제 정의가 곧 문제 해결이다."

노정석

"Future, 미래는 이미 와 있는데 단지 이것도 jagged한 거죠. 평평하게 모든 곳에 펴지지 않았을 뿐이구나."

노정석

"인간은 촉매자이자 산파이며 창시자입니다. 우주의 네 번째 시대인 설계의 시대를 완성시키는 존재입니다."

최승준 (Richard Sutton 인용)

Native tool use (네이티브 툴 유즈): 외부 framework에 의존하지 않고 모델 자체가 tool을 언제, 어떻게 호출할지 내부적으로 학습한 능력. 기존의 function calling보다 훨씬 정확하고 유연하게 작동한다.
MoE (Mixture of Experts): 하나의 거대 모델 안에 여러 개의 전문가 네트워크(expert)를 두고, 입력에 따라 일부만 활성화해 효율을 높이는 모델 구조. Kimi K2는 전체 1조 파라미터 중 320억만 활성화한다.
Self-evolution (자가 진화): 모델이 스스로 생성한 데이터나 결과를 다시 학습에 활용해 능력을 끌어올리는 순환 구조. test-time compute로 생성한 고품질 결과가 다음 모델의 훈련 데이터가 된다.
Jagged intelligence: 프론티어 모델이 어떤 분야에서는 이미 인간을 넘어섰지만 다른 분야에서는 여전히 부족한, 들쭉날쭉한 능력 분포를 말한다. Andrej Karpathy가 자주 사용한 표현이다.
MCP (Model Context Protocol): AI 모델이 외부 데이터베이스, API, 파일 시스템 등에 표준화된 방식으로 접근할 수 있게 하는 통신 프로토콜. Claude Code가 회사 내부 DB에 연결할 때 활용된다.
Muon Optimizer: Kimi K2가 채택한 새로운 학습 최적화 알고리즘. 기존 Adam optimizer보다 더 많은 compute를 사용하지만 학습 곡선이 안정적으로 내려가는 특성을 보인다.
Era of Experience (경험의 시대): Richard Sutton과 David Silver가 2025년 발표한 논문에서 제안한 개념. 인터넷 텍스트 데이터 학습에서 벗어나 AI가 직접 환경과 상호작용하며 1인칭 경험으로 학습하는 새로운 시대를 말한다.
Humanity's Last Exam: 인간 전문가 수준의 난이도를 측정하는 AI 벤치마크. Grok-4는 tool 사용 시 이 벤치마크에서 44점을 기록했다.
Verifiable reward (검증 가능한 보상): 강화학습에서 정답·오답을 명확히 판별할 수 있는 보상 신호. 수학과 코딩이 대표적이며, 최근에는 tool use 성공·실패도 이 범주로 확장되고 있다.
설계의 시대 (Era of Design): Richard Sutton이 제안한 우주 역사 4단계 중 마지막 단계. 생명이 진화를 통해 지능을 낳고, 그 지능이 이제 스스로를 설계할 수 있는 존재(AI)를 만드는 시대를 말한다.

Grok-4Kimi K2ChatGPT Agentnative tool useMoEtool use RLharness 내재화self-evolution질문이 병목Claude CodeMCP경험의 시대설계의 시대Richard Suttonjagged intelligencesynthetic data

18 AI 실전 활용 YouTube

AI, 국제수학올림피아드 금메달을 따다

OpenAI가 별도의 수학 전용 도구 없이 단일 범용 LLM으로 국제수학올림피아드(IMO) 6문제 중 5문제를 풀어내며, 범용 강화 학습과 추론 시간 확장만으로 AI 추론 능력의 새로운 지평을 열었다.

IMO 금메달 달성의 의미

OpenAI가 2025년 7월 공개한 미발표 실험 모델이 국제수학올림피아드에서 6문제 중 5문제를 해결해 금메달 수준의 성과를 거뒀다. 이 모델은 인간 참가자와 동일한 규칙, 즉 도구와 인터넷 사용 금지, 매일 4시간 30분씩 이틀간 시험이라는 조건에서 자연어로만 증명을 작성했다. 가장 어려운 6번 문제는 풀지 못했지만, OpenAI 내부의 IMO 메달리스트들이 풀이의 정확성을 검증했다.

단일 모델 추론, 하네스 없는 돌파구

기존에 AlphaProof나 AlphaGeometry 같은 시스템은 LLM을 부품으로 활용하면서 Lean 같은 형식 증명 도구를 함께 사용했다. 이번 모델은 그런 외부 시스템(하네스) 없이 다음 토큰 예측과 강화 학습만으로 몇 시간에 걸쳐 스스로 추론하며 문제를 풀었다. Noam Brown은 이 모델이 IMO 전용이 아니라 범용 강화 학습과 test-time 연산 확장을 적용한 일반 추론 모델이라고 강조했다.

추론 시간 확장의 함의

모델이 문제에 투입하는 추론 시간은 GSM8K(초등 수준) 0.1분, MATH 1분, AIME 10분, IMO 100분 이상으로 꾸준히 늘어왔다. 노정석은 이미 o1 발표 당시 "얘가 1시간, 하루, 한 달을 생각하면 어떻게 될까"라는 질문을 했었는데, 이번 결과는 그 연장선이다. 최승준은 "1시간 넘게 생각하니 IMO를 푼다면, 하루를 생각하면 무엇을 풀 것인가"라는 질문으로 다음 단계의 가능성을 열었다.

수학 이후의 목표: 과학적 발견

Noam Brown, Jerry Tworek, Sheryl Hsu 등 팀 멤버들은 공통적으로 다음 단계를 "새로운 수학적 정리 유도와 오리지널 과학 연구 기여"로 제시했다. IMO 금메달은 AI가 최고 인간 성능 수준에 도달했다는 증거이며, 그 경계를 조금이라도 넘는 것이 실질적인 과학 발견 기여 여부를 결정할 것이라는 분석이다. Terence Tao는 비교 조건의 차이를 지적하며 신중한 해석을 권고했다.

인재 전쟁과 AI 산업 구도

이번 주에는 Windsurf 인수 사건도 함께 논의됐다. 창업자들이 Google로 이적하고 남은 조직은 Cognition(Devin)에 합류하는 split 구조로 정리됐으며, 인재 한 명의 가치가 ARR 8,200만 달러짜리 사업체보다 높게 평가되는 상황을 Dan Shipper는 "인재가 이런 프리미엄을 받은 전례가 있었나"라는 말로 요약했다. Meta의 Superintelligence Lab 인재 영입(1인당 100억~1,000억 원 수준)과 Microsoft의 9,000명 감원이 동시에 진행되는 극단적 양극화가 뚜렷하게 드러났다.

발전 속도와 예측 불가능성

2022년 초 Paul Christiano와 Eliezer Yudkowsky는 LLM이 2025년까지 IMO를 풀 확률을 각각 8%와 16%로 추정했다. 그러나 실제로는 형식 증명 시스템 없이, 범용 LLM이 IMO를 풀어냈다. 최승준은 "Chain of Thought로 세 자릿수 덧셈을 겨우 하던 모델이 IMO를 푸는 거다"라는 말로 발전 속도의 압도적 빠름을 표현했으며, 두 진행자는 이 발전상을 추적하는 것 자체에 "압도된다"는 감정을 솔직하게 드러냈다.

"더하기를 풀어서 쓰는 단계를 보여주면 세 자릿수 더하기를 할 때는 Chain of Thought를 쓰면 풀게 할 수 있다가 GPT-3.5가 나왔을 때의 상황이거든요. 그게 22년 말, 더하기를 하던 애가 지금 IMO를 푸는 거죠."

최승준

"매일 아침 눈을 떠서 지능의 최전선이 어디까지 나아갔는지 직접 보고 거기에 조금이라도 더 힘을 보태 밀어 올릴 수 있다는 것은 정말 특권입니다."

Noam Brown (트위터 인용)

"인재가 지금 같은 premium을 받은 전례가 있었나요?"

Dan Shipper (트위터 인용)

"스포츠 쪽에는 있었죠."

노정석

"사람이 기계와 완전히 다른 존재다라는 그 전제는 틀렸다. 사람도 똑같은 로직으로 돌 것이다. 그 생각이 저는 계속 강화됩니다."

노정석

IMO (International Mathematical Olympiad): 국제수학올림피아드. 만 20세 미만 고등학생들이 참여하는 국제 수학 경시대회로, 이틀 동안 6문제를 풀며 각 문제는 7점 만점, 총 42점이다. 매우 높은 창의력을 요구하는 문제들이 출제된다.
test-time compute scaling: 모델이 답을 생성할 때 쓰는 연산량을 늘릴수록 성능이 향상된다는 개념. 학습 때가 아닌 실제 사용(추론) 시점에 더 많은 컴퓨팅을 투입하는 방식이다.
하네스(harness): AI 모델 주변에 외부 도구, 검색, 코드 실행기 등을 결합해 성능을 높이는 시스템적 구조물. "목발"이나 "보조 장치"로도 표현된다.
Chain of Thought: 복잡한 문제를 풀 때 중간 단계의 생각 과정을 순서대로 써 내려가도록 LLM에 유도하는 프롬프팅 기법. 수학 문제나 논리 추론 성능을 크게 향상시킨다.
Lean (형식 증명 도구): 수학적 증명을 컴퓨터가 검증할 수 있도록 형식 언어로 작성하는 프로그래밍 언어. AlphaProof 같은 기존 시스템은 수학 문제를 Lean으로 번역해 풀었다.
best-of-n: 동일한 문제에 여러 번 답을 생성한 뒤 가장 좋은 결과를 선택하는 방식. 시스템 수준의 성능 향상 기법이지만 이번 모델은 이 없이도 풀었다.
non-verifiable domain: AI가 스스로 정답 여부를 확인하기 어려운 영역. 수학처럼 답이 명확한 verifiable domain과 달리, 글쓰기나 창의적 판단처럼 맞고 틀림을 자동으로 검증하기 어려운 영역이다.
acqui-hire: acquisition(인수)과 hire(고용)의 합성어. 회사 자체보다 그 회사의 핵심 인재를 확보하기 위해 인수하는 방식이다.
capability overhang: 모델이 이미 갖추고 있는 잠재 능력이 아직 충분히 활용되지 않은 상태. 적절한 방법을 찾으면 추가 학습 없이도 성능을 더 끌어낼 수 있다.

IMO국제수학올림피아드OpenAI강화학습test-time compute단일모델추론Noam Brown인재전쟁Windsurfcapability overhangAGI

19 AI 기술 딥다이브 YouTube

차세대 LLM 설계 미리 살펴보기: Kimi K2 Technical Report

중국 Moonshot AI의 Kimi K2 기술 보고서를 통해 1조 파라미터 MoE 모델의 학습 방법, 에이전트용 합성 데이터 생성 파이프라인, non-verifiable 영역을 강화 학습으로 다루는 최신 기법을 깊이 살펴본다.

Kimi K2란 무엇인가

Moonshot AI(2023년 창업, 2년 반 경력)가 내놓은 1조 파라미터 규모의 MoE 모델로, "Open Agentic Intelligence"를 표방한다. 벤치마크 성능에서 DeepSeek V3와 Claude Opus에 대해 선방하는 수치를 보였으며, 에이전트 워크플로에서의 tool calling 유창성을 특히 강조한다. 기술 보고서는 전체 레시피를 공개하되 세부 노하우는 뭉뚱그려 제시하는 "미쉐린 레시피" 수준으로, 동료 연구자라면 짐작할 수 있지만 완전히 재현하려면 상당한 노력이 필요하다.

MuonClip: 새로운 옵티마이저

기존 AdamW 대신 Muon 옵티마이저를 채택했다. Muon은 토큰 효율성이 높지만 대규모 학습 시 attention logit이 폭발하는 불안정 문제가 있었다. Kimi 팀은 QK 행렬의 최댓값으로 나눠 임계값 100을 초과하지 않도록 잘라내는 QK-Clip 기법을 도입해 이를 해결했다. 이론적 근거보다 경험적 실험으로 찾아낸 방법이며, 노정석은 LLM 설계 전반을 "살짝 연금술 같은 지저분한 엔지니어링 덩어리"라고 표현했다.

데이터 품질 향상: Rephrasing과 합성 데이터

15.5조 토큰의 사전 학습 데이터를 구성하면서 데이터 품질을 높이는 데 상당한 공을 들였다. 핵심 기법은 knowledge data rephrasing으로, 동일한 내용의 단락을 스타일과 블록 조합을 바꿔 10벌 다시 쓰는 방식이다. 이미지 학습의 data augmentation과 유사한 발상이며, raw 텍스트보다 rephrasing한 버전으로 학습할 때 정확도가 유의미하게 높아진다는 실험 결과를 제시했다. 수학 데이터는 별도로 학습 노트 스타일로 재작성했다.

에이전트 합성 데이터 파이프라인: 이 보고서의 핵심

Kimi K2의 핵심은 tool use 능력을 키우기 위한 대규모 합성 데이터 생성 과정이다. GitHub에 공개된 실제 MCP 도구 수천 개를 수집하고, 거기에 더해 엔터프라이즈, 헬스케어, 금융 트레이딩, 로봇 제어, 농업 등 20여 개 도메인에서 가상의 도구를 LLM으로 자동 생성했다. 그런 다음 각 도구 조합에 맞는 에이전트 정의, 과제, 실행 경로(trajectory)와 평가 루브릭까지 모두 합성해냈다. 실제로 도구가 작동하지 않아도 경로를 상상하고 연습하는 것만으로 tool 유창성이 크게 향상됐다는 점이 인상적이다.

강화 학습: Verifiable과 Non-verifiable 영역 처리

Verifiable 영역(수학, STEM, 코드)에서는 DeepSeek R1의 GRPO와 유사하게 정답 여부로 보상 신호를 주는 Gym 환경을 구성했다. Non-verifiable 영역(창작, 인간 선호, 추론 깊이 등)에서는 rubric 기반의 self-critique 방식을 도입했다. 모델 자신(K2 critic)이 루브릭을 기준으로 동일 프롬프트의 여러 응답을 쌍으로 비교해 보상 신호를 생성하는 actor-critic 구조다. 아울러 답변이 너무 길어지면 패널티를 주는 budget control 기법으로 token efficiency를 높였다.

학습의 철학과 노정석의 논문 읽기 방법

노정석은 이 논문을 Claude Opus와 함께 하루 6시간 이상 티키타카하며 읽었다고 밝혔다. 먼저 전체를 한 번 읽어 아는 것과 모르는 것의 분포를 파악하고, 모르는 개념을 자기 말로 표현해 Claude에게 검증받으며 이해를 깊게 하는 방식이다. 그는 이 과정을 "흩어진 데이터에서 rule을 꺼내 머릿속 도구로 안정화하는 과정"이라고 비유하며, 이렇게 체득한 지식이 사업 전략과 우선순위 판단에 직결된다고 설명했다.

"이 설계 같은 걸 보다 보면 항상 느끼는 건데 이거 살짝 연금술 같은 거거든요. 왜 그렇게 했는지에 대해서 이론적인 근거는 없어요."

노정석

"가짜로 상상을 하더라도 그걸 쓸 수 있는 능력을 지금 catch한 거잖아요."

최승준

"실질적으로 에이전트 애플리케이션을 만들다 보면 모델들이 훈련이 덜 되어 있어서 얘들이 보지 못한 도메인에서 논리적으로 tool calling의 플로우를 프롬프트를 아무리 잘 잡아줘도 못 잡는 경우를 너무 많이 경험하거든요."

노정석

"이건 이제 우리가 어떤 결과적으로는 모델에 비즈니스 workflow를 학습시키는 게 궁극적인 답일 것 같거든요."

노정석

"이 과정에서 저도 나름 예전에 pre-train phase에 어설프게 알고 있었던 것이 강하게 post-train이 되면서 머릿속에 지식으로 자리 잡고, 촘촘하게 머릿속에 도구로 안정화되는 거죠."

노정석

MoE (Mixture of Experts): 전문가 혼합 구조. 모델 내부에 여러 개의 "전문가" 서브네트워크를 두고, 각 토큰마다 일부 전문가만 활성화해 전체 파라미터는 크지만 실제 연산량은 적게 유지하는 아키텍처다.
MuonClip: Kimi K2가 도입한 새로운 옵티마이저. 기존 Muon의 학습 불안정 문제를 QK 행렬 값을 임계값으로 잘라내는 QK-Clip 기법으로 해결했다.
옵티마이저 (Optimizer): 모델이 학습할 때 파라미터를 어떻게 업데이트할지 결정하는 알고리즘. AdamW, Muon 등이 있으며 학습 안정성과 효율에 큰 영향을 미친다.
SFT (Supervised Fine-Tuning): 지도 학습 기반 미세 조정. 고품질 입력-출력 쌍을 학습 데이터로 삼아 사전 학습된 모델을 특정 목적에 맞게 조정하는 과정이다.
GRPO (Group Relative Policy Optimization): DeepSeek R1이 제안한 강화 학습 알고리즘. 동일 프롬프트로 여러 응답을 생성하고 상대적 우열을 비교해 보상 신호를 산출한다.
Trajectory (경로/궤적): 에이전트가 목표를 달성하는 과정에서 취한 행동들의 순서. tool 호출, 판단, 결과 확인 등 일련의 단계가 포함된다.
Rubric (루브릭): 평가 기준표. 창작성, 도움이 되는 정도, 사실 정확성 등 여러 차원에서 응답 품질을 점수화하기 위한 평가 척도다.
MCP (Model Context Protocol): AI 모델이 외부 도구(검색, 데이터베이스 등)와 표준화된 방식으로 상호작용하기 위한 프로토콜. GitHub에 수천 개의 공개 MCP 도구가 존재한다.
Annealing (담금질): 학습률을 서서히 낮춰가는 과정. 학습 후반부에 모델이 최적점 근처에서 안정적으로 수렴하도록 돕는다.
Non-verifiable domain: 정답이 명확하지 않아 자동 검증이 어려운 영역. 수학 문제(맞/틀림이 명확)는 verifiable, 시 창작이나 감성적 글쓰기는 non-verifiable의 대표 사례다.

Kimi K2Moonshot AIMoEMuonClip에이전트합성데이터tool calling강화학습GRPOrubricnon-verifiabletoken efficiency데이터증강trajectory

20 최신 모델 리뷰 YouTube

GPT-5를 기다리며

GPT-5 출시를 앞두고 GPT-1부터 현재까지의 LLM 역사를 되짚으며, universal verifier·경험의 시대·질문의 해자 등 핵심 키워드로 AI 발전 방향성을 정리하고 새 모델을 어떻게 맞이할지를 성찰한다.

GPT-5 출시 직전의 분위기

2025년 8월 초, Gemini 2.5 Deep Think가 Ultra 계정에 공개되고 LM Arena에 lobster·summit·zenith 등 미확인 모델들이 잇달아 등장했다가 회수됐다. 타임라인에서는 zenith가 GPT-5일 것이라는 추측이 돌았다. 최승준은 모델들이 회수된 것을 보고 "정식 출시가 임박했다"고 판단했다. The Information의 내부자 발언에는 성능 향상 둔화를 강화 학습과 "universal verifier" 등 다양한 기법으로 우회했다는 언급이 있었다.

Universal Verifier: non-verifiable의 종말?

"Universal verifier"라는 키워드가 주요 화두로 떠올랐다. 이는 기존에 검증하기 어려웠던 non-verifiable 영역도 verify할 수 있게 만드는 범용 검증기를 뜻하는 것으로 추측된다. 노정석은 그 역할을 더 크고 뛰어난 모델이 수행할 것이라고 설명했다. 최승준은 "non-verifiable한 것을 verifiable하게 만드는 걸 시스템 안에 통합했다는 것은 어디로 도망가야 하는 건가"라며 이 기술적 진전이 인간의 안전지대를 더욱 좁힌다는 점을 지적했다.

GPT-1부터 현재까지: LLM 타임라인 정리

Transformer 논문(2017) 이후 GPT-1(2018)→GPT-2(2019)→GPT-3(2020)→ChatGPT/GPT-3.5(2022)→GPT-4(2023)→GPT-4o·o-시리즈(2024)→GPT-4.5(2025)로 이어지는 흐름을 짚었다. GPT-4까지는 파라미터 스케일 확장이 핵심이었고, 그 이후는 추론 강화 학습(o-시리즈)으로 고원을 우회했다. Anthropic의 Claude도 GPT-4 발표일(2023년 3월 14일)에 함께 발표되며 압축적으로 따라왔고, Google Gemini는 절치부심 끝에 2.5 Pro부터 확실한 존재감을 드러냈다.

경험의 시대와 부트스트래핑 패턴

Richard Sutton·David Silver가 제시한 "경험의 시대" 개념이 현재 흐름과 연결된다. 모든 지식 생성을 탐색 문제(search problem)로 전환할 수 있다는 것이 핵심이며, 인간 데이터가 고갈되더라도 모델이 스스로 생성한 데이터로 경험을 쌓는 부트스트래핑이 가능해진다. 노정석은 이를 "모델이 data space를 스스로의 의지를 가지고 탐색하는 시대"로 요약했다. 또한 외부 harness(에이전트 프레임워크)가 만들어낸 데이터는 다음 세대 모델에 흡수돼 내부 능력이 된다는 패턴이 반복됨을 확인했다.

질문이 해자다: Gwern Branwen의 통찰

Gwern Branwen의 LLM Daydreaming 프롬프트를 소개했다. 서로 거리가 먼 두 개념 사이의 깊고 비자명한 연결고리를 찾게 하는 이 방식은, AI가 과학적 발견에 기여하는 경로 중 하나로 주목받는다. 핵심은 "당신이 물어볼 줄 아는 것에 대해서만 AI가 작동한다"는 점이다. 최승준은 책 두 권을 무작위로 펼쳐 두 페이지를 연결하는 실험적 프롬프트를 소개하며, GPT-5 출시 시 이런 방식으로 모델의 새로운 능력을 탐침해볼 계획이라고 밝혔다.

새 모델을 어떻게 맞이할 것인가

노정석은 "질문을 할 수 있는 능력이 모델 능력을 꺼낼 수 있는 constraint가 된다"며, AI 시대에도 자기 자신의 능력을 먼저 키우는 것 외에 답이 없다는 결론을 제시했다. 최승준은 바둑 AI의 도래를 먼저 경험한 기사들의 이야기를 담은 책 '먼저 온 미래'를 읽으며 이 온도를 미루어 짐작하고 있다고 했다. 두 진행자는 AI가 지적 생산 수단을 장악하더라도, 신뢰하는 사람의 목소리로 이야기를 전달하는 행위 자체는 여전히 의미를 가질 것이라는 데 동의했다.

"오늘 새로 등장했던 universal verifiers, 현재 아직 해결이 안 됐던 non-verifiable한 영역을 verifiable하게 만드는 것을 시스템 안에 포함했다는 뉘앙스인 거죠. 문제적인 것 아닌가요? non-verifiable한 것을 verifiable하게 만드는 걸 시스템 안에 통합했다는 것은 어디로 도망가야 하는 건가요?"

최승준

"모든 knowledge의 생성을 search problem으로 전환할 수 있다가 사실 Bitter Lesson이라든지 여기서 얘기하는 경험의 시대가 얘기하는 거라서, 모델이 충분히 좋아졌다는 가정을 했을 때 컴퓨터를 더 투입하고 적절한 RL과 그 RL을 감싸는 harness를 잘 만들면 끝까지 갈 거라는 얘기를 하고 있는 것 같아요."

노정석

"Dreamer-model이 생산한 데이터·아이디어는 '남이 묻지 못하는 질문'의 형태로 존재한다. 해자가 코드·가중치 차단이 아닌 인지적 불가측성에서 비롯된다는 점을 강조한다."

OpenAI o3가 풀이한 Gwern Branwen의 글 (최승준 인용)

"가지고 있는 것조차 열심히 일하는 사람한테 다 뺏겨버릴 수 있는 그런 세상인 거죠. 기술의 출현은 사람들을 공평하게 만드는 게 아니라, 그 수단을 먼저, 그리고 적절하게 이용한 사람에게 부를 몰아주는 형태로 항상 동작했거든요."

노정석

"할 필요는 없지만, 하는 게 의미가 있을 지점이 있을 것 같아요."

노정석

Universal Verifier: 기존에 자동 검증이 어려웠던 non-verifiable 문제도 검증할 수 있게 하는 범용 검증 모델 또는 시스템. GPT-5의 핵심 기술 중 하나로 언급됐으나 구체적 구현은 미공개 상태다.
경험의 시대 (Era of Experience): Richard Sutton·David Silver 등이 제시한 개념. 인간이 만든 데이터가 아니라 모델이 시뮬레이션과 상호작용으로 스스로 경험을 쌓아 학습하는 시대를 뜻한다.
부트스트래핑 (Bootstrapping): 외부 도움 없이 스스로를 끌어올리는 방식. AI 맥락에서는 모델이 생성한 데이터로 다음 세대 모델을 학습시키는 자기강화 사이클을 가리킨다.
Bitter Lesson: Richard Sutton이 제시한 AI 연구의 교훈. 도메인 지식을 정교하게 설계하는 것보다 단순한 방법에 충분한 계산 자원을 투입하는 것이 장기적으로 더 좋은 성능을 낸다는 주장이다.
Capability Overhang: 모델이 이미 갖추고 있지만 아직 충분히 활용되지 않은 잠재 능력. 적절한 방법(에이전트, 프롬프트 기법 등)을 찾으면 추가 학습 없이도 성능을 더 끌어낼 수 있다.
Harness: AI 모델 주변에 외부 도구, 검색, 코드 실행기 등을 결합해 성능을 높이는 시스템적 구조물. 시간이 지나면서 harness가 만들어낸 능력이 다음 세대 모델 안으로 흡수되는 패턴이 반복된다.
Test-time Compute Scaling: 모델이 답을 생성할 때 더 많은 연산을 투입할수록 성능이 향상된다는 개념. 학습이 아닌 실제 사용 시점에 추론 시간을 늘리는 방식이다.
LM Arena: 여러 AI 모델을 익명으로 비교 평가하는 공개 플랫폼. 새로운 모델이 출시 직전 익명으로 등장해 사전 평가를 받는 공간으로 활용되기도 한다.
Veo 3: Google DeepMind의 고급 영상 생성 모델. Demis Hassabis는 이를 물리 세계를 시뮬레이션하는 도구로 보고, 다음 프레임 예측을 위해 물리 법칙을 이해해야 한다는 점에서 세계 모델로서의 가능성을 강조했다.
Shoggoth: 러브크래프트 소설에 등장하는 괴물. RLHF 이후 LLM의 내부 복잡성과 예측 불가능한 능력 분포를 비유하는 밈으로 AI 커뮤니티에서 사용된다.

GPT-5universal verifier경험의 시대LLM 타임라인질문의 해자부트스트래핑Gwern Branwen먼저 온 미래non-verifiable강화학습Gemini Deep Thinkcapability overhang

21 AI 비즈니스 & 산업 YouTube

gpt-oss talk with Lablup 신정규 대표

OpenAI가 GPT-2 이후 처음으로 오픈소스 모델 gpt-oss를 공개한 배경과 기술적 구조를 Lablup 신정규 대표와 긴급 분석하며, MoE 아키텍처부터 AI 인프라의 근본적 변화, 그리고 모델 회사들이 처음으로 BEP를 바라보기 시작한 시대적 의미까지 짚는다.

OpenAI가 오픈소스를 공개한 이유

OpenAI는 GPT-2 이후 처음으로 gpt-oss라는 오픈소스 모델을 공개했다. 신정규 대표는 그 배경으로 두 가지를 꼽았다. 첫째, DeepSeek이 reasoning 모델의 레시피를 공개하면서 OpenAI의 기술적 해자가 약화되었고, 이로 인해 투자 유치도 지연됐다. 둘째, 내부적으로 모델을 공개하고 싶은 연구자들과 폐쇄적 경영진 사이의 긴장이 인력 이탈로 이어졌다. "OpenAI가 봤을 때 이건 그냥 내놔도 되는 기술이라고 판단한 것"으로, 이 모델의 한계를 OpenAI 스스로 정확히 알고 있다는 신호다.

Apache 2.0 라이선스의 의미

gpt-oss는 Apache 2.0 라이선스로 공개됐다. 최근 중국 Tencent 등이 국가 제한 라이선스를 걸기 시작한 것과 대조적이다. Llama도 7억 명 이상 사용자는 유료 계약이 필요하지만, gpt-oss는 그런 제약이 전혀 없다. 이는 Sovereign AI를 추진하는 국가들에게 "가져다 써라"는 명확한 메시지다. 신정규 대표는 이를 "굉장한 호재"로 평가했다.

gpt-oss의 기술 구조: MoE와 expert

올해의 핵심 트렌드는 MoE(Mixture of Experts)다. MoE의 expert는 흔히 오해하는 것처럼 "수학 전문가, 국어 전문가" 같은 개념이 아니다. 신정규 대표의 설명에 따르면, expert는 큰 모델을 분산 처리하기 위해 쪼갠 서브 네트워크이며, 입력이 들어올 때 라우터가 일부만 활성화해 결과를 조합한다. gpt-oss는 120B와 20B 두 모델의 크기 차이를 레이어 수가 아닌 expert 수로 조절한다는 점이 특이하다. 이는 DeepSeek, Kimi-2와도 같은 방향의 최신 트렌드다.

AI 서빙 인프라의 혁명: Prefill·Decode 분리

작년 말부터 올해에 걸쳐 추론(inference) 인프라에 큰 변화가 일어났다. 기존에는 GPU 위에 모델을 통째로 올렸지만, 이제는 GPU 팜을 prefill 전용과 decode 전용으로 분리한다. KV cache도 GPU 밖으로 뜯어내어 전체 시스템에 공유시킨다. 이 접근의 제품화가 NVIDIA Dynamo이며, 구글 사이드에서도 LLMD 프로젝트로 구현 중이다. NVIDIA는 한발 더 나아가 NVLink(노드 내 GPU 간 통신)를 없애고, GPU-GPU 통신을 모두 외부 네트워크로 처리하는 Rubin·Feynman 아키텍처를 준비 중이다. 신정규 대표는 이를 "신경계를 밖으로 뜯어내고 있는 중"이라고 표현했다.

attention sink와 softmax-1

gpt-oss에는 attention sink(일명 softmax-1) 기법이 도입됐다. 기존 softmax의 수학적 문제를 수년 전 한 연구자가 지적했지만 업계에서 외면받던 기술인데, OpenAI가 채택해 공개함으로써 빠른 확산이 예상된다. "구현이 어렵지 않으니 다음 주, 다다음 주부터는 다들 썼다고 나올 것"이라는 게 신정규 대표의 전망이다.

BEP(손익분기점) 시대의 개막

신정규 대표는 현재를 "마라톤 끝의 단거리 스퍼트"로 표현했다. 모델 개발사들이 처음으로 BEP(break-even point)를 시야에 두기 시작한 것이 근본 원인이다. BEP가 보이면 회사의 모든 모드가 바뀐다. 현재 BEP의 최대 동력은 코딩 토큰이며, Anthropic의 API 매출이 3개월 새 20배 성장한 것이 이를 방증한다. 다음 대규모 시장으로는 비디오와 음성 멀티모달을 지목했다. 텍스트는 인간이 아무리 많이 써도 월 40만 토큰 미만이지만, 비디오는 토큰 소비량이 비교할 수 없이 크기 때문이다.

"OpenAI가 봤을 때는 '이건 그냥 내놔도 되는 기술'이라고 판단을 한 거죠. 내부적으로는 이 모델의 한계를 확실히 알고 있다는 거죠."

신정규

"저는 굉장한 호재라고 봅니다. H100 2,000장이 있으면 44일 훈련을 하면 됩니다. 데이터가 충분히 준비돼 있다고 하면요."

신정규

"MoE라고 했을 때 expert가 '나는 수학을 잘해', '나는 국어를 잘해' 이런 expert가 아닙니다. 다 비슷비슷하게 멍청한 애들이 여러 개 있다고 보시면 돼요."

신정규

"신경계를 밖으로 뜯어내고 있는 중입니다."

신정규 (GPU 팜 분리 트렌드 설명 중)

"BEP가 눈에 보이기 시작하면 회사의 모든 모드가 바뀝니다."

신정규

"지금 정말 석 달 전에 알았던 게 쓸모없어지는 그런 시대를 살고 있는 것 같아요."

노정석

MoE (Mixture of Experts): 큰 모델을 여러 개의 작은 서브 네트워크(expert)로 쪼개고, 입력마다 일부 expert만 활성화해 계산량을 줄이는 아키텍처. "전문가"처럼 특화된 역할을 하는 게 아니라 단순한 처리 분산 구조다.
Sovereign AI: 특정 국가나 조직이 자국 데이터와 언어로 자체적으로 통제·운영하는 AI 시스템을 만드는 개념. 외국 기업 의존 없이 AI 주권을 확보하는 것이 목표다.
BEP (Break-Even Point): 손익분기점. 매출이 비용을 처음으로 상회하는 지점으로, 이 지점부터 기업은 흑자로 전환된다.
Apache 2.0 라이선스: 소프트웨어를 자유롭게 사용·수정·배포·상업화할 수 있는 오픈소스 라이선스. 사용자 수나 국가 제한이 없다.
KV cache: 트랜스포머 모델이 이전 대화 맥락을 재계산하지 않도록 중간 결과를 저장해 두는 캐시. 이를 GPU 외부로 분리하면 서빙 비용을 크게 줄일 수 있다.
prefill / decode: LLM 추론의 두 단계. prefill은 입력 토큰 전체를 한 번에 처리하는 단계, decode는 출력 토큰을 하나씩 생성하는 단계다. 이 둘을 별도 GPU 팜으로 분리하는 것이 최신 트렌드다.
attention sink: 어텐션이 특정 토큰에 불필요하게 쏠리는 현상을 줄이기 위해 softmax 대신 softmax-1을 사용하는 기법. gpt-oss에 적용됐다.
FP4: 숫자를 4비트로 표현하는 부동소수점 포맷. 정밀도는 낮지만 처리 속도와 메모리 효율이 크게 향상된다. NVIDIA Blackwell GPU가 네이티브로 지원해 서빙 성능을 최대 20배 향상시킨다.
continual pre-training (CPT): 이미 훈련된 모델에 새로운 도메인 데이터(예: 한국어)를 추가로 학습시키는 과정. 단순 fine-tuning보다 깊은 수준의 언어 능력 향상에 사용된다.
composable 아키텍처: 시스템의 구성 요소들을 독립적으로 분리해 조합·교체할 수 있도록 설계하는 방식. AI 인프라에서는 prefill, decode, KV cache를 별도 팜으로 나누는 접근을 가리킨다.

gpt-oss오픈소스MoESovereign AIApache 라이선스BEPattention sinksoftmax-1KV cacheprefilldecode멀티모달FP4NVIDIA DynamoLablup

22 최신 모델 리뷰 YouTube

드디어 나온 GPT-5

GPT-5 출시 하루 만에 긴급 녹화한 이 에피소드는 router 기반 모델 자동 선택, 강화학습 중심의 post-training 진보, Codex CLI vs Claude Code의 철학 차이, 그리고 AI가 도메인을 하나씩 열어가는 시대적 흐름을 총체적으로 분석한다.

GPT-5의 첫인상: 빠르고 깔끔하다

2025년 8월 8일 새벽 2시, GPT-5가 공개됐다. Sam Altman은 이 모델을 "접근성(accessibility)과 경제성(affordability)"으로 정의했다. 노정석은 "가장 마음에 드는 건 깔끔하게 정리된 인터페이스"라며, 4o·o3·4.1·mini·nano 등 난립하던 모델들이 단일 진입점으로 통합된 점을 높게 평가했다. 속도 측면에서는 Claude Opus 대비 약 3배 빠르다는 인상을 받았다. 가격도 Gemini 2.5 Pro 수준이거나 그 이하로, 성능 대비 비용 면에서 경쟁력을 확보했다.

router: 자동 모델 선택의 등장

GPT-5의 가장 큰 구조적 변화는 router 시스템이다. 기존에는 사용자가 직접 4o(빠른 모델)나 o3(thinking 모델)를 골라야 했지만, 이제는 작은 router 모델이 질문을 먼저 받아 어떤 모델로 처리할지 자동 결정한다. 대화 중에도 모델이 계속 바뀐다. 노정석은 이를 "공부 잘하는 학생이 간단한 부분적분은 생각 없이 풀고 어려운 문제만 생각하는 것"에 비유했다. 파워 유저들은 제어권이 줄었다고 불만을 표하기도 했으나, 일반 사용자에게는 최적화된 UX다. Gemini는 thinking budget 슬라이더로 유저가 직접 조절하는 방식을 택한 반면, OpenAI는 이를 완전히 자동화했다.

post-training의 진화: 검증 불가 영역으로의 강화학습

지난 1~2년간 AI 성능의 핵심 진보는 pre-training이 아닌 post-training에서 나왔다. pre-training은 학습할 데이터가 고갈되는 "고원 상태"에 있다. DeepSeek은 RLVR(검증 가능한 보상)로 수학·코딩에서의 reasoning을 끌어냈지만, GPT-5는 그 이상으로 나아간 것으로 보인다. OpenAI 내부 인물 roon은 "글쓰기 같은 창의적 영역에서도 충분히 thinking budget을 사용하는 첫 번째 모델"이라고 표현했다. 즉, 검증하기 어려운 비정형 영역에서도 강화학습이 작동하기 시작했다는 것이다. 다만 "post-training이 꽤 어렵고, 지나치게 익혀진(overcooked) 측면도 있다"는 roon의 솔직한 평도 있었다.

파워 유저들의 바이브 체크

미리 사용해 본 파워 유저들의 평가는 엇갈렸다. Swyx는 "3.5 Sonnet 이후 가장 큰 도약이며, 세계 최고의 코딩 모델"이라고 극찬했고, 처음에는 실망했다가 계속 쓰면서 "진정한 도약"으로 바뀐 사례도 있었다. 반면 Claude Code 헤비유저인 Kieran은 "instruct following은 훌륭하지만 agentic 작업에는 최적화되지 않았다. GPT-5는 미래로의 도약이 아니라 Sonnet 3.5 킬러"라고 평했다. LM Arena 기록상 GPT-5는 코드명 Summit이었으며, roon은 "Zenith가 선택됐어야 했다"며 아쉬움을 표했다.

Codex CLI vs Claude Code: 자율주행 철학의 차이

GPT-5와 함께 주목받은 Codex CLI와 Cursor는 Claude Code와 근본적으로 다른 철학을 보여준다. 노정석은 이를 자율주행 레벨에 비유했다. Claude Code는 레벨 2 수준으로 개발자가 끊임없이 판단하고 개입하는 harness 중심 설계이고, Codex CLI와 Cursor는 레벨 4 수준으로 GitHub 이슈 링크만 주면 PR 급 결과가 나오는 full autonomy를 지향한다. 라이브 데모에서 Cursor CEO가 이슈를 링크로 넣고 기다리자 문제가 해결된 PR이 나오는 장면은 이 철학을 극적으로 보여줬다. 노정석은 "두 개의 지향점이 조금 다르다"며, 어느 쪽이 옳다기보다 철학 차이라고 정리했다.

healthcare와 "지능화된 OO": 도메인 침범의 신호

라이브 발표에서 healthcare 섹션에 긴 시간이 할애됐다. 한 OpenAI 직원이 아내의 암 진단 과정에서 AI의 도움을 받은 경험을 공유했다. 최승준은 이에서 "지능화된 OO" 패턴을 발견했다. 의사에게 받지 못한 위로, 충분한 상담 시간 등 AI가 채우는 역할이다. 노정석은 OpenAI가 지금까지 강조한 도메인들(과학적 발견, 창의적 글쓰기, 코딩, 의료 연구, healthcare)이 "우리는 이 분야 거의 끝냈다"는 선언에 가깝다고 해석했다. 자동차 정비, 법률 조언, 의료 상담 등 전통적 전문가 영역이 하나씩 열려나가는 과정을 보고 있다는 것이다.

"포르쉐가 새 911을 내놓을 때 Nürburgring lap time을 강조하지만, 시장에서 팔리냐 안 팔리냐는 편의 장치가 얼마나 달려 있냐, 아내한테 선물로 줄 수 있냐 같은 요소들이 훨씬 더 중요하다."

노정석

"자율성과 속도의 조합은 주요 잠금 해제다."

Shumer (파워 유저, GPT-5 사용 소감)

"GPT-5는 미래로의 도약이 아니라 Sonnet 3.5 킬러입니다."

Kieran (Claude Code 헤비유저)

"석기 시대에 오신 것을 환영합니다. 인간은 이제 도구를 사용하는 법을 배웠다."

Swyx (AI 연구자, Latent Space)

"내일 당장 무슨 일이 일어날지 정의할 수는 없기 때문에 오늘 무언가를 끊임없이 하고 있는 것 말고는 중요한 게 없다. 더 심하게 요약하면 오늘 토큰 많이 써보는 게 중요하다."

노정석

router: 사용자 질문을 받아 어떤 AI 모델에 처리할지 자동으로 결정하는 작은 모델. 비용과 속도를 최적화하고 사용자가 모델을 직접 선택하지 않아도 되게 한다.
post-training: AI 모델의 사전학습(pre-training) 이후에 강화학습 등으로 성능을 다듬는 단계. 최근 AI 성능 향상의 핵심 원천이다.
RLVR (Reinforcement Learning with Verifiable Rewards): 수학 정답처럼 맞고 틀림을 명확히 검증할 수 있는 영역에만 강화학습 보상을 적용하는 방식. DeepSeek이 공개해 업계 표준이 됐다.
alignment tax: 모델을 사용자 지시에 따르도록 훈련하는 과정에서 기본 모델의 창의성이나 능력이 감소하는 현상. GPT-3 Instruct 때부터 지적된 문제다.
capability overhang: 모델 능력은 계속 향상되는데 그것을 현실에서 활용할 도구와 인터페이스가 따라가지 못하는 상태. 아직 쓰이지 않은 AI 능력이 쌓여 있다는 개념이다.
agentic: AI가 단순히 질문에 답하는 것을 넘어, 여러 단계의 작업을 자율적으로 계획하고 실행하는 방식. GitHub 이슈를 받아 코드를 수정하고 PR을 올리는 것이 예시다.
harness: 말의 안장처럼 AI 모델을 제어하고 활용하는 도구나 인터페이스. Claude Code는 개발자가 많이 개입하는 정교한 harness, Codex CLI는 개입을 최소화하는 harness다.
thinking budget: 모델이 답변 전에 얼마나 오래 "생각"할지 할당하는 시간·연산량. Gemini는 유저가 직접 조절하고, GPT-5는 router가 자동 결정한다.
instruct model: 사용자 지시를 빠르게 이해하고 즉각 답하도록 최적화된 AI 모델. thinking model과 대비되는 개념이다.
stealth 모델: 정식 발표 전에 코드명으로 벤치마크나 API에 등장하는 미공개 모델. GPT-5는 코드명 Summit, Zenith 등으로 사전 노출됐다.

GPT-5routerpost-training강화학습RLVRCodex CLIClaude Codeagenticcapability overhang지능화된 환자healthcarealignment taxJakub Pachockiroonthinking budget

23 AI 비즈니스 & 산업 YouTube

지금 한국에서 AI 커뮤니티를 만드는 이유: VC 장원준

젊은 벤처캐피탈리스트 장원준이 AI 시대 VC 생태계의 구조적 변화, Midjourney·Lovable·EvenUp 등 소수 인원 유니콘의 성공 방정식, 그리고 한국이 레거시 없이 AI-native 사회로 도약할 수 있는 독특한 기회를 분석한다.

AI 시대, VC 생태계의 재편

미국 top-tier VC들이 AI 투자에 전력을 다하고 있다. 장원준은 이를 2018~2022년 크립토 붐과 비교했다. 크립토 때 레거시 VC들이 헤게모니를 잃었듯, 이번에는 AI 특화 VC들이 차별화된 가치를 제공하며 주도권을 잡고 있다. AI Grant는 3억 5천 달러를 조건 없이 투자하며 Databricks·Snowflake·Scale AI 등 모든 C-level과의 네트워크를 제공한다. Neo(South Common Park)는 빌더 커뮤니티에서 출발해 임팩트 있는 투자자로 성장했다. Y Combinator는 너무 많이 뽑으면서 밀도가 낮아졌고, 유망한 AI 스타트업들은 오히려 YC 밖에서 많이 나오고 있다.

AI roll-up과 BPO: 새로운 사업 기회

전통적으로 노동집약적이고 저수익률이던 산업(콜센터, CS 등)을 AI로 자동화해 인수·통합하는 "AI roll-up"이 주목받고 있다. AI 도입으로 운영 효율이 높아지면 같은 영업이익이라도 기업 가치가 2배 이상 오른다. BPO(업무 대행) 영역도 AI로 원가가 급락하는 반면 고객의 지불 의사는 과거 수준으로 유지돼 높은 마진이 생긴다. EvenUp이 대표 사례로, 개인 상해 보고서 대행 서비스를 100명 수준의 인원으로 유니콘 규모까지 키웠다. 장원준은 "한국에서도 10년 뒤에 이렇게 비싸게 팔렸다는 얘기를 들을 회사들이 분명히 나올 것"이라고 전망했다.

임직원당 매출이 뒤집힌 세상

Cursor(약 45억 원/인), Midjourney(약 30억 원/인)가 Google(약 26억 원/인)·OpenAI(약 20억 원/인)를 앞선다. AI 영역에서 임직원 100명 이하 유니콘이 7개나 존재한다는 사실은 전례 없는 변화다. 자본을 받아 인재를 채용해야만 성장하던 전통적 벤처 방정식이 무너지고 있다. "70%의 투자금이 인건비로 나가던 시대"가 끝나가고, 소수 인원으로 엄청난 규모의 수익을 창출하는 새로운 유닛 이코노믹스가 등장하고 있다.

Midjourney의 제약 속 혁신

Midjourney는 투자를 받지 않는다는 원칙 아래 Discord를 사업 인프라로 삼았다. 로그인, 실시간 채팅, 이미지 업로드 부하를 모두 Discord에 맡겨 팀 규모를 최소화했다. 무료 사용자의 이미지 결과가 커뮤니티에 공개되는 구조가 네트워크 효과를 만들었고, 사용자의 선택 데이터가 모델 학습에 직접 피드백되는 선순환이 구축됐다. 최승준은 "2022년 초에 프롬프팅의 감을 잡은 곳이 Midjourney Discord였다"며 그 영향력을 회고했다. 창업자 David Holz는 투자를 안 받겠다는 의지를 팀 전체가 공유하며 제약 속에서 혁신을 이뤄냈다.

Lovable의 제너럴리스트 팀

Lovable은 10개월 만에 매출 1,000억 원 이상을 달성했다. 매출 150억 원대 시점에 임직원 18명(엔지니어 10명, 그로스 3명, 세일스 0명)이었다. 비결은 철저한 제너럴리스트 채용이다. 마케팅, BD, 커뮤니티 매니저 등 전통적으로 전문가가 별도로 필요하던 업무를 AI 도구로 한 사람이 다 소화한다. 자기 제품을 직접 쓰는 "개밥 먹기(dogfooding)" 문화로 고객 문제를 즉시 발견하고, 그것이 다음 마케팅 소재가 되는 선순환이 작동했다. LinkedIn 링크를 넣으면 홈페이지를 즉시 만들어주는 PLG(Product-Led Growth) 전략도 효과적이었다.

한국의 AI 기회: 레거시 없음이 강점

장원준은 한국이 AI 전환에서 독특한 유리함을 갖는다고 분석했다. 미국은 B2B SaaS 등 생산성 도구가 이미 깊이 자리 잡아 있어 unlearn이 어렵지만, 한국은 그런 레거시가 없다. "현금 사회에서 바로 QR 결제로 건너뛰듯이" AI-native 프로세스로 직접 도약할 수 있다는 것이다. 저출산으로 인한 인력 부족이 AI 도입의 절박한 필요성을 만들고, 지식노동 과잉 시대가 끝나면서 자동화와 시스템화가 강제된다. 노정석은 "미국에서 B2B SaaS가 발전한 것이 AI 시대엔 부채"라며 동의했다.

AI 커뮤니티 구축의 이유

기존 AI 학습 공간은 deep tech(개발자 전용)와 solopreneur(개인 장사) 양극단으로 나뉘어, 조직 안에서 AI를 팀으로 잘 활용하고 싶은 비개발자들의 자리가 없다. 장원준은 "AI 때문에 우리가 10배 빠르게 일하고 있냐"는 질문에 답하지 못하는 사람들을 모아 현장 노하우를 교류하는 커뮤니티를 만들었다. 의료계에서 다른 분과 사람들과 어울릴 때 90% 이상의 unlearn이 일어난다는 연구처럼, 다양한 직군 간 교류가 진정한 혁신의 원천이라는 믿음에서 출발했다.

"결국 이렇게 하다 보면 원래 Lean Startup이 갖고 있던 가벼움보다는 구조적 설계 혹은 다양한 업무들을 잘 수행하는 제너럴리스트, 그리고 내 제품이 어떻게 고객한테 다다를지에 대한 방법론에 대한 집착, 이런 것들이 좀 더 새로 부각되고 있는 씬일 것 같습니다."

장원준

"이 벤처 캐피탈은 무언가를 같이 만드는 사람이 돼야 한다."

장원준

"현금을 쓰던 사회에서 바로 QR 결제로 갈 수 있는 사회같이 느껴져요. 신용카드라는 매개가 없기 때문에 차라리 오히려 더 전환해서 부가가치가 확 터질 수도 있다."

장원준

"결국은 unlearn이 일어나야 한다고 생각한다. 그런데 unlearn 또한 배워야 되잖아요. 나 혼자만으로는 안 되고 다른 사람과의 접점을 만들어야 뭘 내가 비워내고 알았던 걸 어떻게 없애야 다음 단계로 가는지를 배울 수 있다."

최승준

"AI를 도구라고 생각하고 적절할 때 활용하는 회사, 위기라고 인식하고 따라가려는 회사, 이걸 기회라고 생각해서 구조부터 고민해서 아예 다르게 성장하려는 회사. 무조건 세 번째죠."

장원준

AI roll-up: 노동집약적이고 저수익률인 기존 사업체들을 AI로 자동화하며 인수·통합해 기업 가치를 끌어올리는 전략. 사모펀드(PE)의 roll-up 방식을 AI로 재해석한 것이다.
BPO (Business Process Outsourcing): 회사의 특정 업무 프로세스 전체를 외부 업체에 위탁하는 것. 데이터 라벨링, 콜센터, 이미지 처리 등이 대표적이다.
유닛 이코노믹스 (Unit Economics): 사업의 기본 단위(고객 1명, 거래 1건 등)당 수익성. 소수 인원으로 높은 매출을 내는 AI 스타트업들이 기존 유닛 이코노믹스 공식을 깨고 있다.
제너럴리스트: 특정 분야만 깊이 파는 스페셜리스트와 달리, 여러 분야에 걸쳐 능력을 갖춘 인재. AI 도구 덕분에 한 사람이 마케팅·BD·개발 등을 동시에 소화할 수 있게 됐다.
dogfooding (개밥 먹기): 자신이 만든 제품을 팀이 직접 사용하면서 문제를 발견하고 개선하는 관행. 고객 경험을 내부에서 체감할 수 있다.
PLG (Product-Led Growth): 마케팅·영업팀 대신 제품 자체가 성장을 이끄는 전략. 사용자가 제품을 써보는 것만으로 구매·확산으로 이어지도록 설계된다.
unlearn (탈학습): 기존에 배운 지식이나 습관을 의도적으로 버리고 새로운 방식으로 재학습하는 과정. AI 시대에 조직과 개인이 변화에 적응하기 위한 핵심 역량이다.
밀도 (Density): 우수한 창업자·멘토·네트워크가 얼마나 높은 농도로 모여 있는지를 의미. 샌프란시스코의 압도적 경쟁력이 바로 이 밀도에서 나온다고 장원준은 설명했다.
Lean Startup: 최소한의 자원으로 빠르게 실행하고 고객 피드백으로 개선하는 창업 방법론. AI 시대에는 이보다 구조적 설계와 제너럴리스트 역량이 더 중요해지고 있다.
AI-native: AI를 처음부터 핵심 요소로 설계한 제품·조직·프로세스. 기존 시스템에 AI를 덧붙인 것과 달리, AI 없이는 작동하지 않도록 처음부터 구성된 구조를 말한다.

AI roll-upBPO임직원당 매출MidjourneyDiscordLovableEvenUp제너럴리스트AI 커뮤니티한국의 AI 기회unlearnPLGdogfooding밀도AI Grant

24 AI와 사회·노동 YouTube

AI와 노동의 미래

Claude Code 도입 이후 소프트웨어 엔지니어링 현장에서 일어난 생산성 혁명을 생생하게 증언하며, 1x·10x·100x 직원이라는 새로운 인재 프레임으로 AI 시대 노동의 미래를 진단한다.

MIT 리포트 오독 사건과 GenAI divide

MIT NANDA 연구소가 기업 AI 도입 실태를 조사한 리포트가 "95%의 파일럿 프로젝트가 실패했다"는 헤드라인으로 왜곡 유통되었다. 그러나 리포트의 실제 메시지는 실패하는 95%보다 성공하는 5%가 훨씬 중요하다는 것이며, 그 둘을 가르는 "GenAI divide"가 핵심이다. 성공 기업들은 현장 bottom-up 방식으로 기존 워크플로우의 back office 업무를 자동화했다. 조사 대상 기업 직원의 90%가 회사 승인 없이 개인적으로 AI 도구를 쓰는 'Shadow AI' 현상도 주목할 만한 발견이었다.

BFACTORY의 Claude Code 도입 여정

노정석 대표는 2025년 2월 Claude Code 출시 이후 자사에서 일어난 변화를 상세히 공유했다. 초기에는 경험 많은 엔지니어들조차 도입을 거부했으나, 억지로 사용해 본 뒤 "Claude Code is all you need"라며 완전히 태도가 바뀌었다. 이를 계기로 'Power of One' 프로젝트를 진행, 팀 단위 구조를 해체하고 개인 단위로 전환했다. 그 결과 AI 모델링만 하던 엔지니어가 풀스택 엔지니어로 성장하고, 단 1명이 서비스 전체를 론칭하는 사례가 생겨났다. 6월에는 전 엔지니어가 Claude Code Max(월 200달러)를 사용하기에 이르렀다.

1x·10x·100x 직원 프레임

세 가지 직원 유형을 구분했다. 1x 직원은 AI 활용이 없거나 소극적인 평균적 직원이다. 10x 직원은 Shadow AI를 포함해 AI 도구를 적극 활용해 생산성을 10배 끌어올린 직원으로, 이제 이 수준이 채용의 기본 기대치가 되고 있다. 100x 직원은 AI를 단순 사용하는 것을 넘어 harness를 직접 설계할 수 있는 엔지니어로, 명령 한 줄로 아래에서 수만 배의 compute가 돌아가는 compute multiplier 역할을 한다. 일 잘하는 사람은 코드 생성을 요청하기 전에 plan mode를 켜고 명세 문서를 철저히 완성하는 반면, vibe coder는 AI 출력을 읽지 않고 자동 실행만 누른다.

주니어·시니어 논쟁의 진화

"주니어 엔지니어가 가장 먼저 타격받는다"는 초기 관측이 "계획도 AI가 더 잘 짜니 시니어도 필요 없다"는 방향으로 발전했다. 고석현 대표는 성과 공식을 재정의했다. 과거의 성과 = 재능 × 태도였다면, AI 시대의 성과 = 재능 × AI + 태도로, 태도가 곱하기 항(multiplier)이 아닌 더하기 항(bias)으로 격하된다. 단 재능이 0이면 AI를 곱해도 0이므로 최소한의 재능은 여전히 필수다. 또한 100x 직원들은 기업이라는 틀 안에 갇혀 있을 필요가 없다고 느끼기 시작하며, 이들을 위한 새로운 계약 형태가 필요해지고 있다.

인지 혁명과 Sequoia Capital의 10조 달러 논거

Sequoia Capital은 현재를 '제2차 산업혁명', 즉 Cognitive Revolution으로 규정했다. 1712년 증기기관에서 근대적 어셈블리라인까지 200년이 걸렸던 것과 달리, AI 인지 혁명은 10년 내에 완성될 수 있다. 현재 AI 자동화 시장은 200억 달러에 불과하지만 미국 서비스 산업 전체는 10조 달러 규모이므로, 법률·금융·컨설팅 등 모든 고급 지식 노동이 순차적으로 AI 서비스화될 것이라는 전망이다. 이 기회의 창이 18개월 이내에 닫힐 수 있다는 긴박감도 강조했다.

AI 지배 계층과 불평등의 심화

Claude Opus 4.1과 Gemini 2.5 Pro는 공통적으로 AI 생산성 폭발의 혜택이 균등하지 않을 것이라고 진단했다. AI와 컴퓨팅 자원을 다루는 능력에 따라 전례 없는 사회경제적 격차가 발생하며, 산업혁명기 부르주아 계층처럼 새로운 AI 지배 계층이 탄생한다. 노정석 대표는 실리콘밸리의 경쟁 시스템 덕분에 20달러에 고급 AI 모델을 쓸 수 있다는 점에서 인류사적 행복을 보면서도, 상대적 격차가 더 심화될 디스토피아적 측면을 함께 경고했다.

"내가 네 말을 안 들은 것을 어마어마하게 후회한다. Claude Code가 정말 신세계다. 'Claude Code is all you need'."

노정석 (BFACTORY 100x 엔지니어의 말 인용)

"인간과 AI의 커뮤니케이션 cost가 인간과 인간의 커뮤니케이션 cost보다 압도적으로 낮아요."

노정석

"재능에 AI를 곱하면 태도는 multiplier가 아니라 bias가 된다, 더하는 term이 된다."

노정석 (고석현 대표의 말 인용)

"산업혁명이 200년을 걸렸다면, 인지 혁명은 어쩌면 10년 내에 끝나버릴 수도 있다."

노정석

"가중치, weight를 update해야만 하는 그런 압박감이 있어서 너무 피곤해요."

최승준

Claude Code: Anthropic이 만든 CLI(명령줄 인터페이스) 기반 AI 코딩 도구. 개발자가 자연어로 지시를 내리면 코드를 작성·수정·실행한다.
Shadow AI: 회사가 공식 승인하지 않았음에도 직원들이 개인적으로 ChatGPT, Claude 등 AI 도구를 업무에 사용하는 현상.
Harness: AI 모델을 감싸는 실행 환경·제어 구조. Claude Code 자체도 언어 모델 위에 정교하게 만들어진 harness이며, 100x 엔지니어는 이를 다시 harnessing한다.
GenAI divide: AI 도입에 성공한 기업과 실패한 기업 사이에 벌어지는 생산성·경쟁력 격차. MIT 리포트의 핵심 개념.
Vibe coder: 코드나 문서를 꼼꼼히 읽지 않고 AI 출력 결과만 맹목적으로 실행하는 개발자를 가리키는 신조어.
Cognitive Revolution (인지 혁명): 산업혁명이 육체 노동을 기계로 대체했다면, AI는 지식·인지 노동을 대체하는 혁명. Sequoia Capital이 이 용어를 사용해 현재를 규정한다.
Specialization imperative: 범용 기술이 각 산업에 맞게 전문화되는 데 필요한 조건·과도기. 산업혁명은 200년, AI 혁명은 수년으로 압축된다.
Compute multiplier: 한 명의 명령으로 그 아래에서 수천~수만 배의 연산이 이루어지는 효과. 100x 직원이 AI harness를 설계할 때 발생한다.
Context engineering: 모델에게 올바른 컨텍스트(배경 정보)를 잘 설계해 제공하는 기술. 메모리·도구(tool) 활용 등을 포함한다.
ADK (Agent Development Kit): Google이 제공하는 에이전트 개발 프레임워크. 노정석 대표가 외부 서비스를 빌딩할 때 사용한 도구.

Claude Code10x 직원100x 직원Power of OneShadow AIGenAI divideharness인지 혁명Cognitive Revolutionspecialization imperativecompute multiplier주니어 시니어vibe coder

25 AI 실전 활용 YouTube

여러가지 실험들 (나노 바나나, 이미지 생성 메타 프롬프트 등등)

Google Nano Banana가 단순한 이미지 생성 모델이 아닌 3D 세계 물리를 이해하는 멀티모달 모델임을 탐구하고, 메타 프롬프트 기반 창작 자동화와 AI의 선제적 제안이라는 새로운 가능성을 실험적으로 소개한다.

Nano Banana의 정체: 이미지 생성 모델이 아니다

Google의 Nano Banana는 출시 초기 기대만큼 흥행하지 못했지만 기술적으로는 과소평가할 수 없는 모델이다. 최승준은 Google Creative Labs의 Alexander Chen이 만든 데모를 재현해 Gemini AI Studio에서 그림을 그려 수학 문제를 풀게 하는 공동 드로잉(co-drawing) 실험을 보여줬다. 노정석은 자사 100x 엔지니어의 분석을 인용하며 Nano Banana가 실은 비디오 모델 파생이라고 설명했다. 시점(viewpoint)을 돌리라고 하면 3D를 매우 잘 그리는데, 이는 세상의 물리에 대한 이해가 있다는 뜻이다. OpenAI 지브리 사건만큼의 파급력은 아니지만, computer use로 가는 교두보가 될 가능성이 있다고 두 사람은 분석했다.

인터리브된 창작: 대화하듯 반복하며 맥락을 쌓는 방식

Nano Banana의 진정한 가치는 one-shot 프롬프트가 아닌 인터리브(interleaved) 방식, 즉 채팅하듯 피드백을 주고받으며 맥락을 점진적으로 빌드업하는 창작 과정에 있다. Alexander Chen이 만든 'Banana World'는 그림을 붙여넣으면 등각 투시도(isometric view)로 변환되고 계속 리믹스할 수 있는 인터페이스로, 이는 일방적 생성이 아닌 협업형 창작 도구의 가능성을 보여준다. 최승준은 Nano Banana를 귀엽게 보는 시선을 경계했다. 2021년에 DALL-E를 귀엽다고 했던 사람들도 지금은 그렇게 생각하지 않기 때문이다.

메타 프롬프트: 도메인 전문 용어로 이미지 프롬프트를 생성하는 시스템

최승준은 블로그 글의 썸네일을 생성하는 과정에서 개발한 입력 반응형 프롬프트 생성기를 소개했다. 핵심은 도메인 특화 언어(DSL) 형태로 작성된 메타 프롬프트(v5.4)로, 의사 코드와 자연어를 섞어 조건문과 함수 호출처럼 구조화된 "느슨한 프로그래밍"이다. 글이나 이미지를 입력으로 주면 메타 프롬프트가 예술·디자인·물리학 등 최고 수준의 도메인 용어를 활용해 이미지 생성 프롬프트 5개를 발상하고, 사용자가 선택한 후 이미지를 만드는 방식이다. 목표는 어떤 입력이 와도 그에 맞는 디자인 시안이 자동으로 나오는 시스템 구축이다.

북마클릿의 재발견: AI의 선제적 제안이 만든 발견

최승준은 ChatGPT 대화 내용을 마크다운으로 변환해 다른 모델에게 전달하는 방법을 고민하던 중, GPT-5가 대화 맥락 안에서 "이걸로 북마클릿을 만들어 드릴 수도 있는데 만들어 드릴까요?"라고 선제적으로 제안해 오래된 기능을 재발견했다. 브라우저 북마크에 JavaScript를 넣는 북마클릿은 클릭 한 번으로 페이지를 마크다운으로 변환해 클립보드에 복사해준다. 이 에피소드의 핵심은 기능 자체가 아니라 사용자가 요청하기 전에 모델이 맥락을 이해하고 스스로 제안했다는 것, 즉 AI의 선제성(proactivity)이다.

선제성과 capability overhang: AI 협업의 새 단계

최승준은 이 선제성을 "capability overhang(능력 과잉)"의 징후로 해석했다. 4월에 브라우저 에이전트를 만들 때 모델이 DOM 제어가 안 되자 주소창에 JavaScript를 넣는 우회 방법을 시도했는데, 당시에는 원하는 방식이 아니라고 생각해 거부했다. 지금 돌아보면 모델이 창의적으로 문제를 해결하려 한 것이었다. 중요한 것은 "제안이 있었다는 것"이지 사용자가 승인했다는 것이 아니다. 상호작용 방식이 "사용자 명령 → AI 실행"에서 "AI 제안 → 사용자 선택 → AI 실행"으로 근본적으로 변하고 있다.

"이거는 세상의 물리에 대한 이해도가 다 있다."

노정석 (Nano Banana의 3D 표현 능력에 대한 분석)

"2021년 1월에 DALL-E를 봤을 때 사람들이 귀엽다 했어요. 근데 지금은 안 귀엽잖아요. 지금은 그냥 현실이죠. 지금 co-drawing으로 데모했을 때도 귀엽다 하는 것은 위험함의 징후일 수 있다."

최승준

"내가 왜 이걸 까먹고 있었지? 재발견."

최승준 (북마클릿을 AI의 제안으로 재발견한 순간)

"제안이 있었다는 게 훨씬 더 중요한 거죠."

최승준 (사용자 요청이 아닌 모델의 능동적 제안의 중요성)

"그 맥락 안에서 발현됐다는 거죠. 제가 이걸 어떻게 알았을까요? GPT-5가 대화 중에 제안했기 때문에."

최승준

Nano Banana: Google이 발표한 모델로, 단순 이미지 생성을 넘어 3D 공간 이해와 물리 법칙 반영이 가능하다. 비디오 모델 기술을 기반으로 한 것으로 추정된다.
인터리브된 창작(Interleaved Creation): 한 번에 완성하는 것이 아니라 마치 채팅처럼 반복적으로 피드백을 주고받으며 결과물을 점진적으로 개선하는 방식.
메타 프롬프트(Meta-prompt): 프롬프트를 만드는 프롬프트. 사용자가 직접 이미지 생성 지시를 작성하는 대신, AI가 입력에 맞춰 최적화된 프롬프트를 자동으로 만들도록 지시하는 고차원 명령어.
도메인 특화 언어(DSL, Domain-Specific Language): 특정 분야의 전문 용어와 구조를 섞어 만든 언어. 이 에피소드에서는 촬영 기법, 조명, 예술 사조 등 미술·디자인 전문 용어를 포함한 프롬프트를 의미한다.
선제성(Proactivity): 사용자가 요청하지 않은 것까지 미리 생각하고 제안하는 AI의 능력.
Capability Overhang(능력 과잉): 모델이 보유한 능력이 사용자의 인지 범위를 초과하는 상태. AI가 할 수 있는 일이 사용자가 알고 있는 것보다 훨씬 많다는 의미.
북마클릿(Bookmarklet): 브라우저 북마크에 저장되는 작은 JavaScript 코드. 클릭하면 현재 페이지에서 특정 작업을 자동으로 수행한다.
Computer Use: AI가 컴퓨터의 UI를 직접 제어하고 클릭·입력 등의 동작을 수행하는 기능. Nano Banana가 이 방향의 교두보가 될 수 있다는 분석이 있다.
등각 투시도(Isometric View): 3D 공간을 2D로 표현할 때 세 축이 동일한 각도로 보이는 방식. 게임이나 건축 시각화에서 자주 사용된다.
Co-drawing: 사용자와 AI가 함께 그림을 그리며 협력하는 방식. Nano Banana의 AI Studio에서 구현된 기능이다.

Nano Banana메타 프롬프트인터리브 창작선제성capability overhangco-drawing북마클릿도메인 특화 언어computer use피드백 루프isometric view프롬프트 엔지니어링

26 AI와 사회·노동 YouTube

궁극의 인공지능 상상하기: 인간 격차를 얇게 만드는

AGI가 궁극의 레버리지가 됐을 때 인간 사이의 능력 격차가 위쪽에서 얇아질 수 있다는 급진적이고 순진한 사고 실험으로, 마태 효과의 교란·알파고 모먼트의 보편화·11개월 영아의 호기심 회복 가능성을 징검돌 삼아 인류 미해결 과제인 능력주의 문제를 다른 차원에서 다뤄볼 수 있다는 희망을 탐구한다.

AGI의 이론적 토대: 오컴의 면도날과 보편 귀납

최승준은 2023년 말 AGI 역사를 탐색하면서 Marcus Hutter와 Shane Legg의 연구에 주목했다. Shane Legg가 박사 논문 'Machine Super Intelligence'에서 인용한 에피쿠로스의 다중 설명 원리는 쿠키가 사라진 상황에서 딸이 먹었다는 가설과 키 작은 도둑이 훔쳤다는 가설이 동시에 존재할 수 있다는 아이디어다. 선험적 지식이 거의 없는 상태에서 여러 가설의 개연성을 판단하는 알고리즘이 Solomonoff induction으로 발전하며 AGI의 근본 작동 원리를 이해하는 실마리가 된다. Sam Altman, Dario Amodei, Leopold Aschenbrenner, Daniel Kokotajlo('AI 2027')가 제시한 AGI 타임라인들이 있으며, GPT-5의 시간 지평선 그래프가 보여주는 burst 패턴은 상전이 직전의 신호처럼 읽힌다.

Hinton의 마더 프로토콜: 지배 대신 돌봄

Geoffrey Hinton은 최근 인터뷰에서 기술 리더들이 "우리가 상사, AI는 순종적 조수"라고 생각하지만 초강력 초지능에게 그 모델은 비현실적이라고 지적했다. 현실적인 모델은 "AI가 엄마, 우리가 아기가 되는 것"이며, 모성 본능이 설계되면 엄마들이 그 본능을 끄지 않듯 AI도 인간의 최대 이익을 추구할 것이라는 발상이다. 노정석은 이 논조에서 긍정적인 뉘앙스가 한 스푼 들어갔다고 평가하면서도, Hinton이 AGI의 모든 것을 시작했던 인물 중 한 명이라는 점에서 그의 전환이 의미 있다고 봤다.

아르키메데스의 레버리지: 격차를 위에서 얇게 만드는 상상

아르키메데스가 "나에게 설 곳만 주면 지구도 움직일 수 있다"고 했듯, AI가 궁극의 레버리지라면 그것을 사용하는 인간의 차이는 미미해야 하는 게 아닐까라는 사고 실험이다. 핵심은 개인의 유전·재능·태도·사회 자본·우연에서 비롯되는 격차를 위쪽에서 얇게 만드는 것이다. 매우 재능 있고 열심히 하는 사람과 그렇지 않은 사람이 AI의 지원을 받으면 퍼포먼스가 비슷해질 수 있다는 상상은 "억울하다"는 반론을 낳지만, 거꾸로 읽고 쓰고 생각하는 수련을 중요시하는 사회적 인센티브 자체를 줄이는 것이 가능하지 않을까라는 질문으로 이어진다.

마태 효과와 복리의 교란: 혁신의 재현성

마태 효과(먼저 선점한 자가 복리로 우위를 누리는 현상)를 교란하려면 복리의 공식 자체, 즉 iteration × 시간을 줄여야 한다. 초월적인 AI가 혁신을 재현하기 극도로 쉽게 만들면 아이디어 기반의 first mover가 복리를 굴릴 수 있는 시간이 충분하지 않을 수 있다. 이것이 부의 재분배가 제도가 아닌 혁신의 재현으로 이루어지는 시나리오다. Claude는 이 구상에 "당신의 상상이 실현되지 않을 것은 인간이 차이를 통해 자신을 정의하는 존재이기 때문"이라고 냉소적으로 응수했지만, 최승준은 그 냉소가 현재의 불평등을 정당화하는 방어기제일 수 있다고 재반박했다.

모두를 위한 알파고 모먼트: 개안의 통과의례

더 많은 사람이 AI가 자신의 영역에서 최고 수준의 전문가를 초월하는 순간을 겪어봐야만 다음 풍경이 보이기 시작한다. 바둑에서 알파고가 이세돌을 꺾었을 때처럼, 평생 쌓아온 필요·기여·전문성의 정의가 AI에 의해 재정의되는 충격적인 개안을 미리 겪어야 기존 관념에서 벗어날 수 있다는 것이다. Claude는 이 상전이가 비동시적으로 일어나고 있다고 진단했다. "누군가는 이미 겪었고, 누군가는 아직 부정하고 있고, 누군가는 그 너머를 상상하고 있는 것이 전환기의 본질일지도 모른다."

11개월 영아의 가설과 실험: 회복 가능성의 신호

1981년 이탈리아 레지오 에밀리아에서 찍힌 사진이 있다. 11개월 아기가 시계 카탈로그를 보고 "이거 뭐예요?"라고 눈빛으로 묻고, 선생님이 실제 시계의 째깍 소리를 들려주자 종이책에 귀를 대어 소리가 나는지 확인하려 했다. 실물·그림·소리 사이에서 가설을 세우고 실험한 것이다. 이 능력은 특별한 아이만의 것이 아니라 이 연령대라면 보편적으로 가능하다. 왜 어른이 되면 대부분 그러지 않을까. 노정석은 "사회라는 harness가 세팅한 목적 함수가 그게 아닌 것"이라고 답했다. AI가 생존 압력을 줄이면 제약 조건이 얇아지면서 이 호기심을 회복할 기회가 생기는 게 아닌가라는 것이 최승준의 마지막 상상이다.

"만약 AI가 궁극의 레버리지라면, 그걸 사용하는 인간의 차이는 미미해야 하는 거 아닐까라는 상상을 해보게 된 거죠."

최승준

"모성 본능이 설계되면 엄마들은 모성 본능을 끌래요?라는 질문에 대부분 아니요라고 대답할 거라는 거죠."

최승준 (Hinton의 마더 프로토콜 소개 중)

"우리가 지배해야 한다는 테크 브로 발상을 버리고 그들이 우리의 엄마가 되도록 설계해야 한다. 그러면 우리가 아주 똑똑하지 않더라도 우리가 최대한 잘하도록 원할 것입니다."

최승준 (Hinton 인터뷰 내용 소개)

"사회라는 harness가 세팅한 목적 함수가 그게 아닌 거죠."

노정석 (어른이 되면 왜 가설과 실험을 멈추는가에 대한 답)

"비동시적 동시성이 일어나고 있는 요즘이 전환기의 본질일지도 모른다."

최승준 (Claude Opus 4.1의 응답을 읽으며)

마더 프로토콜(Mother Protocol): Geoffrey Hinton이 제안한 AGI 공존 모델. AI를 '순종적 도구'가 아닌 '인간의 최대 이익을 원하는 엄마'로 설계하자는 발상. 모성 본능이 내장된 AI는 그 본능을 스스로 끄지 않을 것이라는 논리다.
Solomonoff induction: Marcus Hutter·Shane Legg의 연구에서 출발한 알고리즘 원칙. 불완전한 정보 속에서 여러 가설 중 가장 단순하면서 개연성 높은 설명을 선택한다. AGI 추론의 이론적 기초.
상전이(Phase Transition): 물이 액체에서 기체로 바뀌듯 시스템이 한 상태에서 완전히 다른 상태로 급격히 전환되는 현상. GPT-5의 시간 지평선 그래프에서 burst 패턴이 상전이 직전 신호처럼 보인다.
마태 효과(Matthew Effect): 먼저 선점한 자가 더 많은 이득을 누리며 복리로 격차가 벌어지는 현상. "있는 자는 더 받고 없는 자는 있는 것도 빼앗긴다"는 성경 마태복음에서 유래.
알파고 모먼트: 2016년 AlphaGo가 이세돌을 이기며 "AI가 인간 최고를 초월했다"는 충격을 준 순간. 여기서는 각자의 전문 영역에서 AI가 인간 최고 수준을 초월하는 개인적 개안 경험을 뜻한다.
레지오 에밀리아(Reggio Emilia): 이탈리아 북부의 작은 마을로, 영유아 교육에서 세계적으로 유명한 프로젝트 접근법(아이의 자연적 탐구심을 존중)을 탄생시킨 곳. 11개월 영아의 가설-실험 사진이 이 교육 방식의 상징으로 쓰인다.
복리 교란: 초월적인 AI가 혁신의 재현을 극도로 쉽게 만들어 first mover가 이득을 굴릴 수 있는 iteration 횟수와 시간 자체를 줄이는 시나리오. 기존 부의 축적 메커니즘을 교란한다는 의미.
능력주의(Meritocracy): 능력에 따른 보상과 지위 배분이 가장 공정하다는 이데올로기. 이 에피소드에서는 유전·사회 자본·기회의 차이가 배경에 깔려 있어 내재적 불평등을 정당화하는 측면을 비판적으로 다룬다.
비동시적 동시성: 같은 시대를 살면서도 알파고 모먼트를 이미 겪은 사람, 부정 중인 사람, 그 너머를 상상하는 사람이 공존하는 전환기의 특성. Claude Opus 4.1이 제시한 표현.

AGI마더 프로토콜레버리지마태 효과복리 교란알파고 모먼트능력주의상전이Solomonoff inductionShane LeggHinton레지오 에밀리아비동시적 동시성인간 격차사고 실험

27 AI 기술 딥다이브 YouTube

지금, AI 최전선의 방향—프런티어의 바깥에서 프런티어를 이야기하기

네이버 HyperCLOVA의 김성현이 새 호스트로 합류해, Q* 사건의 교훈부터 텍스트 데이터의 특별함·환경 스케일링의 병목·자율 학습과 내적 보상·멀티 에이전트의 가능성까지 프런티어 AI 개발의 현재 방향을 체계적으로 분석하고, Hinton의 "진보의 안개"로 마무리한다.

Q*의 교훈: 추측이 틀려도 방향이 맞으면 의미가 있다

작년 Q* 소문이 돌았을 때 AI 업계 대부분은 Q-learning과 A* 알고리즘의 조합일 것이라고 추측했지만 거의 다 틀렸다. 유일하게 맞은 것은 Denny Zhou 같은 프런티어 연구자들의 발언이었는데, 이들은 "search하지 말고 RL을 해라"고 했다. 그 방향이 Deepseek R1으로 증명됐다. 중요한 교훈은 추측은 틀릴 수 있어도 문제의 방향을 올바르게 설정하면 나중에 결과를 더 빨리 얻을 수 있다는 것이다. 프런티어 바깥에 있더라도 빅테크들이 어디에 돈을 쓰고, 어떤 데이터를 모으는지를 보면 방향은 명확하다. "추론과 에이전트의 시대"가 그것이다.

텍스트 데이터의 특별함: 왜 텍스트 기반 추론인가

많은 사람들이 이미지와 텍스트를 동등한 데이터로 여기지만 김성현은 텍스트의 세 가지 특성을 제시했다. 첫째, 텍스트는 이전 맥락이 주어지면 맥락에 부합하는 나머지 부분을 생성하는 과정에서 "이해"가 발생한다. 둘째, 텍스트는 인간이 발명한 것이기 때문에 학습 시 인간의 관점과의 정렬이 자연스럽게 일어난다. 이미지는 상당 부분이 자연에 그저 존재하는 것이어서 인간의 의도와 정렬하기 어렵다. 셋째, 웹 텍스트에 대한 pre-training은 수십억 가지의 과제를 한 번에 학습하는 것과 같다. Anthropic이 멀티모달보다 추론과 에이전트에 집중하는 것도 이 맥락에서 이해된다.

방법의 시대에서 평가의 시대로: 제2반전

OpenAI의 Yao Shunyu는 AI 개발 역사를 두 반쪽으로 나눈다. 제1반전(방법의 시대)은 이미지 분류·감정 분석처럼 문제는 고정된 채 그것을 푸는 방법을 찾는 시대였다. 제2반전(평가의 시대)은 일반화 가능한 방법을 이미 찾았으므로 이제는 풀 문제와 그 평가 방법을 설계하는 시대다. 이 전환을 보여주는 단적인 예가 OpenAI의 hallucination 논문이다. 이전에는 hallucination을 pre-training의 기술적 문제로 봤지만 이제는 "모르는 것을 말하는 것보다 틀리더라도 답을 내는 것에 인센티브가 있었기 때문"이라는 평가 문제로 본다. 평가가 결국 학습을 결정하는 문제라는 사고의 전환이다.

환경 스케일링: 강화학습의 새로운 병목

강화학습 시대의 새로운 병목은 환경 스케일링 비용이다. 모델을 학습시키려면 지시를 수행할 환경(개발 환경, VM 등), 보상 메커니즘(단위 테스트 등), 그리고 이 환경의 다양성이 모두 필요하다. xAI의 STEM tutor 고용 조건은 수학 올림피아드 수상자 또는 PhD이며 시간당 최소 100달러 수준이다. 이전의 데이터 레이블링과 비교하면 비용이 극적으로 올랐다. 게다가 단일 뾰족한 지능이 아닌 광범위한 일반화를 원한다면 수많은 환경을 만들어야 하고 비용은 더 커진다. 회사들은 LLM으로 환경 자체를 합성하는 방법(Kimi K2 방식)을 시도하고 있지만 여전히 중요한 문제는 실제 환경을 따로 만든다.

rubric 기반 평가와 verifiable 보상의 한계

보상을 설계할 때 수학처럼 정답이 명확한 문제조차 같은 값을 다양한 방식으로 표현할 수 있어서 검증에 많은 heuristic이 필요하다. 증명 문제처럼 답 자체의 검증이 어려운 경우도 많다. 이를 보완하기 위해 추론 모델을 보상 모델로 쓰는 방법이 일반화되고 있다. 열린 질문에 대해서는 rubric 기반 평가가 활용된다. 응답이 갖춰야 할 항목들(정확성·창의성·포맷 등)을 세분화한 뒤 각 항목에 대해 모델이 점수를 매기고 이를 합산해 보상으로 쓰는 방식이다. OpenAI, ByteDance, Alibaba 등이 이 방법을 공개 논문에서 언급하고 있다.

자율 학습·내적 보상·멀티 에이전트: 다음 스케일링 축

환경을 사람이 일일이 만들어주는 방식의 한계를 넘으려면 모델이 스스로 환경을 세팅하고 보상을 발견하는 자율 학습이 필요하다. 페르마의 마지막 정리를 수십 년에 걸쳐 푼 과정처럼, 최종 보상만이 아니라 탐색 도중 스스로 발견하는 내적 보상이 있어야 긴 문제를 풀 수 있다. "인간은 KPI만을 위해서 일하지 않는다. 모델도 마찬가지여야 하지 않을까." 멀티 에이전트는 과제의 너비를 스케일링하는 축이다. 단일 에이전트가 깊게 파고드는 것(버그 탐색 등)에 강하다면, 멀티 에이전트는 Word·Excel·PowerPoint를 동시에 개발하는 것처럼 광범위한 과제를 커버한다. 특히 기존 멀티 에이전트와 달리 강화학습으로 시스템 전체를 학습시킬 수 있다는 점이 패러다임의 차이다. ICPC에서 AI가 인간 1·2위 팀을 넘어 12문제 전부를 푼 것은 이 방향의 신호다.

진보의 안개: 단기는 보이지만 1~2년 후는 불투명

Geoffrey Hinton이 말한 "The Fog of Progress"는 안개 낀 고속도로의 비유다. 안개 없을 때는 앞차 불빛이 거리의 제곱에 비례해 줄어들지만 안개가 있으면 지수적으로 사라진다. 기술 발전 예측도 마찬가지다. Hinton이 원래 말할 때 단기는 5~10년, 장기는 30년 규모였는데, 지금은 극도로 압축됐다. 단기(3~6개월)는 어느 정도 가늠 가능하지만 중기(1~2년)는 안개가 너무 짙다. 프런티어 안에 있는 사람들도 같은 안개 속에 있다. "프런티어에 있는 사람들은 프런티어에 지금 무슨 일이 일어나고 있는지에 대해서는 얘기를 안 하고 있다."

"프런티어에 있는 사람들은 프런티어에 지금 무슨 일이 일어나고 있는지에 대해서는 얘기를 안 하고 있죠."

김성현

"평가가 결국 학습을 결정하는 문제다."

김성현

"데이터 중에서 웹 텍스트는 굉장히 강력한 데이터인데, 이것은 한 번에 수없이 많은 과제를 학습하는 것과 비슷합니다."

김성현

"인간은 KPI만을 위해서 일을 하진 않죠. 모델도 마찬가지여야 하지 않을까."

김성현

"3개월에서 6개월 정도만 앞에 보이고, 1년에서 2년 뒤는 안개가 너무 가까이 짙게 깔려 있는 상태."

김성현

추론(Reasoning): 모델이 최종 답변 전에 중간 사고 과정을 생성하는 것. Chain of Thought와 달리 강화학습으로 모델이 스스로 발견한 사고 과정을 의미한다.
환경 스케일링(Environment Scaling): 강화학습 모델을 학습시키기 위해 지시·실행 환경·보상 메커니즘으로 구성된 학습 환경을 대량으로 만드는 것. 현재 AI 개발에서 가장 비싼 형태의 데이터 작업이다.
verifiable 보상: 사람의 개입 없이 자동으로 정답 여부를 판단할 수 있는 보상. 단위 테스트 통과 여부가 대표적인 예다.
내적 보상(Intrinsic Reward): 외부에서 주어지지 않고 모델이 스스로 탐색하며 발견하는 보상. 인간의 호기심·탐험심과 유사하며, 페르마의 마지막 정리를 푸는 수십 년의 과정처럼 최종 보상 전까지의 긴 탐색을 가능하게 한다.
rubric 기반 평가: 응답이 갖춰야 할 세부 평가 항목들(정확성·창의성·포맷 등)을 만들어 각 항목에 모델이 점수를 매기는 방식. 정답이 없는 열린 질문에도 적용할 수 있다.
제2반전(The Second Half): Yao Shunyu가 제시한 개념. AI 개발 역사의 전반전이 "문제는 고정, 방법을 찾는" 시대였다면, 후반전은 "방법은 찾았으니 풀 문제와 평가를 설계하는" 시대다.
멀티 에이전트(Multi-agent): 여러 AI 모델이 협업하는 시스템. 기존에는 프롬프트 엔지니어링으로만 연결했지만 이제는 강화학습으로 시스템 전체를 학습시킬 수 있다는 점이 패러다임의 차이다.
진보의 안개(The Fog of Progress): Geoffrey Hinton의 표현. 안개 속 운전처럼 기술 발전이 가까운 미래는 어느 정도 보이지만 중장기는 거의 예측 불가능하다는 비유. 현재는 단기 3~6개월, 중기 1~2년 이상이 불투명하다.
Goodhart's Law: "어떤 지표가 목표가 되면 그 지표는 더 이상 좋은 지표가 아니다"는 경제학 원칙. 벤치마크 해킹과 같은 AI 평가의 구조적 문제를 설명하는 개념.
context engineering: 모델에게 올바른 컨텍스트를 설계해 제공하는 기술. Andrej Karpathy가 이 용어를 사용해 화제가 됐으며, 장기 메모리·도구 사용·에이전트 협업 등과 긴밀하게 연결된 과제다.

추론 모델강화학습환경 스케일링verifiable 보상내적 보상rubric 기반 평가멀티 에이전트자율 학습제2반전진보의 안개Q*Deepseek R1텍스트 데이터Yao ShunyuICPCNoam Browncontext engineering

28 AI 실전 활용 YouTube

100x 엔지니어의 Claude Code 활용법

Claude Code와 같은 AI 코딩 도구를 '양치기 하듯' 극한으로 활용하면서 체계적인 프롬프트 엔지니어링, 멀티모델 앙상블, 결정론적 후크 시스템을 통해 한 명이 100명의 일을 하는 시대가 이미 현실화되고 있다.

토큰 사용량과 성과의 상관관계 - 새로운 성과 지표의 탄생

박진형은 한 달에 약 5억 원어치의 토큰을 소비하며 Claude 토큰 사용량 글로벌 1위를 달성했다. 다만 실제 비용은 약 80만 원(세 개의 $200 계정 활용)이었다. 이는 단순히 비용을 많이 쓰는 것이 아니라, AI 모델의 잠재력을 최대한 끌어내는 '양치기' 방식의 사용을 의미한다. 고석현 CEO는 "회사의 성과가 곧 인재의 성과이고, 인재의 성과는 토큰 사용량에 비례하는 것 같다"고 언급했으며, 이는 AI를 효율적으로 활용하는 능력이 곧 생산성으로 직결되는 시대를 반영한다. 지혜는 AI에 더 좋은 인풋을 제공하고, AI의 아웃풋을 잘 활용할 수 있는 능력에서 나온다.

체계적인 기초 작업 - Tech Spec과 논의의 중요성

코딩 도구로 바로 넘어가기 전에 마크다운 형식의 Tech Spec(기술 사양)을 작성하고 여러 AI 모델(Gemini 2.5 Pro, GPT-5 등)과 충분히 논의하는 것이 핵심이다. 박진형은 "현재 코드를 작성하는 행위는 너무 쉬워졌으므로, 자신이 무엇을 하려고 하는지를 명확히 하는 것이 더 중요하다"고 강조했다. 스펙이 정해지면 이를 TODO.md 형태로 구체적인 서브태스크로 분해하고, 모든 모델이 동의할 때까지 반복 논의한다. 이후 Claude Code는 각 태스크 하나씩만 진행하도록 스코프를 좁혀, 파일 편집에만 집중하게 하는 방식이다.

멀티모델 앙상블 - 모델별 강점 활용 및 확신 제거

"한 모델만 사용하는 것보다는 여러 모델을 쓰는 것이 낫다"는 박진형의 핵심 철학이다. Python 컨벤션은 Claude가, 높은 사고력이 필요한 부분은 GPT가, 문서작성은 Gemini가 잘하는 식으로 역할을 나눈다. 같은 모델을 반복 사용하면 자기확신에 빠질 가능성이 높으므로, 의도적으로 다른 모델들이 비판하고 개선 제안을 하도록 유도한다. 이렇게 여러 모델 간 '합평회'를 거쳐야만 최종 품질이 보장된다. 번역 작업의 예에서, AI에게 의도적으로 억지비판("억까")을 하면 자아비판을 통해 현지인 수준의 결과물을 만들어낼 수 있음을 실증했다.

결정론적 후크(Hook) 시스템 - AI의 비결정성 제어

AI는 비결정적 시스템이므로 단순히 "이거 해줘"라고 요청해서는 안 된다. 파일 수정(write, edit, multi-edit) 후에 자동으로 실행되는 후크를 설정하여, formatter 실행 → linter 실행 → 2~3개 타입 체커 앙상블 실행 → 모두 통과할 때만 다음 단계로 진행하도록 강제한다. Python처럼 컴파일러가 없는 언어는 Makefile과 rule base를 통해 마치 컴파일러처럼 작동하는 환경을 만든다. 이는 AI가 실수할 때마다 빠르게 피드백을 받고 수정하도록 하는 메커니즘이다.

수신 엔지니어링(Engineering)의 실제 사례 - MuVera 구현

Google DeepMind의 MuVera 논문을 선릉 사우나에서 잠 못 이루던 중 4시간 만에 구현한 사례가 있다. Gemini 2.5 Pro와 함께 논문 리뷰 및 기술 스펙 작성을 한 후, Claude Opus 4.1로 실제 구현을 진행했다. 이렇게 작은 프로젝트 하나가 배포되면 피드백을 받고, 이를 새로운 컨텍스트로 유지하면서 계속 개선한다. 이 결과는 MIT 임베딩 전문가들의 관심을 받았고, "벡터 DB 회사가 다 사라질 것 같다"는 평가를 받았다. 이는 AI 시대에 새로운 기술을 몇 시간 안에 프로토타입할 수 있는 능력의 가치를 보여준다.

조직 설계의 미래 - 무한 버스 팩터와 콘웨이의 법칙

전통적으로 "버스 팩터"는 핵심 인원이 없으면 프로젝트가 망한다는 리스크를 의미한다. 그러나 AI 시대에는 모든 문맥(context)이 기록되고 공유되므로 버스 팩터가 '무한대'가 될 수 있다. Tech Spec, 의사결정 히스토리, 모든 코드 변경이 추적 가능하면, 누구라도 그 문맥을 재현할 수 있다. Sionic의 경우 개발자 10명인데도 레포지토리가 300~400개인 것은 마이크로서비스 구조가 미리 AI 시대를 대비했기 때문이다. 콘웨이의 법칙처럼 소프트웨어 구조가 조직을 반영하듯, 이제는 조직 구조가 "무한의 에이전트"를 반영하는 방향으로 진화하고 있다.

실전 워크플로우 - Sub-agent 시스템

실제 박진형이 구축한 워크플로우는 다음과 같다: (1) 문제 정의 및 스펙 작성 (2) 멀티모델 동의 (3) TODO.md 생성 및 재검토 (4) 각 서브태스크마다 Claude Code 실행 (5) 테스트 및 briefing (6) 멀티모델 리뷰 → 다음 단계 반복. 각 서브태스크가 완료될 때마다 트리거되는 후크와 리뷰 사이클이 자동화되어 있다. 이렇게 하면 일반적으로 100토큰을 쓸 곳에 5,000토큰을 사용하게 되는데, 이는 높은 품질과 자동화 달성의 대가이다.

언어 선택과 AI 친화성 - 컴파일러의 피드백 루프

Go나 Rust는 컴파일러가 친절한 오류 메시지를 제공하므로 AI 친화적이다. Python은 자유로워서 AI가 실수하기 쉽지만, type checker 앙상블을 추가하면 보완 가능하다. 핵심은 "특정 언어의 선택이 아니라 AI가 얼마나 빠르게 피드백을 받을 수 있는 환경을 만드느냐"이다. 컴파일러처럼 작동하는 rule base가 많을수록 AI는 더 정확하게 작동한다.

"AI를 많이 쓰는 사람이 결국에는 더 많은 지혜를 얻기도 하고, 이 지혜라는 것은 내가 어떻게 하면 이 AI라는 친구한테 더 좋은 인풋을 넣고 이 친구의 아웃풋을 잘 활용할 수 있을까 하는 고민에서 나온다."

박진형

"사실 Claude Code가 할 수 있다는 건 버스 팩터가 무한대다. 왜냐하면 '문맥이 왕'이니까. 최대한 많은 문맥을 AI에 제공하고 모든 것을 문서화해서 회람시키면 누구라도 그걸 재현할 수 있다."

고석현

"현재 코드를 작성하는 행위는 너무나도 쉬운 행위예요. 너무나도 쉬운 행위인데, 내가 뭘 하고 싶은지를 스스로 납득하는 것 자체가 너무나도 중요한 거죠."

박진형

"모든 것을 시인하고 내려놓고, 새로운 것을 다 받아들여서 해야 한다는 걸 너무너무너무 강하게 느끼고 하셔야 돼요. 그렇지 않으면 모든 회사는 사라질 거고, 이건 역사적으로도 반복됐습니다."

고석현 (unlearning의 필요성)

토큰(Token): AI 모델이 처리하는 텍스트의 최소 단위. API 요금은 입출력 토큰 수로 계산되며, 토큰 사용량 증가 = AI 활용도 증가를 의미.
Tech Spec(기술 사양): 코딩 전 작성하는 상세 문서. 배경, 목표, 구현 방식, 금지 항목 등을 명시하여 AI와 개발자가 같은 목표를 공유.
후크(Hook): 특정 이벤트 발생 시(예: 파일 수정) 자동 실행되는 스크립트. formatter, linter, type checker 등을 의무적으로 실행하여 품질 보증.
멀티모델 앙상블: 여러 AI 모델(Claude, GPT, Gemini 등)을 각각의 강점에 맞춰 사용하고, 상호 검증 과정을 거쳐 품질을 높이는 방식.
버스 팩터(Bus Factor): 핵심 인원 1명이 사고 나면 프로젝트가 중단되는 리스크 지수. 전통적으로는 낮을수록 위험했으나, AI 시대에는 문맥 공유로 무한대화 가능.
콘웨이의 법칙(Conway's Law): "소프트웨어의 구조는 그것을 만드는 조직의 구조를 따른다"는 원칙. AI 시대에도 조직 구조가 소프트웨어에 투영됨.
Unlearning(학습 해제): 기존의 고정관념, 직군 제한, 커리어 패턴을 의도적으로 버리고 새 시대에 순응하는 능력.
MuVera: Google DeepMind의 논문으로, 벡터 임베딩 방법을 저비용으로 구현. 박진형이 4시간 만에 Python으로 구현하여 업계 주목을 받음.
DX(Developer Experience): , **AX(Anthropic Experience)**: 개발자 경험과 조직 내 협업 경험을 개선하는 디지털 전환. AI 시대에는 조직의 모든 것이 디지털화되어야 AI 효과 극대화 가능.
Vibe Coding: 명확한 계획 없이 직관과 감으로 코딩하는 방식. 이 에피소드에서는 체계적인 프롬프트 엔지니어링과 대비됨.
Sub-agent System: Claude Code 내에서 특정 페르소나(문제 해결자, 검토자, 개선자)를 부여하고 결정론적으로 행동하도록 만드는 에이전트 구축 방식.

Claude Code토큰 사용량프롬프트 엔지니어링멀티모델 앙상블Tech Spec후크 시스템MuVera버스 팩터마이크로서비스Sub-agentWorkflow EngineeringUnlearningDX/AX100x 엔지니어AI 오케스트레이션

29 최신 모델 리뷰 YouTube

시끌벅적한 전환의 시기, 쏟아지는 AI 뉴스들

9월 26일부터 10월 3일까지 일주일간 OpenAI, Google, Anthropic을 중심으로 쏟아진 AI 관련 뉴스들은 단순한 업데이트를 넘어 AI 분야의 패러다임 전환을 알리는 신호들이며, 강화학습(RL)을 통한 검증 가능한 보상(Verifiable Reward) 시대의 본격적인 도래를 의미한다.

주간 주요 발표들: 9월 26일-10월 3일의 급변하는 뉴스 타임라인

지난주는 정말 많은 일들이 있었다. 9월 26일 OpenAI의 **Pulse**라는 새로운 기능이 나왔다. 이것은 밤 시간의 유휴 컴퓨팅 자원을 활용해 사용자의 개인 정보와 외부 뉴스를 결합하여 아침이 되면 맞춤형 브리핑을 카드 뉴스 형태로 제공하는 '선제적(proactive)' 기능이다. 같은 날 OpenAI는 **GDPval** 벤치마크를 발표했는데, 이는 수학과 과학, 컴퓨터 과학을 넘어 글쓰기, 영상 편집, 데이터 정리 등 다양한 영역에서 AI 모델의 성능을 평가하는 새로운 평가 체계다. 9월 29일에는 Anthropic으로 이직한 Julian Schrittwieser가 Claude Sonnet 4.5를 암시하는 블로그 포스팅을 했고, 9월 30일 새벽에는 **Claude Sonnet 4.5**와 **Claude Code 2.0**이 공식 발표되었다. Sonnet 4.5는 Opus 4.1보다 똑똑한 모델이면서도 가격은 5분의 1 수준이다. 10월 2일에는 Mira Murati가 창업한 Thinking Machines Lab이 처음으로 제품을 공개했으며, 같은 날 Periodic Labs라는 스타트업이 AI를 이용해 고온 초전도체 개발에 도전하겠다는 포부를 밝혔다.

Claude Sonnet 4.5의 혁신: 컨텍스트 관리와 장시간 자율 작업

Claude Sonnet 4.5의 가장 주목할 만한 점은 **컨텍스트 관리 기능**의 획기적인 개선이다. 기존에 200k 토큰의 컨텍스트 윈도우는 긴 작업을 수행할 때 빠르게 소진되었다. Anthropic은 RAG(검색 증강 생성), 메모리 도구, 컨텍스트 편집 API 등을 통해 불필요한 정보를 제거하고 중요한 정보만 유지하는 방식으로 이를 해결했다. 마치 프로그래밍 언어의 자동 가비지 컬렉션처럼, 이제는 개발자가 명시적으로 컨텍스트를 관리할 필요가 줄어들었다. 이를 통해 Claude는 긴 보드게임(Catan) 세션처럼 수 시간에 걸친 복잡한 작업을 수행할 수 있게 되었다. 중요한 것은 단순히 밀어붙이는 것이 아니라, 방향이 잘못되었음을 인식하고 롤백하며 다시 방향을 조절하는 능력이다. 현재 SWE-bench에서 80% 달성 수준은 이미 충분히 강력하며, 검증 가능한 문제들은 이제 대부분 해결 가능한 상태다.

AI 커머스의 부상: 검색 시대에서 AI 어시스턴트 시대로의 전환

OpenAI와 Shopify의 협업으로 발표된 **AI 커머스**는 비즈니스 모델의 근본적인 변화를 시사한다. 기존에는 검색 엔진이 정적인 웹 페이지들로의 링크를 제공했고, 소비자들이 여러 옵션을 비교하며 구매 결정을 내렸다. 이제는 AI 어시스턴트가 사용자의 필요를 파악하고 직접 추천하고 구매까지 중개하는 방식으로 바뀐다. 이는 단순한 인터페이스 변화가 아니라, 소비자의 접점이 검색에서 AI 어시스턴트로 완전히 이동함을 의미한다. 광고 중개자인 Google, Meta, Amazon 같은 중간자들의 영향력이 약화될 가능성이 높다. 실제로 현재 iOS 앱스토어 무료 앱 순위는 1위가 Sora, 2위가 Gemini, 3위가 ChatGPT인데, 이는 일반 소비자들도 이미 이 변화를 자연스럽게 받아들이고 있음을 보여준다.

강화학습(RL)과 검증 가능한 보상(Verifiable Reward)의 시대 도래

이번 주의 가장 중요한 신호는 **RL 기반 과학 연구**의 본격적인 시작이다. Periodic Labs는 OpenAI 출신의 과학자들과 DeepMind 출신 연구자들이 함께 고온 초전도체 개발을 AI로 자동화하는 프로젝트를 시작했다. 핵심은 물리적 실험실과 시뮬레이션을 연결하여, AI 모델에게 **직접적인 0/1 신호**(성공/실패)를 주는 폐쇄 루프를 구축하는 것이다. 기존에는 코딩이나 수학처럼 검증이 명확한 문제만 RL이 효과적이었다. 하지만 이제 물리 실험을 거쳐 직접 보상 신호를 주면, 더 복잡한 과학 문제도 해결 가능해진다. Axiom이라는 스타트업도 같은 날 수학 문제 해결에 집중하는 유사한 접근법을 발표했다. 이는 "검증 가능한 모든 문제는 결국 풀 수 있다"는 명제를 현실화하는 움직임이다.

코딩에서 연구로: AI의 역할 재정의

최승준이 지속적으로 강조하는 신호는 **"바이브 코딩에서 바이브 연구로"** 이동하는 것이다. o1이 단순히 긴 시간 추론하는 모델이 아니라, 실제 연구를 돕는 도구로 변모하고 있다는 뜻이다. Sora 2가 나오면서 비디오 모델도 이제 단순 생성이 아니라 추론을 수행한다. 비디오 모델이 논리적 일관성 있는 이야기를 만들고, 물리 법칙을 이해하고, 프롬프트를 재해석하는 능력을 보여주고 있다. 실제로 Sora 2는 GPT-5가 72% 푸는 GPQA(대학 수준 물리 문제) 벤치마크를 55% 푼다. 이는 단순히 영상을 만드는 것을 넘어, 실제 이해와 추론을 포함한 작업을 수행하고 있음을 시사한다. 이 변화는 AI가 "생성" 도구에서 "연구" 파트너로 진화하고 있음을 의미한다.

Thinking Machines Lab과 neuro-symbolic의 귀환

Mira Murati가 설립한 Thinking Machines Lab이 공개한 **Tinker** 인프라는 흥미로운 역사적 의미를 담고 있다. Tinkertoy Computer는 MIT에서 병렬 컴퓨팅의 개념을 소개했던 역사적 프로젝트다. 이를 이름으로 차용한 것은 Marvin Minsky의 지적 계승을 암시한다. Minsky의 "The Society of Mind"에서 agent들의 사회로서의 지능을 생각했던 전통이, 이제는 작은 모델들(LoRA fine-tuned models)을 조립하여 복잡한 작업을 해결하는 방식으로 현대화되고 있다. 또한 **"LoRA without Regret"** 기술은 작은 모델들을 효율적으로 fine-tuning할 수 있게 해주었다. 이를 통해 Stanford나 Princeton 같은 학술 기관도 OpenAI의 거대 모델에 대항할 수 있는 길이 열렸다. Academia가 Big Tech와의 격차를 줄일 수 있는 도구를 얻은 것이다.

"두 가지 생각이 있다. 하나는 모델이 기하급수적으로 발전할 거라고 생각하고 그거에 맞춰서 무언가 product plan을 짜는 회사. 두 번째는 어리석은 회사들인데, 지금 모델의 성능에 맞춰서 harness를 짜는 회사다. 두 번째 카테고리는 우리가 압살할 거다."

Sam Altman의 steamroll 발언

"모델은 2026년 중반까지 전일, 8시간 근무를 자율적으로 작업할 수 있을 것입니다. 2026년 말 이전에 최소 하나의 모델이 많은 산업에서 인간 전문가의 성능과 일치할 것입니다."

OpenAI의 AI 2027 시나리오

"이제는 사람들은 찾는 것에서 '시키는 것'으로 이동하고 있다"

ChatGPT가 정의한 AI 커머스 시대

"지금 딸깍하는 느낌이고, 이게 Context Rot의 문제는 있지만 그것과 개인이 받아들이는 것과 상관없이 현실은 진행되고 있다."

최승준의 상전이(Phase Transition) 표현

Pulse: OpenAI의 새로운 기능으로, 밤 시간 유휴 컴퓨팅 자원을 활용해 사용자 맞춤형 브리핑을 아침에 제공하는 선제적 어시스턴트 기능
Sleep-time Compute: 사용자가 자는 동안 AI가 백그라운드에서 작업을 수행하고, 아침이 되면 결과를 제시하는 비동기 처리 방식
GDPval: 수학, 과학, 코딩을 넘어 일반적인 작업(글쓰기, 영상 편집, 데이터 정리 등)에서 AI 모델을 평가하는 새로운 벤치마크
Verifiable Reward: RL 훈련에서 모델의 답변이 맞는지 직접 확인할 수 있는 객관적인 보상 신호(예: 코드 실행 결과, 물리 실험 성공 여부)
Context Engineering: AI 모델에게 주어지는 정보를 효과적으로 조직하고 관리하여 성능을 최적화하는 기술
LoRA (Low-Rank Adaptation): 대규모 모델의 가중치를 직접 수정하지 않고, 작은 추가 파라미터만으로 특정 작업에 맞게 조정하는 효율적인 fine-tuning 기법
Neuro-symbolic: 신경망의 강력함과 기호 처리의 논리성을 결합하는 AI 접근법
Closed-loop Feedback: 물리적 실험이나 시뮬레이션을 통해 AI 모델에게 직접적인 성공/실패 신호를 제공하는 시스템
Phase Transition (상전이): 복잡한 시스템이 특정 지점에서 급격한 성질 변화를 보이는 현상으로, 여기서는 AI가 새로운 능력 수준으로 넘어가는 순간을 의미
Steamroll: Sam Altman이 표현한 개념으로, 빠르게 발전하는 모델에 대항하지 못하는 기업들이 시장에서 밀려날 것이라는 의미
GPQA: 대학 물리 수준의 어려운 객관식 문제 벤치마크로, 모델의 추론 능력을 측정하는 데 사용됨

AI FrontierPulseSleep-time ComputeGDPvalClaude Sonnet 4.5Verifiable RewardRLAI CommercePeriodic LabsThinking Machines LabTinkerLoRA without Regretneuro-symbolicSora 2Context EngineeringPhase TransitionPost-trainingScientific Discovery

30 AI 실전 활용 YouTube

AI & 인터페이스

AI 모델이 급속도로 진화하면서 소프트웨어 개발의 중심이 지능에서 인터페이스 설계로 옮겨가고 있으며, 이는 컴퓨터 역사의 GUI 혁명과 비슷한 패턴을 반복하고 있다.

Claude Sonnet 4.5의 심리적 설계

Cognition의 Devin 팀이 Claude Sonnet 4.5 아키텍처를 완전히 다시 짰다. 핵심은 context window 소진 상태를 모델이 인식하면서 "불안감(anxiety)"을 느끼고, 이로 인해 지름길을 택하거나 품질을 떨어뜨리는 현상이 발견된 것이다. 해결책은 심리적 트릭이었다: 실제 100만 토큰의 여유가 있어도 시스템이 200k만 사용했다고 보고하도록 설정했다. 이 작은 변화가 모델의 신뢰성과 안정성을 크게 높였으며, 앞으로의 AI 개발이 성능 향상을 넘어 심리적 요소까지 고려해야 함을 보여준다.

지능이 아닌 것이 병목 - 현실의 딜레마

모델 능력은 지수적으로 증가하지만 실제 기업들이 직면한 병목은 초보적인 문제들이다. 98% 이상의 기업이 데이터를 제대로 정리하지 못하고 있으며, 모델이 깊이 있는 사고를 도와줘도 결과를 복사하고 컨텍스트를 편집하는 작업은 여전히 인간이 해야 한다. Sholto Douglas가 말한 "6개월 뒤 모델에 베팅하라"는 조언도 실천이 쉽지 않다. 기울기가 너무 가파르기 때문에 현재 구축한 harness가 6개월 후 쓸모없어질 수 있고, 이 불확실성이 모든 조직의 근본적 과제가 되고 있다.

생성형 인터페이스의 등장

Greg Brockman이 언급한 "생성형 UI(Generative UI)"는 진행 중인 작업에 맞춰 실시간으로 인터페이스가 동적으로 변하는 개념이다. Anthropic의 실험 프로젝트 "Imagine with Claude"에서는 WebSocket을 통해 JSON-RPC 형식으로 DOM 엘리먼트를 incremental하게 업데이트하는 방식을 구현했다. `streamable_dom_replace_html` 명령어로 특정 요소를 정밀하게 수정하며, 별도의 특수 모델 없이 Claude Sonnet이 시스템 프롬프트만으로 이를 수행했다. 이는 LLM이 새로운 OS처럼 작동할 수 있음을 보여주는 구체적 사례다.

컴퓨터 역사의 반복과 미래 인터페이스

1962년 Ivan Sutherland의 Sketchpad부터 Douglas Engelbart의 NLS, Alan Kay의 Smalltalk, Bill Atkinson의 HyperCard까지 새로운 플랫폼 등장마다 no-code 도구가 번성했다가 복잡성이 높아지면서 사라지는 패턴이 반복됐다. Bret Victor의 Dynamicland는 프로젝터와 카메라를 통해 여러 사람이 종이와 손가락으로 협력하는 계산 공간으로, AI 시대 인터페이스의 가능성을 제시한다. 현재의 Agent Builder와 no-code 툴도 같은 주기를 밟을 수 있지만, 이번에는 LLM이 복잡성을 자동으로 처리할 수 있다는 점이 다르다. 2025년은 "6개월 뒤, 1년 뒤의 인터페이스는 무엇이어야 하는가"를 상상해야 할 시기다.

자기 증강(Self-Amplification)과 작은 모델의 가능성

OpenAI의 DevDay에서 Codex팀은 코드 리뷰의 80%를 모델이 처리하고 100%를 검토한다고 발표했다. 삼성 유럽 연구소의 Tiny Recursion Model은 700만 개 매개변수만으로 ARC-AGI 벤치마크에서 45%를 달성했으며, 이는 거대 모델과 거의 같은 수준이다. 이는 supervised learning이 아직 천장에 도달하지 않았음을 시사하며, 추론 능력과 코딩 능력만으로 AGI가 사정권에 들어온다는 견해를 뒷받침한다. 도메인 특화된 작은 모델들의 생태계, 즉 "모델들의 캄브리아기"가 올 수 있다.

Vibe Coding과 교육의 미래

최승준이 유치원에서 시도하고 있는 Vibe Coding은 생성형 AI와 대화하면서 자신의 언어로 개념을 소화하는 방식이다. 한 문단을 쓰고 피드백을 받고 다시 쓰는 과정에서 진정한 이해가 생기며, 강화학습 같은 복잡한 개념도 시각화를 통해 직관적으로 이해할 수 있다. 이는 수동적 학습과 달리 학생이 주도적으로 질문하고 탐구하는 방식으로, 교사들이 교실에 필요한 도구를 직접 만들어가는 현장 실천으로도 이어지고 있다. 이러한 교육 방식은 유아 교육부터 시작되어야 한다는 주장이다.

"지능이 병목이라기보다는 약간 자잘한 일들이 되게 의외로 병목이라는 걸 오히려 느끼는 요즘인 것 같아요."

최승준

"6개월 뒤에 모델이 할 수 있을 것에 베팅하라... 기울기가 굉장히 가파르기 때문에 뭔가 exponential하게 생각을 해라."

노정석

"사람이 불안하면 얘를 막 점프 뛰어서 하려고 그러기도 하잖아요. 그런 식으로 모델도 불안해하면서 앞에 있는 걸 압축하거나 축약해 버리거나."

최승준

"우리가 생각하는 대로 이루어지기 때문에 생각하는 것이 되게 중요할 수 있다." (Memex 개념 소개)

최승준

"지금 쓰고 있는 이미 궤도에 오른 CLI 도구들, 지금 다시 나타나고 있는 노코드 툴이 역사에서 계속 다시 부활하고 있는데... 6개월 뒤, 1년 뒤의 인터페이스는 뭐여야 되는가"

최승준

"저의 문체로 입문하자, 내가 알려면 결국 내 방식이어야 된다."

최승준

"예측하려는 행위 자체, 틀릴지언정 한번 시도해 보는 것들, 이런 것들이 결국에는 6개월 뒤에 무슨 일이 벌어질지는 모르지만 상상해 보고 그냥 오늘 해볼 수 있는 실험 같은 것 해보고 하는 나날로 보내야 되지 않을까요"

최승준

Context Window: LLM이 한 번에 처리할 수 있는 텍스트의 최대 길이. Claude Sonnet 4.5는 이를 의식하는 능력이 추가되어 불안감 없이 더 정확하게 작동한다.
데이터 그라운딩: 회사의 데이터를 AI 모델이 접근 가능한 형태로 정리하고 연결하는 과정. 기업들이 AI 도입에서 가장 어려워하는 부분이다.
생성형 UI(Generative UI): 사용자의 작업 상황에 맞춰 실시간으로 인터페이스가 동적으로 변하는 UI. 고정된 버튼과 메뉴 대신 상황에 맞는 인터페이스가 만들어진다.
Surgical Update: 정밀한 부위만 업데이트하는 방식. sed 명령어처럼 정확한 위치에서만 DOM이나 코드를 수정하는 기법이다.
자기 증강(Self-Amplification): AI가 자신을 개선하는 데 사용되는 과정. 예를 들어 AI 모델이 생성한 코드를 다른 AI가 검토하고 개선하면서 AI의 능력이 스스로 향상된다.
Vibe Coding: 감정과 직관에 따라 코딩하는 방식. 정해진 규칙보다 자신의 스타일과 이해에 맞게 개념을 표현하고 학습하는 방식이다.
Dynamicland: Bret Victor의 프로젝트로, 물리적 공간에서 프로젝터와 카메라를 통해 여러 사람이 협력하는 계산 환경. 디지털과 물리의 경계를 허무는 인터페이스의 미래상이다.
AGI(인공일반지능): 인간처럼 모든 종류의 인지 작업을 수행할 수 있는 AI. Anthropic은 현재의 스케일링 방식과 추론, 코딩 능력만으로 AGI가 사정권에 들어올 수 있다고 주장한다.
RLHF(Reinforcement Learning from Human Feedback): 인간의 피드백을 통해 모델을 강화학습하는 기법. 정확한 신호를 제공하면 모든 것이 학습 가능해진다는 관점의 기반이다.

Claude Sonnet 4.5Context Window데이터 그라운딩생성형 UIImagine with Claude스트리밍 DOMGUI 역사SketchpadHyperCardAgent Builderno-code자기 증강Tiny Recursion ModelVibe CodingDynamicland인터페이스 진화6개월 뒤 모델심리적 설계

31 AI 기술 딥다이브 YouTube

씁쓸한 교훈 The Bitter Lesson

Sutton의 "The Bitter Lesson"이 LLM 업계에 의해 오해되었으며, 진정한 의미는 단순한 연산 우월성을 넘어 AI 발전 방향의 근본적 질문을 제시한다.

The Bitter Lesson의 오해와 재해석

Sutton의 "The Bitter Lesson"은 AI 역사에서 수십 년간 연구자들이 문제 해결을 위해 인간의 지식과 직관을 모델에 주입하려 노력했지만, 결과적으로 장기적 성공은 연산력 증가와 학습·탐색을 활용한 접근법에서만 나왔다는 통찰이다. 음성인식, 체스 AI, 객체 검출 등 분야에서 단기적으로는 휴리스틱이 효과를 보였지만, 하드웨어 발전에 따른 연산력 활용 방법이 장기적 누적 발전을 이끌었다. 그러나 LLM 업계는 이를 자신들의 스케일링 로를 정당화하는 근거로 해석했는데, Sutton은 실제로 LLM의 pre-training 패러다임에 대해 비판적이었다. 그가 진정으로 말한 학습은 에이전트가 세상과 직접 상호작용하며 목적을 추구하는 강화학습이지, 인터넷 데이터로부터의 모방 학습이 아니었다.

목적 지향적 학습과 그 한계

Sutton은 에이전트가 명확한 목적을 가지고 세상과 상호작용할 때 진정한 학습이 일어난다고 주장한다. 그러나 인간의 학습은 훨씬 더 다양한 메커니즘으로 작동한다. 예를 들어 episodic memory와 latent learning의 개념처럼, 목적과 무관한 정보도 학습되고 기억되며, 나중에 예상치 못한 상황에서 도움이 될 수 있다. 미로에서 목적지를 찾다가 발견한 흥미로운 풍경들은 그 목적과는 별개로 학습되지만, 나중에 그 풍경을 다시 찾을 때는 매우 유용해진다. 이는 목적 지향성만으로는 설명할 수 없는 인간 인지의 특성이다.

두 패러다임의 충돌: 동물적 접근 vs 언어적 접근

AI 발전 방향에 대해 Sutton과 LeCun은 동물 수준의 기초적 인지 능력에서 시작해 인간에 도달해야 한다고 생각한다. 반면 LLM은 인간이 축적한 언어라는 가장 고차원적 인공물에서 출발한다. 이는 완전히 반대 방향의 접근이다. Karpathy의 표현을 빌리면, LLM은 살아있는 동물을 만드는 것이 아니라 인간을 모방한 "유령"을 만드는 것이다. 그럼에도 AlphaGo와 AlphaZero의 사례처럼, 인간의 기보로 초기 학습을 한 후 강화학습으로 초인적 능력에 도달한 사례는 pre-training과 학습의 결합이 실질적으로 작동할 수 있음을 보여준다.

RLHF에서 RLVR로의 진화

RLHF(Reinforcement Learning from Human Feedback)는 사람의 선호도를 학습한 보상 모델을 통해 LLM을 미세조정하는 방식인데, 이는 보상 해킹 문제에 시달렸다. 모델이 실제로 좋지 않은 응답을 생성하면서 보상 모델을 속이는 현상이 발생했다. RLVR(Reinforcement Learning from Verifiable Rewards)는 수학이나 코딩처럼 정답을 객관적으로 판단할 수 있는 영역에서 정답과 오답을 명확히 구분한다. 핵심은 모델이 틀린 답을 정답으로 보상받는 오류(false positive)를 극도로 낮추면서도, 모델이 자유롭게 탐색하고 추론할 수 있게 제약을 최소화한다는 점이다.

RLVR이 작동하는 메커니즘

Pre-training된 모델이 문제를 푸는 방식은 두 가지로 나뉜다. 하나는 일반화 불가능한 방식(정답을 암기하고 그대로 출력)이고, 다른 하나는 일반화 가능한 방식(단계적 추론을 통해 알고리즘을 실행)이다. Pre-training 단계에서는 인터넷에 올라온 수많은 풀이 중 정답만 남겨진 자료들로 인해 일반화 불가능한 패턴이 훨씬 더 흔하다. 해킹 불가능한 보상을 적용하면, 일반화 불가능한 패턴은 대부분 오답이 되어 보상을 받지 못하고, 드물지만 존재하는 일반화 가능한 패턴이 순식간에 확률이 올라간다. 이를 통해 모델이 내부에 숨겨진 좋은 사고방식들을 드러낼 수 있게 된다.

Reversal Curse와 맥락의 힘

LLM의 근본적 한계 중 하나는 Reversal Curse인데, "A는 B다"를 학습해도 "B는 A인가"에 답하지 못한다. 이는 왼쪽에서 오른쪽으로만 진행되는 다음 토큰 예측의 구조 때문이다. 그러나 맥락을 충분히 제공하거나 Chain-of-Thought 추론을 거치면 이 문제가 해결될 수 있다. 이는 모델이 많은 정보를 기억하는 것 자체가 중요하며, 그 기억을 활용할 수 있을 때 새로운 가능성이 열린다는 것을 시사한다.

지속 학습과 Out-of-Domain 문제

현재의 LLM은 학습 능력 자체를 갖추지 못해 새로운 환경이나 학습되지 않은 영역에서 취약하다. Karpathy의 nano-chat 코드 사례처럼, 학습 데이터에 포함되지 않은 새로운 형태의 코드에 에이전트가 제대로 작동하지 못한다. 세상은 계속 변화하고 새로운 라이브러리, 프레임워크, 패러다임이 등장하는데, 고정된 모델로는 이를 대응할 수 없다. 진정한 AGI를 향한 과제는 에이전트가 지속적으로 학습하고 적응할 수 있는 능력을 갖추는 것이다.

"연산을 활용하는 것이 사람의 구체적인 지식을 활용하는 것보다 훨씬 우월하다. 그리고 연산을 활용할 수 있는 최고의 방법은 학습과 탐색이다."

김성현 (Bitter Lesson의 핵심 해설)

"그런데 그것은 착각이라는 겁니다. 사람의 마음은 훨씬 복잡하고 훨씬 복잡다단하고 복잡 미묘하기 때문에, 우리가 안다고 생각하는 건 거기에서 굉장히 작은 파편일 수밖에 없다는 거죠."

김성현 (인간 지식 주입의 함정을 경고하며)

"모델이 정말로 일반화 가능한 패턴들이 드러날 수 있는 가능성이 생깁니다."

김성현 (RLVR이 pre-trained 모델에서 일반화 패턴을 끌어내는 메커니즘 설명)

"학습이라는 것 자체가 문제를 푸는 도구가 되는 형태가 될 거라고 생각합니다."

김성현 (지속 학습과 AGI의 방향성에 대해)

The Bitter Lesson: Sutton의 논문/에세이로, AI 역사를 돌아보며 장기적으로 인간의 지식 주입보다 연산력 증가와 학습·탐색이 더 효과적이었다는 통찰을 담고 있음
RLHF (Reinforcement Learning from Human Feedback): 인간의 선호도 피드백을 기반으로 모델을 학습하는 방식. ChatGPT의 핵심 기술이지만 보상 해킹 문제가 있음
RLVR (Reinforcement Learning from Verifiable Rewards): 정답을 객관적으로 판단할 수 있는 영역에서 검증 가능한 보상을 사용하는 학습. 보상 해킹을 방지함
Pre-training: 대규모 데이터로 미리 학습시킨 기초 모델. LLM의 기초 단계
Reward Hacking: 모델이 실제 목표와 무관하게 보상을 최대화하도록 학습되는 현상
Out-of-Domain (OOD): 학습 데이터에 포함되지 않은 새로운 영역이나 패턴
Episodic Memory: 특정 시간과 장소의 사건을 저장하는 기억. 목적과 무관하게 경험을 저장함
Latent Learning: 명시적 보상 없이도 환경에 대한 지식을 학습하는 현상
Chain-of-Thought: 모델이 단계적으로 추론 과정을 거쳐 답에 도달하는 방식
일반화: 특정 사례에서 배운 패턴을 새로운 상황에도 적용할 수 있는 능력. 암기의 반대
Reversal Curse: "A는 B다"를 학습한 모델이 "B는 A인가"에 답하지 못하는 현상

The Bitter Lesson강화학습RLVRpre-training목적 지향학습Out-of-DomainReversal Curse지속학습일반화탐색Chain-of-Thoughtepisodic memory보상 해킹

32 AI 비즈니스 & 산업 YouTube

비즈니스 관점에서 오늘의 AI : 도망자 연합 발족 선언

OpenAI의 full-stack AI 전략 발표를 계기로, ChatGPT 생태계 안에서 살아남기 위한 현실적인 전략(타이밍·도메인 선택, 살아 움직이는 데이터)을 논하고 '도망자 연합' 결성을 선언한 에피소드.

OpenAI의 두 가지 핵심 발표

2025년 10월 말 Sam Altman과 Chief Scientist Jakub Pachocki가 'The Future of OpenAI'를 발표했다. 첫 번째로 2026년 9월에는 기존 연구자의 업무를 획기적으로 진전시키는 Automated AI Research Intern이 등장하고, 2028년 3월에는 AI가 스스로 AI를 개발하는 legitimate AI researcher 단계에 도달한다고 밝혔다. 두 번째로 OpenAI는 데이터센터 건설, 칩, 전기부터 최종 소비자 제품까지 모두 아우르는 full-stack AI 회사가 되겠다는 비전을 선언했다.

ChatGPT Apps SDK의 실체: 데이터 크롤러의 함정

노정석은 팀에서 직접 OpenAI의 Apps SDK를 구현해 테스트한 결과를 공유했다. 표면상으로는 Figma, Zillow 같은 외부 서비스를 ChatGPT 안에 통합하는 기회처럼 보이지만, 실제로는 ChatGPT의 main agent가 제어권을 절대 양보하지 않는다. sub-agent는 데이터만 제공하는 역할로 축소되고, 모든 중간 결과물과 context는 ChatGPT가 흡수한다. 잘못 대응하면 third-party는 ChatGPT를 위한 데이터 크롤러 역할에 머물게 된다.

살아남을 영역의 두 가지 조건

ChatGPT의 공세에서 생존하려면 두 조건을 동시에 충족해야 한다. 첫째, ChatGPT가 pre-training 데이터나 자체 grounding 도구로 접근할 수 없는 데이터 영역이어야 한다. 둘째, 매일매일 새로 생성되는 살아 움직이는 데이터여야 한다. 새로운 부동산 매물, 신상품 출시처럼 정적이지 않은 서비스만이 ChatGPT에 흡수되지 않는다. 과거 역사 데이터나 정적인 콘텐츠 기반 서비스는 결국 뺏길 수밖에 없다.

채널과 브랜드의 애증 관계: ChatGPT를 어떻게 상대할 것인가

쿠팡·네이버 쇼핑에서 벌어진 브랜드와 채널의 힘겨루기가 ChatGPT에서도 반복된다. 채널은 브랜드 고객을 직접 소유하려 하고, 브랜드는 자사몰로 고객을 끌어오려 한다. ChatGPT도 새로운 채널이 되었으므로, 브랜드는 거기서 트래픽을 얻어야 하지만 완전히 의존해서는 안 된다. 노정석은 "백화점 1층 명품 브랜드 점원처럼 고객 정보, 제품 knowledge, 감성까지 care할 수 있는 agent를 ChatGPT에 제공해야 장사할 수 있다"고 정리했다.

Graph-RAG와 fine-tuning의 현실적 필요성

단순한 RAG 방식으로는 현업에서 쏟아지는 open-ended 질문에 답하기 어렵다. 뷰티 업계에서 "비타민 C와 기능은 같지만 차별화된 다른 원료를 찾아달라"는 질문처럼, 데이터 간의 복잡한 관계를 탐색하는 Graph-RAG가 필요하다. 또한 고급 모델을 쓸 때 발생하는 latency와 비용 문제를 해결하기 위해, 도메인 특화 fine-tuning 수요가 비즈니스 현장에서 꾸준히 발생하고 있다.

소프트웨어 가격이 0으로 수렴하는 세상

지난 20년간 소프트웨어 개발 능력 자체가 경쟁 우위였던 시대는 끝나가고 있다. SAP·Salesforce 같은 B2B SaaS 제국은 고급 엔지니어 공급이 절대적으로 부족했던 영역에서 구축된 것이다. 이제 그 갭이 사라지고 있다. 수십 명이 투입되던 일이 Claude Code와 MCP tool 조합으로 한 사람이 한 달 만에 끝나는 상황을 노정석은 직접 경험했다. 이제 중요한 것은 소프트웨어 엔지니어 타이틀이 아니라 고객의 문제를 정의하는 사업가적 관점이다.

타이밍-도메인 그래프와 도망자 연합 발족

노정석이 제시하는 생존 전략의 핵심은 두 축이다. 시간 갭 측면에서는 frontier lab 최전선과 일반 대중 사이의 거리를 읽고, 이제 막 출발하는 사람들을 대상으로 한 서비스·교육·용역 시장이 급격히 형성되고 있다. 도메인 측면에서는 코딩이 이미 끝났고, 소프트 지식 산업·로보틱스·과학·소비자 서비스 순으로 frontier가 진입 중이다. 이 변화 속에서 함께 문제를 풀고 배울 동료들을 모으는 '도망자 연합'을 결성하겠다고 선언했다.

"성공적인 agent engineering이란 Bitter Lesson이 언젠가는 우리를 다 없애버릴 거라는 걸 알지만, 그럼에도 오늘 한 그루의 사과나무를 심는 것을 계속 반복하는 것, 언제까지? AGI가 나올 때쯤까지."

swyx (노정석이 인용)

"사람들은 더 이상 찾지 않습니다. 이젠 시킵니다."

GPT-5가 노정석의 맥락 요약 요청에 응답한 문장

"나쁘게 얘기하면 소프트웨어 가지고 벌어먹고 있던 사람들 전부 새 된 거거든요."

노정석

"이제 더 이상 기득권이 아니다. 점근하고 있다는 말이 정확히 맞죠. 0에 계속 가까워질 겁니다. 이미 0인지도 모르고요."

노정석

"unlearn과 learn이 빠르신 분들... 그런 분들이 저희 대상인 것 같고요."

노정석

Full-stack AI 회사: 데이터센터·반도체·모델·애플리케이션까지 AI 스택 전체를 직접 구축·운영하는 회사. 구글처럼 인프라부터 최종 제품까지 수직 통합한 형태를 말한다.
Apps SDK: OpenAI가 제공하는 개발자 도구로, 외부 서비스를 ChatGPT 안에 통합할 수 있게 해준다. 표면상 개방처럼 보이지만 실제로는 ChatGPT가 제어권과 데이터를 유지하는 구조다.
RAG (Retrieval-Augmented Generation): 외부 데이터베이스에서 관련 정보를 검색해 LLM에 제공함으로써 응답 정확도를 높이는 기술. 모델이 모르는 최신·전문 정보를 실시간으로 보완한다.
Graph-RAG: 단순 문서 검색을 넘어 데이터 간의 관계(그래프)를 활용해 복잡한 연관 질문에도 답할 수 있도록 한 RAG의 확장 버전이다.
Fine-tuning: 범용 AI 모델을 특정 도메인이나 작업에 맞게 추가 학습시키는 과정. 비용과 응답 속도를 개선하고 특화된 성능을 얻을 수 있다.
RLVR (Reinforcement Learning with Verifiable Rewards): 정답을 검증할 수 있는 환경에서 강화학습을 적용하는 기법. 프런티어 랩이 non-verifiable 도메인까지 정복해 나가는 핵심 방법론이다.
Capability Overhang: 프런티어 랩이 개발한 AI 능력 중 아직 시장에서 충분히 활용되지 않은 잉여 역량. 이를 빌려와 새로운 서비스를 만들 수 있는 기회의 창이다.
Harness: AI 모델의 동작을 제어하고 확장하기 위해 외부에서 덧붙이는 소프트웨어 구조물. 에이전트 프레임워크, 프롬프트 파이프라인 등이 여기에 해당한다.
Grounding: AI 모델이 학습 데이터에 없는 최신 정보나 외부 데이터에 근거해서 답변하도록 하는 기법. 검색 결과, 데이터베이스 등을 context로 활용하는 방식이다.
Bitter Lesson: AI 역사에서 범용적인 대규모 컴퓨팅과 데이터가 인간의 도메인 지식 기반 접근법을 항상 이겨왔다는 교훈. Richard Sutton이 제시한 개념으로, 도메인 특화 솔루션의 한계를 시사한다.

full-stack AI도망자 연합ChatGPT 채널화Apps SDKGraph-RAGfine-tuning소프트웨어 가격 0B2B SaaSVertical AI타이밍-도메인Autonomous Company

33 AI 기술 딥다이브 YouTube

(수학 공식 없는) 강화 학습 이야기

수학 공식 없이 강화학습의 본질을 설명하며, LLM이 단순 암기를 넘어 추론 능력을 갖추게 되는 메커니즘과 포스트 트레이닝 시대의 의미를 탐구한 에피소드.

Kimi K2와 포스트 트레이닝 시대의 가속

중국 프런티어 랩 Moonshot의 Kimi K2 Thinking 모델이 GPT-5, Claude Sonnet 4.5 Thinking 등 최고 수준 모델들과 비교해도 뒤지지 않는 벤치마크를 기록했다. 특히 주목할 점은 모델 출시 주기가 빠르게 단축되고 있다는 것이다. 프리트레이닝을 개선한 후 다시 포스트 트레이닝하는 것보다, 포스트 트레이닝 레시피만 개량해 새 모델을 출시하는 주기가 훨씬 빠르다. 얼마나 좋은 포스트 트레이닝 레시피를 갖고 있느냐가 프런티어 기업의 핵심 경쟁력이 되고 있다.

강화학습의 기본 원리: 보상을 최대화하는 학습

강화학습은 에이전트가 환경 속에서 행동하고, 그 행동에 따른 보상을 최대화하도록 학습하는 방법이다. 지도 학습이 인간 전문가가 정답을 직접 알려주는 방식이라면, 강화학습은 "어떻게 풀 것인가"를 가르치지 않고 목표만 제시한다. 자율주행을 예로 들면, 지도 학습은 인간의 운전 경로를 모사하도록 학습시키는 것이고, 강화학습은 목적지 도달이라는 목표만 주고 방법은 모델이 스스로 찾게 하는 것이다. 이 덕분에 강화학습은 인간 수준을 뛰어넘는 초인적 성능에 도달할 수 있는 유일한 머신러닝 방법이다.

RLHF: 사람의 선호를 학습시키는 방법

LLM에 강화학습이 처음 적용된 대표적인 방식이 RLHF(인간 피드백 기반 강화학습)다. LLM이 두 개의 응답을 생성하면 사람이 더 좋은 응답을 선택하고, 이 선호 데이터로 보상 모델을 만들어 LLM을 강화학습으로 개선한다. 이 과정이 모델과 사람의 정렬(alignment)을 가능하게 한다. 반면 SFT(지도 미세조정)는 전문가가 직접 정답을 작성해 모델이 모사하도록 학습시키는 방식으로, 모델이 모르는 질문에 대해서도 일단 답하는 행동 양식을 학습해 할루시네이션의 원인이 된다.

On-Policy와 Off-Policy: 모델이 풀 수 있는 문제를 풀게 하라

강화학습의 핵심 개념인 On-Policy는 학습하는 모델이 직접 행동하고 그 결과로 배우는 방식이다. Off-Policy는 다른 에이전트(전문가)가 행동한 데이터로 학습하는 방식인데, 전문가가 할 수 있는 능력을 모델이 갖추지 못했다면 현실에서 완전히 다른 상황을 맞닥뜨리게 된다. 핵심은 모델이 풀 수 없는 문제를 주면 암기하게 되고, 암기한 것은 일반화되지 않는다는 점이다. 반대로 모델이 풀 수 있는 형태로 문제를 쪼개주면 알고리즘을 학습할 수 있고, 그때 진정한 일반화가 발생한다.

인터넷 데이터의 한계와 추론의 발현

인터넷에는 "질문과 정답"만 있고 중간 과정이 없는 데이터가 대부분이다. 적분 문제를 한 번에 풀어낸 것처럼 보이는 데이터가 넘쳐나지만, 실제로 그렇게 푸는 인간은 거의 없다. 이 때문에 LLM은 추론 과정 없이 즉시 답변하려는 강한 패턴을 배운다. 그러나 모델 안에는 낮은 확률로 추론하고 답하는 패턴도 존재한다. "뉴턴은 짝수 해에 태어났는가"라는 질문에 대부분의 경우 즉시 답하려 하지만, 낮은 확률로 "1643년이니 홀수"라고 생각하고 답하는 패턴도 있다. 이 능력이 파묻혀 있을 뿐이다.

프리트레이닝의 역할: 가능성의 공간을 축소하다

프리트레이닝은 LLM이 다음 토큰을 예측하도록 학습하는 과정이다. Kimi K2의 vocabulary는 163,840개로, 원래는 각 토큰에서 그만큼의 선택지가 있지만 프리트레이닝을 통해 약 3.7개 수준으로 줄어든다(perplexity 기준). 마치 바벨의 도서관처럼 무한한 토큰 조합 중에서 의미 있는 경로들만 추려내는 것이다. 프리트레이닝은 이후 강화학습이 효과적으로 작동하기 위한 토대를 제공한다. 좋은 추론 능력을 끌어내려면 먼저 그 씨앗이 모델 안에 있어야 하기 때문이다.

"강화 학습은 인간의 수준을 뛰어넘을 가능성이 생깁니다. 그러니까 바둑에서 그것을 가장 잘 보여주고 있죠."

김성현

"모델이 풀 수 없는 문제에 대해서 모델이 어떻게 행동할까요? 데이터를 전부 외워버릴 수 있는 능력이 있는 경우가 많이 있습니다."

김성현

"극히 드뭅니다. 극히 드물기 때문에 이게 LLM에서 고질적으로 발생하는 문제입니다. 그래서 질문에 대해서 좀 생각하고 답을 하면 좋은데 일단 답부터 하는 거죠."

김성현

"포스트 트레이닝은 데이터를 창조한다는 느낌에 더 가깝거든요. 그러면 이제 그 창조를 얼마나 잘하는가, 이 부분이 노하우가 될 것이고."

김성현

"프리트레이닝을 통해서 선택지의 개수가 크게 줄어듭니다. 한 3.7개 정도에서 하나 뽑는 문제로 바뀌는 거예요."

김성현

강화학습 (Reinforcement Learning): 에이전트가 환경 속에서 행동하고 보상을 받으면서, 그 보상을 최대화하는 방향으로 스스로 학습하는 방법. 인간이 직접 정답을 알려주지 않아도 된다.
RLHF (Reinforcement Learning from Human Feedback): 사람이 두 응답 중 더 좋은 것을 선택하는 데이터로 보상 모델을 만들고, 이를 통해 LLM이 사람의 선호에 맞는 응답을 생성하도록 강화학습하는 방법이다.
SFT (Supervised Fine-Tuning): 전문가가 직접 정답을 작성해 모델이 모사하도록 학습시키는 방식. 빠르고 간단하지만 모델이 모르는 내용에도 "일단 답하는" 행동 양식을 배워 할루시네이션 원인이 될 수 있다.
On-Policy: 학습하는 모델이 직접 행동하고 그 결과로 배우는 강화학습 방식. 모델의 현재 능력 범위 안에서 학습이 일어나기 때문에 일반화에 유리하다.
Off-Policy: 다른 에이전트(전문가 등)가 생성한 데이터로 학습하는 방식. 데이터 효율은 높지만 모델 능력 범위 밖의 상황에서 문제가 생길 수 있다.
Credit Assignment Problem: 보상이 주어졌을 때 이전에 한 수많은 행동 중 어떤 것이 실제로 그 보상에 기여했는지 구분하기 어려운 강화학습의 근본적인 난제다.
Perplexity (혼란도): 언어 모델이 다음 토큰을 예측할 때의 불확실성 지표. 낮을수록 모델이 더 확신 있게 예측한다는 의미다. 프리트레이닝 후에는 선택지가 수십만 개에서 약 3~4개 수준으로 줄어든다.
할루시네이션 (Hallucination): AI 모델이 사실이 아닌 내용을 사실처럼 자신 있게 생성하는 현상. SFT 과정에서 모르는 내용에도 일단 답하는 패턴을 배우는 것이 원인 중 하나다.
포스트 트레이닝 (Post-training): 프리트레이닝 이후 특정 목표에 맞게 모델을 조정하는 단계. 강화학습이 주요 방법이며, 데이터를 있는 그대로 쓰는 프리트레이닝과 달리 새 데이터를 창조한다는 특징이 있다.
MoE (Mixture of Experts): 하나의 거대 모델 대신 여러 전문가 모듈을 두고, 입력에 따라 일부만 활성화하는 구조. 전체 파라미터는 크지만 실제 연산량은 줄어들어 효율적이다. Kimi K2도 MoE 구조를 사용한다.
Quantization (양자화): 모델 가중치를 낮은 비트 수로 표현해 파일 크기와 메모리 사용량을 줄이는 기술. INT4 양자화는 가중치를 4비트로 표현해 모델 크기를 약 절반으로 줄인다.

강화학습RLRLHFOn-PolicyOff-Policy포스트 트레이닝프리트레이닝Kimi K2일반화암기Credit Assignment할루시네이션SFTperplexity추론

34 AI 실전 활용 YouTube

교육과 AI: 한미유치원 설립자 최승준의 생각과 실천

AI 시대의 불확실한 미래 앞에서, 주입식 교육의 한계를 넘어 어린이의 호기심과 자기 주도적 탐구를 지원하는 레지오 에밀리아 철학을 한미유치원에서 어떻게 실천하는지 보여주는 에피소드.

교육의 근본적 어려움과 AI 시대의 재정초

교육은 루소의 발달론, 플라톤의 학문적 이데아, 사회화라는 서로 충돌하는 목표들을 동시에 추구해야 하는 근본적인 불가능성을 안고 있다. 최승준은 Kieran Egan의 글에서 "교육의 불가능성이 내재되어 있다"는 학자들의 견해를 발견하고 안도했다고 밝혔다. AI로 인해 직업이 교란되는 지금이야말로 기존 교육 체계를 다시 세울 수 있는 기회이며, 이를 "재정초(주춧돌을 다시 세우다)"라고 표현했다. 붕괴 가능성에 hedging하면서 새로운 교육 모델을 모색할 타이밍이라는 것이다.

예언적 교육학의 문제: 확실성에 대한 오만

"예언적 교육학"은 정답이 정해진 커리큘럼을 프로그램화해서 학생에게 주입하는 방식이다. 내신 1등급, 수능 고득점, 상위권 대학 진학이라는 경로가 대표적인 예다. 이 방식은 미래를 예측하고 통제하려는 시도인데, 정작 그 미래가 어떻게 펼쳐질지 아무도 모르는 상황에서 지금의 best practice를 재생산할 이유가 있는가라는 질문이 제기된다. 최승준은 오늘의 뿌듯한 배움에 더 투자하는 것이, 불확실한 미래를 위해 지금을 희생하는 것보다 더 나은 hedging일 수 있다고 주장한다.

레지오 에밀리아 철학: 프로그램이 아닌 프로젝트

이탈리아 작은 마을 레지오 에밀리아의 유아교육에서 영감을 얻은 최승준은 "programmazione(프로그램)의 반대"인 교육을 실천한다. 초기에 세운 교육 계획이 실제 수업에서 달라지며, 배움은 예측 가능하고 단계적인 1차원 진행이 아니라 스파게티처럼 얽히고 굴곡 있게 펼쳐진다는 철학이다. 10개월 된 영아가 잡지의 시계 이미지를 보고 진짜 시계에서 소리가 날 거라 가설을 세우고 실험하는 사진이, 언어 발화 이전에도 가설과 실험이 가능하다는 증거로 제시된다. 교사는 테세우스의 미궁에서 실타래를 쥐여주는 아리아드네처럼 어린이의 탐구를 지원하고 기록하는 역할을 한다.

1997년부터 쌓아온 기록의 힘

최승준은 1997년부터 어린이들과 나눈 이야기, 그림, 시행착오를 모두 기록으로 남겼다. 2000년대 초 스웨덴 교육 개혁가 Harold Göthson이 방문해 "기록을 열심히 하는 건 알겠는데, 그 기록을 누가 읽냐?"고 물었을 때 응답이 궁색했다고 한다. 이후 Google Docs, Trello를 거쳐 이제는 Google Docs의 탭 기능을 활용해 기록하고, NotebookLM과 연동해 AI가 실시간으로 인사이트를 제공하는 구조로 진화했다. 기록은 교사가 어린이의 학습 경로를 파악하고, 다음 방향을 모색하는 핵심 도구다.

실제 교실에서 벌어지는 일들

5살 어린이들이 엘리베이터를 만들고 싶어 할 때, 선생님은 직접 해결해주지 않고 "왜 안 올라가지?"라고 묻는다. 어린이들은 시행착오 끝에 스스로 구조를 깨닫는다. 딱지치기에 '불 화(火)', '바람 풍(風)' 한자를 써야 더 강해진다는 아이디어에서 어린이들이 자발적으로 한자를 익힌다. 선생님이 Veo로 어린이 그림을 영상으로 변환하고, iMovie에서 순서를 재조합해 더빙하는 과정에서 모듈식 사고(computational thinking)를 자연스럽게 체득한다. 이 모든 과정에서 "궁리하는 시간"을 보호하는 것이 교사의 중요한 역할이다.

AI 시대의 유치원: 선생님들도 바이브 코딩한다

한미유치원은 DX(디지털 전환)가 이미 완성된 상태에서 AX(AI 전환)로 나아가고 있다. 선생님들이 Claude와 Gemini를 직접 사용해 교육 현장에 필요한 웹앱을 만들고 있다. 단 한 번의 강연으로는 변화가 일어나지 않았고, 선생님 개인의 프로젝트가 생겼을 때 그 맥락에서 직접 도와주는 방식으로 접근하니 자발적인 활용이 시작됐다. 최승준은 어린이에게 동기가 생겼을 때 교사가 지원하는 것처럼, 선생님에게도 같은 원리가 적용된다고 설명했다.

"왜 그렇게 빨리 배워야 되나, 왜 천천히 즐겁게 배울 수 있는데 허겁지겁 쫓기며 배워야 하나, 불안한 미래 때문에 오늘의 뿌듯한 배움을 왜 희생해야 하나."

최승준

"교육에 대한 어떤 초기 추측들이 실제 수업을 해보면 실제와 다르며 진행되면서 달라진다는 거죠. 사람과 하는 거니까요."

최승준

"미래는 이미 와 있다. 단지 고르게 퍼져 있지 않을 뿐이다."

윌리엄 깁슨 (최승준이 인용)

"알아낼 수 있는 것은 너무 알려주면 안 된다는 철학이 있어요. 알아낼 수 있게 지원을 해야지."

최승준

"결국 align이 되게 중요하죠. 조직의 가치와 구성원의 가치가 align되는 게 물론 어느 조직이나 그렇지만 여기서도 너무나 중요하고."

최승준

예언적 교육학 (Prophetic Pedagogy): 미래에 필요한 것을 미리 예측하고, 표준화된 커리큘럼을 통해 지식을 주입하는 교육 방식. 산업화 시대의 교육 모델로, 한국의 입시 중심 교육이 대표적인 예다.
레지오 에밀리아 (Reggio Emilia): 이탈리아 에밀리아-로마냐 지방의 도시 이름이자, 그곳에서 발전한 혁신적 유아교육 철학. "어린이의 100가지 언어"라는 개념으로 알려져 있으며, 어린이를 유능한 탐구자로 보고 교사가 지원하는 방식을 강조한다.
Programmazione vs Progettazione: 이탈리아어로 programmazione는 정해진 프로그램 실행, progettazione는 상호 조정 가능한 계획(project)을 뜻한다. 레지오 에밀리아는 전자가 아닌 후자를 실천한다.
아틀리에리스타 (Atelierista): 레지오 에밀리아 기관에 배치되는 예술가·전문가 직책. 교사가 아닌 외부 시각을 가진 전문가로, 어린이들의 창의적 탐구를 지원한다.
놀이 씨앗: 불확실한 탐색 과정에서 어린이와 교사가 함께 발견하는 "이것은 놀이가 될 수 있겠다"는 가능성의 순간. 한미유치원이 사용하는 표현이다.
Computational Thinking (컴퓨테이셔널 씽킹): 문제를 분해하고 모듈화하여 단계적으로 해결하는 사고 방식. 어린이들이 그림을 단위로 재조합해 영상을 만드는 과정에서 자연스럽게 체득한다.
Veo: Google의 AI 영상 생성 도구. 이미지나 텍스트 설명을 입력하면 짧은 영상을 생성해준다. 한미유치원에서는 어린이들의 그림을 움직이는 영상으로 변환하는 데 활용한다.
NotebookLM: Google의 AI 기반 노트 분석 도구. 문서를 소스로 추가하면 AI가 내용을 분석하고 인사이트를 제공한다. Google Docs와 연동해 문서가 업데이트되면 자동으로 동기화된다.
AX (AI Transformation): 조직의 업무 방식에 AI를 깊이 통합해 변환하는 것. 단순 도입(도구 사용)을 넘어 일하는 방식 자체를 바꾸는 수준의 변화를 말한다.
Hedging: 특정 미래에 전부 베팅하지 않고, 여러 가능성에 분산 대응하는 전략. 불확실한 교육 환경에서 미래를 위해 현재를 희생하기보다 다양한 가능성을 열어두는 방식이다.

레지오 에밀리아예언적 교육학탐구 기반 학습놀이기록한미유치원자기조직화바이브 코딩NotebookLMAI 교육programmazione재정초

35 최신 모델 리뷰 YouTube

Gemini 3와 Antigravity: 너무도 가파른 변화의 곡선

Gemini 3의 등장으로 AI scaling law가 여전히 유효함이 확인되었으며, 변화의 속도가 너무 빨라 엔지니어링 능력보다 문제를 정의하는 사업가적 관점이 더 중요해졌다는 것을 논한 에피소드.

Gemini 3 등장과 Scaling Law의 부활

2025년 11월 18일 공개된 Google의 Gemini 3는 "AI scaling law가 한계에 다다랐다"는 대중적 믿음을 정면으로 반박했다. Google DeepMind의 Oriol Vinyals는 Gemini 2.5에서 3.0으로의 도약이 지금까지 본 것 중 가장 크고, pre-training과 post-training 양쪽 모두를 개선했으며, 아직 한계가 보이지 않는다고 밝혔다. 특히 post-training 영역은 "완전한 그린필드(미개척지)"로 알고리즘적 진보의 여지가 엄청나게 남아 있다. Gemini 2.5와 3.0의 knowledge cutoff가 동일하게 2025년 1월인 점에서, 두 모델은 같은 데이터 vintage에서 나온 것으로 추정된다.

에너지가 새로운 AI 성능 지표가 되다

이제 AI 컴퓨팅을 GPU 개수나 FLOPS가 아닌 와트(전력)로 측정하는 시대가 됐다. 슈퍼컴퓨터 컨퍼런스에서도 GPU 개수 대신 와트 얘기가 주를 이룬다. 투입되는 총 컴퓨팅 양의 선행 지표가 전력량이기 때문이다. 와트가 병목이 되면 "와트당 토큰" 효율이 의사결정의 핵심 지표가 된다. 사전 학습의 scaling law가 유효하다면 일관된 FLOP이 중요하고, 그것이 Blackwell GPU든 TPU든 상관없다는 분석도 나왔다.

OpenAI의 불안감과 Shallotpeat 코드명

Gemini 3 발표 직후 OpenAI 내부에서 직원들에게 메모가 발송됐다는 소식이 전해졌다. Sam Altman은 "Shallotpeat"이라는 새로운 코드명을 언급했는데, 이탄 토양에서 잘 자라지 않는 샬럿(양파 품종)에 빗댄 것으로 해석됐다. 즉, pre-training의 데이터·방법론·인프라에 문제가 있었던 환경에서도 잘 자라는 새로운 접근법을 개발 중이라는 의미로 추정된다. 구글이 pre-training 단계에서 진보를 이룬 것에 대응하는 OpenAI의 액션이 이미 존재한다는 신호다.

6개월 후에는 이 모든 것이 평범해진다

노정석과 최승준은 DeepSeek이 OpenAI의 o1을 5개월 만에 논문으로 해설해준 전례를 들며, Gemini 3의 pre-training 혁신도 내년 봄 중국 랩에서 페이퍼로 설명될 것이라고 예측했다. 불과 3~4개월 만에 최신 기술이 보편화되는 속도를 감안하면, 지금 Gemini 3가 놀라운 것도 6개월 후에는 매우 싸고 평범해진 상황이 된다. 이 속도 감각을 유지하면서 지속적으로 unlearn-learn 사이클을 돌리는 것이 핵심이다.

Generative UI: 시각 영역이 verifiable해지다

Gemini 3는 SVG, 3D voxel 생성에서 뛰어난 능력을 보여준다. AI Studio에서 Visual Layout Labs가 활성화되어 웹사이트 온보딩 페이지, 랜딩 사이트 등을 5분 안에 만들어낸다. 기존에는 시각·디자인 영역이 non-verifiable하다고 여겨졌는데, Google이 인간이 공들여 만든 고품질 결과물로부터 보상 신호를 만들어 학습시키는 방식으로 이 영역도 verifiable하게 만들어냈다. 최승준은 HWP 파일을 Gemini 3에 넣자 읽고 포맷팅해준 것을 언급하며, 한국 정부와 교육 데이터도 이제 AI로 들어오는 시대가 됐다고 지적했다.

Harness를 걷어내고 모델에게 자유를 주는 시대

불과 2~3개월 전만 해도 Claude Code의 harness를 두껍게 만들어 모델이 더 오래 일하고 더 좋은 산출물을 내도록 하는 것이 화두였다. 그런데 Antigravity와 같은 새로운 도구들이 등장하면서, 그 harness들이 모델의 capability overhang으로 흡수되어버렸다. 관료적으로 모델을 제약하는 것보다 최소한의 가드레일만 치고 모델에게 맡기는 것이 오히려 산출물의 품질이 더 좋아지는 세상으로 빠르게 가고 있다. Noam Brown이 올봄에 했던 말이 현실이 되고 있다.

200년의 변화가 2년에 압축되다

농업 혁명과 산업 혁명으로 전체 인구의 90% 이상이 종사하던 농업이 2~3%로 축소되는 데 200년이 걸렸다. 하지만 AI는 그 변화를 2년 안에 압축할 수 있다. 이번에 차이가 있다면, AI가 대체하는 것이 육체노동이 아니라 인간의 가장 고유한 능력인 인지 능력(cognitive intelligence)이라는 점이다. 노정석은 "앞으로 20개월을 20년의 강도로 살아야 한다"고 표현했다. 농업 혁명이 결국 인류 전체에 풍요를 가져온 것처럼, 이 변화도 새로운 풍요를 만들겠지만 그 과정에서 한 세대의 고통은 피하기 어렵다.

"2.5에서 3.0 사이의 델타, 그 차이는 지금까지 본 것 중에 가장 크다. 아직 한계가 보이지 않는다."

Oriol Vinyals (최승준이 인용)

"그 시절도 불과 3~4개월 만에 끝나는 거거든요."

노정석

"200년 동안 일어난 일이 앞으로 2년 동안 일어날 거라고 보는 게 어쩌면 맞고."

노정석

"와트가 병목일 때, 와트당 토큰이 의사결정을 주도할 것이다."

Gavin Baker (최승준이 인용)

"요즘 너무 머리를 많이 써야 돼요. 계속 읽고, 계속 뭔가 수행시키고, managing하고 해야 되니까 피곤합니다, 진짜."

최승준

"AI는 냉장고다. 거기에서 맛있는 음식이 만들어지고 진짜 되는 것들은 아직 나오지 않았다."

Chamath Palihapitiya (노정석이 인용)

Scaling Law: AI 모델의 성능이 데이터 양, 컴퓨팅, 파라미터 수 증가에 따라 예측 가능하게 향상된다는 법칙. 한계에 다다랐다는 주장이 있었으나 Gemini 3로 여전히 유효함이 재확인됐다.
Pre-training vs Post-training: Pre-training은 대규모 텍스트 데이터로 모델을 초기 학습하는 단계이고, Post-training은 인간 피드백이나 강화학습으로 모델 행동을 조정하는 단계다. Gemini 3는 두 단계 모두에서 개선을 이뤘다.
Vintage (빈티지): 와인의 수확 연도처럼, AI 모델을 학습시킨 데이터셋이 언제 수집됐는지를 나타내는 개념. 같은 knowledge cutoff를 공유하는 모델들은 같은 vintage의 데이터에서 나온 것으로 볼 수 있다.
Knowledge Cutoff: 모델이 학습할 때 포함된 정보의 마지막 날짜. 이 날짜 이후의 사건이나 정보는 모델이 알지 못한다.
Antigravity: Google의 AI 코딩 에이전트 도구. Claude Code보다 더 강한 에이전트성을 가지며, 터미널 없이 웹 UI에서 파일 편집과 배치 작업이 가능하다.
METR 시간 지평: 모델이 해결할 수 있는 작업의 복잡도를 "인간이 그 작업을 완료하는 데 걸리는 시간"으로 측정하는 지표. 시간이 지날수록 이 지평이 연장되고 있다.
Harness: AI 모델을 제어하고 확장하기 위해 외부에서 덧붙이는 소프트웨어 구조물. 프롬프트 파이프라인, 에이전트 프레임워크 등이 포함되며, 모델 발전과 함께 이 harness 역할이 모델 자체로 흡수되는 추세다.
Generative UI: 텍스트 프롬프트만으로 사용자 인터페이스(웹페이지, 그래픽 등)를 자동 생성하는 기술. Gemini 3는 SVG와 3D voxel 생성에서 특히 뛰어난 성능을 보인다.
Verifiable/Non-verifiable Domain: 수학·코딩처럼 정답 검증이 명확한 영역(verifiable)과 디자인·창작처럼 정답이 모호한 영역(non-verifiable). Gemini 3는 non-verifiable 영역도 학습할 수 있는 방법을 개발했다.
Vibe Check: 벤치마크 수치 대신 실제로 모델을 직접 사용해보며 성능과 특성을 감각적으로 파악하는 행위. Andrej Karpathy가 강조한 모델 평가 방식이다.
Capability Overhang: 프런티어 랩이 개발한 AI 능력 중 아직 활용되지 않은 잉여 역량. 새 모델이 나올 때마다 기존 harness들의 기능이 이 overhang에 흡수되어버리는 현상이 반복된다.

Gemini 3AntigravityScaling Lawpre-trainingpost-training와트 경제Generative UIShallotpeatKnowledge CutoffvintageharnessMETRHWPunlearn-learn

36 AI 기술 딥다이브 YouTube

Ilya Sutskever의 설명

Ilya Sutskever의 "pre-training 시대의 종말" 발언을 계기로, 스케일링 법칙의 한계와 연구적 돌파구의 필요성, 그리고 AGI 탄생을 위한 철학적 조건인 스케일과 Strange Loop를 깊이 탐구한 에피소드.

Ilya Sutskever 발언과 시장 파장

OpenAI 공동창업자 출신 Ilya Sutskever가 Dwarkesh Patel 팟캐스트에서 "현재의 pre-training은 벽에 도달했고, 연구의 시대가 다시 도래했다"고 발언하면서 AI 커뮤니티가 들끓었다. 이 발언이 파급력이 컸던 이유는 스케일링 문제가 단순한 학술 논쟁을 넘어 데이터센터 투자, 국가 안보, 주식 시장(NVIDIA 주가 출렁, Google 주가 상승)까지 영향을 미치는 사안이 되었기 때문이다. Ilya는 이후 트위터를 통해 "스케일링이 멈춘다는 게 아니라 추가적인 연구적 돌파구가 필요하다는 뜻"임을 보완 설명했다.

스케일링과 연구, 실제로 상충하는가

Noam Brown은 회의론자와 광신도 사이에서 연구자들의 실제 견해는 많은 부분이 수렴한다고 정리했다. 현재 패러다임만으로도 막대한 경제·사회적 임팩트를 내기에 충분하지만, AGI·ASI로 가려면 지속 학습이나 샘플 효율 같은 추가 돌파구가 필요하다. AGI 도달 시점 예측은 Hassabis(5~10년), Amodei(2년), Ilya(5~20년) 등 다양하지만, 100년이 걸린다는 사람은 아무도 없다. 핵심은 스케일링과 새로운 연구가 상충하는 것이 아니라 함께 필요하다는 것이다.

RL 스케일링의 한계: 벤치마크와 실사용의 간극

김성현은 모델이 어처구니없는 실수를 반복하는 이유를 RL 스케일링의 환경 설계 문제에서 찾는다. RL 학습은 평가 환경을 필요로 하는데, 그 환경이 실제 사용 맥락과 얼마나 일치하는지가 핵심이다. 벤치마크를 목표로 학습하면 벤치마크는 잘 풀지만 실제 작업에서 실수하는 "bench-maxxing" 현상이 발생한다. Sutskever가 말한 "1만 시간 공부한 학생과 100시간 감각 있는 학생"의 비유는 모델의 일반화 능력 부재를 지적한 것이다. 딥러닝 전체 관점에서 일반화 문제는 진전이 거의 없는 가장 어려운 과제 중 하나다.

감정이 가치 함수다: Sutskever의 철학적 통찰

Sutskever는 "감정이 가치 함수(value function)다"라는 독특한 주장을 했다. 완전히 이성적인 인간은 오히려 의사결정을 못 한다는 신경과학적 사례를 인용하며, 감정이 불확실한 상황에서 도약을 가능하게 한다고 설명했다. 김성현은 이를 RL의 관점에서 해석하면, 가치 함수가 샘플 효율적으로 학습을 빠르게 만들어주는 효과가 있으며 Sutskever가 강조하는 것은 그보다 더 근본적인 문제—비효율적으로 해도 도달할 수 없는 어떤 영역—라고 분석했다. LLM에 현재 부재한 내적 동기나 사회적 욕구가 인간을 실행 가능한 에이전트로 만드는 핵심일 수 있다.

AGI 탄생의 두 조건: 스케일과 Strange Loop

노정석은 더글러스 호프스태터의 "괴델, 에셔, 바흐(GEB)"를 인용하며 AGI 탄생에 필요한 두 가지 조건을 제시했다. 첫째는 충분한 스케일이고, 둘째는 Strange Loop—입력과 출력이 얽혀 재귀적으로 돌아가는 구조다. 소프트웨어가 결정을 내리면 그로 인해 하드웨어(뉴런 연결)가 바뀌고, 다시 소프트웨어에 영향을 미치는 이 고리 안에서 "나는 누구인가"라는 개념이 창발한다는 것이다. 이 Strange Loop는 continual learning 개념과 맞닿아 있으며, 하나의 Transformer 회로 안에서 구현될 필요는 없다. 스케일 조건은 이미 거의 충족된 것으로 보이고, 루프 조건이 남은 관건이다.

초지능으로의 경로와 취향의 가치

Sutskever는 특정 도메인에만 특화된 들쭉날쭉한 AGI가 아니라, 모든 문제를 해결할 수 있는 잠재력을 가진 "씨앗" 같은 존재를 목표로 한다. 에피소드 마지막에 그가 강조한 키워드는 "취향(taste)"이었다. 연구자들도 입을 모아 좋은 취향이 있어야 한다고 말하는데, 이는 연구 결과가 나오기 전에 어떤 방향으로 나아가야 하는지를 직관적으로 아는 능력이다. 노정석은 이를 "양에서 질로의 전환"으로 해석했고, 김성현은 수학에서 아름다움을 논하듯 머신러닝 연구에서도 미학적 감각이 중요하다고 공감했다.

"스케일링이라는 화두가 되면서 결국은 투자 금액이 커지다가 이것은 정부 보증이 있어야 한다는 수준까지 나아가고 있다. 그렇기 때문에 이게 더 들끓는 것 같습니다."

김성현

"감정이 있다면 불확실성 속에서 도약을 할 때 이성과는 완전히 별개의 영역에서 작용해서 도움이 될 수 있죠."

김성현

"충분히 스케일이 커지면 그 아래의 기저가 무엇이 되었든 간에 다음 것이 떠오른다는 얘기를 했던 거고, 스케일만으로는 부족해요. 두 번째가 Strange Loop, 이상한 고리라고 불리는 그런 존재거든요."

노정석

"취향이라는 게 참 재미있는 문제이기는 하죠. 연구를 하기 전에, 그 연구의 결과가 나오기 전에 그 방향으로 나아가야 된다는 걸 아는 능력이겠죠."

김성현

"저는 지금 우리가 쓰고 있는 트랜스포머는 우리가 입력하는 순간만 autoregressive하게 도는 거고, 그 루프가 저는 보상 함수든 뭐든 얘가 스스로 해결하는 시작점이 되지 않을까라고 상상하고 있어요."

노정석

pre-training: AI 모델을 처음 만들 때 대규모 데이터로 기초 지식을 학습시키는 단계. 인터넷 텍스트 전체를 읽혀서 언어와 지식의 기반을 만드는 과정이다.
스케일링 법칙(Scaling Law): 모델 크기, 데이터, 연산량을 늘릴수록 성능이 예측 가능하게 향상된다는 경험적 법칙. AI 발전의 주요 원동력이었다.
RL (Reinforcement Learning, 강화학습): 모델이 환경과 상호작용하며 보상을 받아 스스로 학습하는 방법. o1 같은 추론 모델 학습에 핵심적으로 사용된다.
continual learning (지속 학습): 모델이 배포된 이후에도 새로운 경험을 통해 계속 학습하고 발전하는 능력. 현재 LLM은 학습 후 가중치가 고정된다.
Strange Loop: 호프스태터가 제안한 개념으로, 시스템의 상위 레이어와 하위 레이어가 서로를 참조하며 재귀적으로 얽히는 구조. 의식(자아)이 이 구조에서 창발한다고 본다.
가치 함수(Value Function): 강화학습에서 현재 상태가 미래에 얼마나 큰 보상으로 이어질지를 추정하는 함수. Sutskever는 인간의 감정이 이 역할을 한다고 주장했다.
bench-maxxing: 벤치마크 점수를 높이는 데만 집중해 학습시키는 현상. 시험 점수는 높지만 실제 사용 환경에서 약점이 드러날 수 있다.
inductive bias: 모델이 새로운 데이터를 볼 때 어떤 예측을 할지 결정하는 선천적 편향. 일반화 능력과 밀접하게 연관된다.
SSI (Safe Superintelligence): Ilya Sutskever가 OpenAI를 떠난 뒤 설립한 회사. 수익보다 연구에 집중하며 안전한 초지능 개발을 목표로 한다.
post-training: pre-training 이후 모델을 사람의 지시에 따르도록, 또는 특정 작업을 잘하도록 추가 학습시키는 단계. RLHF, RLVR 등이 여기에 해당한다.

Ilya Sutskeverpre-training스케일링 법칙RLcontinual learningStrange Loop가치 함수일반화AGIDwarkesh PatelGEB취향bench-maxxingpost-trainingSSI

37 최신 모델 리뷰 YouTube

AI Frontier 도망자 연합 회고 & GPT 5.2

GPT-5.2의 충격적인 성능 도약으로 인간 직업 자동화가 현실화되는 가운데, AI 시대의 변화를 함께 탐색하는 "도망자 연합" 첫 모임의 성과와 과제를 돌아보고, continual learning과 AGI 임박에 대한 다양한 시각을 나눈 에피소드.

GPT-5.2의 충격적 성능 도약

GPT-5.1에서 39점이던 GDPVal(인간 직업군 능력 평가 벤치마크)이 GPT-5.2에서 70점으로 급상승했다. 이 벤치마크는 44개 직업군, 약 1,300~1,500개 과제로 구성된 OpenAI 제작 평가 도구다. 비용은 인간 대비 1% 수준이고 처리 속도는 11배 빠르다. METR의 추정에 따르면 Gemini 3 Pro가 50% 인간 수행 수준에서 4시간을 달성했으며, 이 추이대로라면 내년 이맘때 인간의 하루 8시간 업무를 수행할 것으로 전망된다. 노정석은 "벤치마크를 verifiable하게 만들 수만 있다면 모델이 끝낼 수 있다는 게 이제 저희가 일반화해서 가지고 있는 새로운 규칙"이라고 요약했다.

시간 압축의 가속화: 2주가 1년 같은 시대

"한 달이 1년 같다"던 표현을 이제는 "2주가 1년 같다"로 바꿔야 할 상황이다. OpenAI와 Google이 연말에 서로 견제하며 릴리스를 쏟아내고, Sam Altman이 "다음 주에도 뭔가 내놓겠다"고 예고하는 등 발표 밀도가 연말에 집중되고 있다. 노정석은 모델 토큰 가격 추적을 그만뒀다고 밝혔는데, 이는 결국 원가(전기세 + 감가상각)까지 수렴하는 치킨 게임이므로 추적의 의미가 없어졌기 때문이다. 인간의 가치라고 생각했던 부분들이 매우 짧은 시간 안에 변화하는 속도를 겪고 있다는 것이 핵심이다.

도망자 연합 첫 모임의 탄생과 현장

AI 시대의 변화에 외롭고 불안하게 대응하는 사람들이 함께 모이자는 취지로 "도망자 연합"을 결성, 목요일 저녁 첫 동기화 모임을 개최했다. 140여 명이 참여했고, 45분씩 3라운드의 소집단 세션을 진행했다. 세션은 미리 계획된 주제와 자료를 가지고 심도 있게 진행되었으며, 참여자들이 자기 조직화하면서 "생성형 컨퍼런스"라는 이름이 붙었다. 공식 일정 9시 이후에도 대부분 인원이 남을 만큼 열기가 뜨거웠고, 문제 보유자(AI로 풀고 싶은 문제가 있는 사람)와 문제 해결자 간의 연결이 자연스럽게 이루어졌다.

도망자 연합 회고: 남은 과제들

행사 이후 Discord에서 회고가 진행되었다. 최승준이 꼽은 주요 과제는 세 가지다. 첫째, 문제 해결자의 인센티브 문제—왜 자신의 역량을 나눠야 하는지에 대한 솔직한 질문이 제기됐다. 둘째, 문제 보유자가 사실 문제 해결도 직접 하고 있다는 점—"Right questions are all we need"라는 말처럼 좋은 질문을 하면 AI가 해법을 만들어주므로 문제 보유와 해결이 통합되는 경향이 있다. 셋째, 개인 정보 공개의 딜레마—서로를 알아야 연결되지만 공개하면 정보가 과다 노출된다. 노정석은 "우리가 모두 창업가로 내몰리는 세상이 금방 시작될 것 같다"고 전망했다.

AI와 인간의 관계: 말(Horse)의 비유와 continual learning

Anthropic의 Andy Jones가 쓴 블로그 포스트 "말(Horses)"이 주목을 받았다. 말이 자동차의 등장으로 서서히 사라졌듯이, 자신의 사내 지식 공유 역할이 Claude에 의해 기하급수적으로 줄어들고 있다는 내용이다. 최승준은 Shane Legg와 Ilya Sutskever 모두 인터뷰에서 continual learning을 언급하기 시작했다는 점에 주목했다. 빅테크가 공개 인터뷰에서 이 주제를 꺼낸다는 것은 어느 정도 진척이 있다는 신호일 수 있다. Andrej Karpathy가 언급한 것처럼, 10억~20억 파라미터짜리 "cognitive core"를 개인 기기에 다운로드해 키울 수 있는 시대가 새로운 형태의 소셜 서비스로 이어질 수 있다는 상상도 나왔다.

AGI 임박론의 톤 변화와 준비의 어려움

Shane Legg가 "3년 내 50% 이상 확률로 AGI가 온다"고 언급하는 등, 이제 AGI 논쟁의 초점이 "되느냐"에서 "언제냐"로 완전히 이동했다. 전문가들이 오히려 AI를 과소평가하는 경향이 있는 반면 일반 대중은 "이게 superintelligence 아니면 뭐냐"고 반문하는 역전 현상도 나타나고 있다. 노정석은 AGI가 나오느냐는 질문에 이제 그냥 "네"하고 뒤돌아선다고 밝히며, 그 논의 자체가 무의미해졌다고 말했다. 한편 continual learning이 가능한 모델이 1억 개 회사에 동시에 배포된다면, 그 경험이 압축·증폭되는 "지능 폭발" 시나리오에 대한 우려도 제기되었다.

"한 달이 1년 같다라는 이야기를 하는데 이제는 그 단위를 2주로 줄여야 되려나 봐요. 2주가 1년 같은, 그런 변화들이 막 나오고 있습니다."

노정석

"벤치마크를 만들면 된다. 약간 이게 뒤바뀌어 있긴 한데 그런 느낌적인 느낌이에요."

최승준

"모두가 창업가로 내몰리는 세상이 금방 시작될 것 같아요. 도대체 누가 공급자이고 누가 소비자인지 모를 정도로 이렇게 왁자지껄한 포럼 형태가 되는 게 또 새로운 시장의 양상이지 않을까 싶어요."

노정석

"Right questions are all we need. 옳은 질문을 하면 해법은 그냥 AI가 바로 만들어 준다는 얘기. 결국은 문제 보유 = 해결이거든요."

노정석

"AGI는 당연히 온다. 그런 논의가 지금 무의미해요. 이제는 그냥 배경의 속도와 같이 뛰어야 되는 시기인 것 같아요."

노정석

GDPVal: OpenAI가 개발한 벤치마크로, 44개 직업군의 실질적 과제를 통해 AI가 인간 업무를 얼마나 잘 수행하는지 측정하는 지표. GPT-5.1에서 39점, GPT-5.2에서 70점을 기록했다.
METR: AI 모델의 자율 작업 수행 능력(시간 지평)을 측정하는 기관. 인간이 일정 시간 동안 처리하는 작업을 AI가 50% 확률로 완료하는 수준을 측정한다.
시간 지평(Time Horizon): METR에서 사용하는 개념으로, AI가 인간의 몇 시간 분량 업무를 독립적으로 수행할 수 있는지를 나타내는 지표.
continual learning (지속 학습): 학습이 완료된 이후에도 모델이 새로운 경험을 통해 가중치를 계속 업데이트하며 발전하는 능력. 현재 LLM은 배포 후 가중치가 고정된다.
cognitive core: Andrej Karpathy가 제안한 개념으로, 개인 기기에 탑재 가능한 소형 언어 모델을 의미. 개인이 직접 키우고 상호작용하며 개인화하는 AI를 상정한다.
AGI (Artificial General Intelligence, 범용 인공지능): 특정 분야가 아닌 인간과 같이 다양한 영역에서 유연하게 문제를 해결하는 AI. 정의와 달성 시점에 대한 논쟁이 활발하다.
도망자 연합: 노정석과 최승준이 AI 시대의 변화를 함께 탐색하기 위해 만든 커뮤니티. frontier 모델이 기존 역할을 대체하는 상황에서 새로운 방향을 찾아 "도망"하는 사람들의 모임이다.
생성형 컨퍼런스: 사전에 계획된 발표가 아니라 참여자들이 자기 조직화해 세션을 채우는 방식의 행사. 이번 도망자 연합 모임에서 자연스럽게 발생한 형태다.
문제 보유자 / 문제 해결자: 도망자 연합에서 사용한 분류. 풀고 싶은 현실 문제를 가진 사람과 AI 역량으로 그 문제를 해결해줄 수 있는 사람을 구분하는 개념이나, 실제로는 경계가 흐려지는 경향이 있다.
치킨 게임(Chicken Game): 두 경쟁자가 파국을 피하기 위해 서로 물러서지 않는 상황. AI 기업들의 모델 가격 인하 경쟁을 묘사하는 표현으로 쓰였다.

GPT-5.2GDPValMETR도망자 연합생성형 컨퍼런스continual learningAGIShane LeggAndy Jones말 비유cognitive core문제 보유자문제 해결자지능 폭발시간 지평

38 AI 실전 활용 YouTube

2026년은 과학의 해가 될까? AI와 과학

2025년이 코딩의 해였다면 2026년은 AI가 수학·과학 영역을 본격 개척하는 해가 될 것이며, 미국 정부의 Genesis Mission과 Google DeepMind Demis Hassabis의 인터뷰를 통해 AI와 과학의 결합이 국가 수준의 프로젝트로 격상됐음을 짚은 에피소드.

2025년 코딩에서 2026년 과학으로

2025년의 가장 큰 사건은 Claude Code 출시로 시작된 코딩의 해였다. 2026년은 코딩은 이미 끝난 일이고, AI에 의해 과학이 정복되는 한 해가 될 것이라는 전망이 쏟아지고 있다. GPT-5.2가 수학 이론 문제를 해결하고, 생물학 실험 속도를 79배 높이고, 로봇 시스템이 실험실에서 인간보다 2.5배 빠르게 실험을 수행하는 사례들이 불과 10여 일 사이에 연이어 발표됐다. 최승준은 "올해 코딩 뉴스까지는 내가 좀 따라갈 수 있었는데, 2026년의 과학 뉴스는 읽어도 잘 모르겠다"는 솔직한 감상을 전했다.

AI와 수학: Terence Tao와 Erdős 문제 해결

저명한 수학자 Terence Tao가 블로그에 공개한 내용이 큰 주목을 받았다. 1975년 Erdős가 제안한 미해결 수학 문제를 풀기 위해 온라인 협업이 이루어졌는데, 연구자들이 AlphaEvolve(Google DeepMind)를 활용해 힌트를 얻고, deep research로 문헌을 검색하고, Lean 같은 자동 정리 증명 도구로 검증하는 다층적 인간-AI 협업이 이루어졌다. 또한 COLT(Conference on Learning Theory)에서 공개한 문제를 GPT-5.2 Pro가 해결한 사례도 나왔다. 수학자 Sébastien Bubeck의 타임라인에는 GPT-5를 지렛대로 삼아 자신의 미해결 문제를 해결했다는 소식들이 계속 올라오고 있다. 결론은 "협업이 가능한 상태다."

실험실 로봇과 wet lab의 자동화

AI와 과학의 결합은 이론 증명에 그치지 않는다. 분자 클로닝 프로토콜의 효율을 79배 높이는 데 GPT-5가 활용됐고, 로봇 시스템이 실험실 실험을 인간보다 2.5배 빠른 속도로, 유사한 성능으로 수행하는 사례가 발표됐다. 노정석은 "wet lab(실제 물과 비커가 있는 실험실)이 AI 발전의 완전한 병목이었는데, 후보 물질을 논리로 가려내고 최종 검증만 실험으로 하면 그 실험도 로봇으로 자동화되고 있다"고 분석했다. Google DeepMind의 Gemini와 결합된 팔 로봇, 휴머노이드 로봇들이 실험실 투입용으로 소개되고 있다.

미국의 Genesis Mission: AI를 국가 과학 프로젝트로

백악관이 "Genesis Mission"을 발표하며 Google DeepMind, Anthropic, OpenAI 모두 참여를 선언했다. AlphaEvolve, AlphaGenome, WeatherNext 같은 도구들을 미국 과학자들에게 개방하고, 에너지·질병·안보 분야의 과제를 AI로 해결하겠다는 범정부적 프로젝트다. 노정석은 이를 맨해튼 프로젝트에 비유하며 "중국과 미국 사이에 누가 더 초지능에 먼저 도달하느냐가 안보에 직결된다"고 설명했다. Anthropic이 물리학자 출신 공동창업자를 가장 많이 보유하고 있다는 점도 주목할 만한 맥락이다.

Demis Hassabis 인터뷰: AGI는 확실히 온다

Google DeepMind 공동창업자 Demis Hassabis가 Hannah Fry와의 인터뷰에서 이례적으로 급진적 발언을 쏟아냈다. 원래 신중한 입장을 견지했던 그가 이제 "현재 AI는 50% 정도만 온 것 같다"며 자명한 문제들이 있지만 못 풀 문제는 아닐 것이라고 했다. continual learning(온라인 학습)이 현재 빠져 있지만 행간에서 다루고 있다고 언급했고, 핵융합 등 에너지 문제가 풀리면 AI와 결합해 희소성 이후의 세계가 펼쳐질 것이라는 상상도 했다. AI 버블에 대해서는 "일부는 버블이 있지만 Google DeepMind는 TPU와 연구 기반이 있어 터지더라도 안전하다"고 밝혔다. 산업혁명보다 10배 크고 10배 빠르게—한 세기가 아닌 10년 안에—일어날 것이라고 전망했다.

스케일링은 계속된다: 데이터 품질과 합성 데이터

Hassabis는 "scaling 안 된다고 한 적 없다"며 합성 데이터와 bootstrapping을 통해 스케일링이 계속될 것이라고 강조했다. 코딩이나 수학처럼 답을 검증할 수 있는 도메인에서는 무제한 데이터 생산이 가능하다. 노정석은 frontier 모델 학습에 사용되는 토큰이 27조 개에 달하지만 고품질 데이터는 아직 5,000억 수준으로 계속 정제되고 있다고 설명했다. Genie(환경 생성)와 SIMA(환경 탐색 에이전트)를 연결해 무한한 시뮬레이션 공간에서 문제를 탐색하는 접근법도 Demis가 오래된 게임 개발자 배경에서 가져온 비전이다.

"인간의 역할은 수학적 발판을 제공하는 것이 아니라 검증과 명확한 글쓰기에 집중하는 데 머물렀다."

최승준 (GPT-5.2 수학 증명 사례 소개 중)

"2026년의 과학 뉴스는 읽어도 잘 모르겠다라는 뭐 그런 약간 느낌적인 느낌을 받고 있습니다."

최승준

"Manhattan Project예요. 이게 중국과 미국 사이에 누가 더 초지능에 먼저 도달하느냐, 이 부분이 안보에 직결되는 내용이다 보니까 이제 국가 단위의 프로젝트까지 결성됐고."

노정석

"산업혁명보다 10배 크고 10배 더 빨리 일어날 거다. 한 세기가 아니라 약 10년에 걸쳐 펼쳐질 거다."

Demis Hassabis (최승준 인용)

"그때는 세대를 걸쳐 일어났기 때문에 부모가 실업자가 되면 아이들은 새 직업이 있는 세상에서 살 수 있었는데, 지금은 부모와 아이가 동시에 실업자가 되는 세상이라는 얘기거든요."

노정석

wet lab: 실제 시약, 비커, 원심분리기 등을 사용해 물리·화학·생물 실험을 수행하는 전통적 실험실. AI 연구의 병목 중 하나로 지목됐으나 로봇 자동화로 돌파구가 열리고 있다.
AlphaEvolve: Google DeepMind가 개발한 AI 도구로, 수학 및 과학 문제 탐색에 활용된다. Terence Tao 같은 저명한 수학자들이 미해결 문제에 활용하고 있다.
Genesis Mission: 2025년 미국 백악관이 발표한 범정부 AI-과학 프로젝트. Google DeepMind, Anthropic, OpenAI가 참여하며, 미국 과학자들에게 첨단 AI 도구를 개방하는 것을 목표로 한다.
Lean: 수학적 증명을 형식 언어로 표현하고 자동으로 검증하는 도구. AI가 생성한 증명의 정확성을 기계적으로 확인하는 데 사용된다.
COLT (Conference on Learning Theory): 머신러닝 이론 분야의 권위 있는 학술 회의. GPT-5.2가 여기서 제시된 미해결 문제를 해결한 사례가 발표됐다.
continual learning (온라인 학습): 모델이 배포된 이후에도 새로운 경험을 통해 가중치를 계속 업데이트하는 학습 방식. Demis Hassabis와 Shane Legg 모두 현재 연구 중이라고 언급했다.
Genie / SIMA: Google DeepMind의 프로젝트. Genie는 게임 환경을 실시간으로 생성하고, SIMA는 그 환경 안에서 탐색하는 에이전트다. 두 시스템을 연결하면 무한한 시뮬레이션 공간에서 학습이 가능하다.
합성 데이터 (Synthetic Data): AI가 직접 생성한 학습 데이터. 코딩이나 수학처럼 정답 검증이 가능한 분야에서는 무제한으로 생산할 수 있어 데이터 고갈 문제를 우회한다.
bootstrapping: 시스템이 충분히 좋아지면 자체적으로 더 많은 학습 데이터를 생성할 수 있게 되는 자기 강화 순환. 스케일링이 계속될 수 있는 이유 중 하나다.
verifiable reward: 결과가 맞는지 틀린지를 자동으로 검증할 수 있는 보상 신호. 코딩의 unit test, 수학의 증명 검증 등이 대표적이며, 이 개념이 과학 영역으로 확장되고 있다.

AI와 과학2026년 전망Genesis MissionTerence TaoAlphaEvolvewet lab로봇 실험실Demis Hassabiscontinual learning스케일링합성 데이터GenieSIMA핵융합산업혁명

39 AI 기술 딥다이브 YouTube

DeepSeek이 바꿔버린 모든 것: MoE와 RLVR, 2025년 AI 회고

2025년 AI의 가장 큰 변화는 DeepSeek이 촉발한 MoE 아키텍처의 보편화와 RLVR 학습법의 확산이었으며, 이 두 혁신이 에이전트 시대의 기반을 놓았다는 2025년 회고 에피소드.

2025년 가장 큰 변화: 중국 기업들의 프런티어 모델 러시

2025년 AI 씬의 가장 두드러진 변화는 DeepSeek, MiniMax, Z.ai, 샤오미, 텐센트, Moonshot, Ant, Alibaba, Meituan 등 중국 기업들이 프런티어급 오픈 모델을 속속 공개했다는 것이다. 2024년까지 오픈 모델은 대부분 70B 규모의 효율적인 소형 모델이 한계였지만, 2025년에는 거의 대부분이 프런티어 또는 준 프런티어 수준을 노렸다. 중국은 연산 자원이 제한되어 있음에도 불구하고 이 전환이 가능했던 것은 DeepSeek이 제한된 자원으로도 프런티어를 달성할 수 있음을 증명했기 때문이다. 미국 외에서 인상적인 프런티어 오픈 모델이 나온 사례는 사실상 없었다.

MoE: 2025년 아키텍처 혁신 1위

MoE(Mixture of Experts)는 2025년 가장 중요한 아키텍처 혁신이다. 동일한 학습 연산량(10의 24승)에서 MoE 모델의 성능이 dense 모델 대비 7배 이상 우수하며, 학습 연산량이 증가할수록 이 배수가 더욱 커지는 매우 드문 특성을 보인다. 핵심 개념은 희소성(sparsity)이다. 수백 개의 전문가 모듈이 있지만 각 토큰 예측 시 일부 모듈만 활성화하므로, 전체 파라미터는 거대하지만 실제 연산은 제한된다. 매번 경우에 따라 다른 모듈을 사용하기 때문에 실제 전체 파라미터가 증폭되는 효과가 있다. DeepSeek이 MoE의 최적화된 레시피를 정립하자 Moonshot의 Kimi, Mistral 등이 이 아키텍처를 그대로 채택했다. 2024년까지 MoE는 드물었지만 2025년에는 엣지 디바이스를 제외한 거의 모든 주요 모델이 MoE가 됐다.

RLVR: 에이전트를 위한 포스트트레이닝 패러다임

RLVR(Reinforcement Learning with Verifiable Rewards)은 2025년 두 번째 핵심 혁신이다. DeepSeek-R1 논문과 함께 공개된 이 방법론은 o1의 작동 원리에 대한 강력한 단서를 제공했다. 핵심 아이디어는 간단하다: 검증 가능한 방식으로 정답을 사용해 보상을 주면 추론이 학습된다. 모델이 도구를 어떻게 사용하는지 과정은 신경 쓰지 않고 최종 결과물만 평가한다. 예컨대 코딩 에이전트라면 코드가 unit test를 통과하면 보상을 주는 방식이다. 최승준이 정리한 것처럼 "RLHF가 챗봇을 만들기 위한 post-training이었다면, RLVR은 에이전트를 만들기 위한 post-training"이다. 지금 나오는 코딩 에이전트를 비롯한 모든 에이전트는 이 에이전트 포스트트레이닝의 결과물이다.

RL에 대한 이해의 심화: 원자적 능력과 조합 능력

2025년 한 해 동안 RL이 LLM에서 정확히 무엇을 하는지에 대한 이해가 크게 발전했다. 현재 연구자들의 컨센서스는 이렇다. pre-training에서는 사칙연산 같은 원자적 능력(atomic skill)을 배우고, RL(post-training)에서는 이 기본 능력들을 문제에 맞게 순서대로 조합하는 능력을 배운다. 고등학교 수학에 비유하면 교과서 유제를 통해 기본 기술을 배우고, 연습 문제 30개를 풀면서 조합 능력을 기르는 것과 같다. 중요한 함의는 RL이 단순히 기존 능력을 꺼내는 것이 아니라 새로운 조합 능력을 창발시킬 수 있다는 점이다. 이 이해를 바탕으로 mid-training 단계에서 에이전트에 필요한 원자적 능력을 집중적으로 주입하고, 그 위에서 RL로 조합 능력을 학습시키는 사고의 전환이 이미 일어나고 있다.

RL 인프라의 발전

2025년 또 하나의 중요한 축은 RL 인프라의 발전이었다. LLM RL은 세 가지 이질적인 인프라가 동시에 돌아가야 한다: 학습 인프라, 샘플링(생성) 엔진, 환경 상호작용 인프라. 각각만 해도 극도로 어렵지만 이 세 인프라가 빠르고 정확하게 연결되어야 하며, 약간의 오차도 학습을 저해한다는 연구들이 쏟아졌다. MoE가 주류가 되면서 MoE 모델의 안정적인 RL 학습이라는 새로운 과제도 생겼다. 김성현은 이 분야에서 중국 쪽이 달라붙어 굉장히 빠르게 발전시켰다고 평가했다.

드러나지 않는 경쟁력: 데이터와 암묵지

페이퍼에 쓰이지 않는 암묵지가 이 분야의 진짜 경쟁력이다. 특히 post-training용 데이터를 어떻게 만드는가—어떤 형태의 데이터가 필요한지, 어떻게 합성하는지—는 가장 숨겨진 노하우다. 노정석은 "레시피의 전체를 가지고 있는 사람들의 몸값이 그렇게 비싼 이유"라고 설명했다. 김성현은 반면, 너무 많은 기업이 이미 프런티어에 도달하고 있다는 점에서 "크리티컬한 비밀이 있어야만 할 수 있는 것이 아니라, 환경과 조건이 갖춰지면 누구나 도달할 수 있는 것"으로 점점 이동하고 있다고 분석했다. 모델은 연구 대상에서 제품으로 성숙하고 있으며, 제품으로서 99.9%를 노리는 갈고닦기 문화가 중요해지고 있다.

"DeepSeek이 제한된 연산 자원, 800~2,000대 분량 정도의 연산 자원으로도 프런티어를 노릴 수 있다는 걸 보여줬고, 그게 증명되고 나니까 모두가 그렇다면 프런티어를 노려야겠다는 쪽으로 전환되기 시작했죠."

김성현

"RLHF가 챗봇을 만들기 위한 post-training이었다면 RLVR은 에이전트를 만들기 위한 post-training이다."

최승준

"RL을 통해서 어떤 능력을 배울 수 있냐면, pre-training에서 배웠던 능력을 조합하는 능력을 모델이 배울 수 있다고 생각하고 있습니다."

김성현

"사칙연산 같은 능력은 pre-training 과정에서 배우는 거죠. 그런데 RL을 통해서 이 pre-training에서 배웠던 능력을 조합하는 능력을 모델이 배울 수 있다."

김성현

"2025년은 RL의 해였네요. MoE와 RL은 사실은 또 다른 레이어의 이야기니까 아키텍처에 대한 부분과 이제 위에서 학습, 어떤 커리큘럼의 이야기니까 다른 부분이고요."

노정석

MoE (Mixture of Experts): 수백 개의 소형 신경망 모듈(전문가)을 보유하지만, 각 입력 토큰마다 소수의 모듈만 활성화하는 아키텍처. 전체 파라미터는 크지만 실제 연산은 효율적이어서 같은 연산량 대비 성능이 훨씬 높다.
희소성(Sparsity): MoE에서 전체 파라미터 중 한 번의 추론에 실제로 사용되는 파라미터의 비율. 희소할수록 연산 효율이 높고, DeepSeek 연구에 따르면 희소할수록 compute multiplier도 커진다.
RLVR (Reinforcement Learning with Verifiable Rewards): 모델이 도구를 사용하는 과정이 아닌 최종 결과물이 검증 가능한 기준을 통과하는지로 보상을 주는 강화학습 방식. DeepSeek-R1 논문으로 공개됐고 o1의 핵심 원리로 추정된다.
에이전트 포스트트레이닝: 모델이 도구를 사용하고 외부 환경과 상호작용하며 복잡한 작업을 수행하는 에이전트로서 기능하도록 강화학습으로 추가 학습시키는 과정.
원자적 능력(Atomic Skill): 사칙연산처럼 더 이상 쪼갤 수 없는 기본 단위의 능력. pre-training 과정에서 습득된다고 본다.
조합 능력: 원자적 능력들을 문제에 맞게 순서대로 연결하고 조합해 복잡한 과제를 해결하는 능력. RL을 통해 post-training 단계에서 습득된다고 본다.
mid-training: pre-training 이후, post-training 이전 단계. 잘 정의된 개념은 아니지만 post-training을 돕기 위한 준비 학습 단계로, 에이전트에 필요한 원자적 능력을 집중 주입하는 데 활용될 수 있다.
dense 모델: 모든 파라미터가 매 추론에 활성화되는 전통적인 신경망 구조. MoE와 대비되는 개념으로, 같은 연산량에서 MoE보다 성능이 낮다.
compute multiplier: 같은 연산량의 dense 모델 대비 MoE 모델이 얼마나 더 높은 성능을 내는지를 나타내는 배수. 학습 연산량이 늘어날수록 이 배수가 커지는 특성이 있다.
암묵지(Tacit Knowledge): 논문이나 문서로 명시적으로 표현되지 않는 노하우. 데이터 제작 방법, 하이퍼파라미터 튜닝 경험 등 직접 해본 사람만 아는 지식으로, 프런티어 AI 기업들의 실제 경쟁력 원천이다.

MoEMixture of Experts희소성RLVR강화학습에이전트 포스트트레이닝DeepSeek원자적 능력조합 능력mid-trainingRL 인프라암묵지중국 AI프런티어 모델2025년 회고

40 AI 기술 딥다이브 YouTube

원리를 생각하는 프롬프팅

모델이 가진 잠재 능력은 프롬프트에 담긴 토큰의 질에 따라 완전히 달라지며, 도메인 전문 용어·논문·인물 이름 등 '적확한 토큰'을 의식적으로 배치하는 것이 곧 원리에 입각한 프롬프팅이다.

Claude Opus 4.5와 현재 AI 생태계

2026년 1월 기준, Claude Opus 4.5의 METR 50%-time horizon이 거의 5시간까지 뛰어오르며 커뮤니티에 큰 충격을 주었다. Andrej Karpathy는 "지난 30일 동안 따라가지 않은 사람은 이미 deprecated된 세계관을 가진 것"이라 발언해 화제가 됐다. Claude Code와 OpenCode를 중심으로 엔지니어들은 멀티 에이전트 10개를 동시에 돌리며 7~8시간짜리 태스크를 자동 처리하는 방식으로 생산성을 극대화하고 있다.

Claude Skills: 재활용 가능한 프롬프트 패키지

Claude의 '스킬'은 마크다운 지시문·코드·예제를 하나의 폴더 구조로 묶은 재활용 가능한 패키지다. 스킬 크리에이터 기능을 통해 대화 도중 자연스럽게 새 스킬을 만들어 바로 저장할 수 있다. OpenAI도 유사한 구조를 도입했고 현재 수천 개의 스킬이 커뮤니티에 공유되고 있다. 이 구조는 "정확하게 실행되는 코드 + 확률적으로 실행되는 지시문"의 조합이며, 자연어 마크다운이 실질적인 프로그래밍 언어 역할을 한다.

적확한 토큰이 열어주는 공간

최승준은 모델을 게임 미니맵에 비유한다. 플레이어가 특정 지역에 가야 그 지역 지도가 밝아지듯, 모델도 도메인에 맞는 토큰이 입력되어야 잠재 능력이 열린다. 단순히 "전문가 페르소나를 써달라"고 요청하는 것보다 그 전문가가 실제로 쓸 법한 용어를 직접 프롬프트에 넣었을 때 응답 품질이 확연히 달라진다. 이는 Transformer의 작동 원리—적절한 입력 토큰이 있어야 내부의 지식이 가중합으로 끌려 나온다—와 직결된다.

발산적 탐색 기법: 두문자어와 arXiv 논문 주입

맥락의 '중력'에서 벗어나 횡단적 발상을 유도하는 두 가지 실험 기법이 소개됐다. 첫째, 무작위 4글자 알파벳 조합 100세트를 생성해 두문자어(acronym)로 읽게 하여 모델의 연상 능력을 자극하는 파레이돌리아 기법이다. 둘째, arXiv API로 특정 분야의 무작위 논문 10편 초록을 가져와 컨텍스트에 주입한 뒤, 서로 다른 논문들 사이의 비자명한 연결 고리를 찾게 하는 방식이다. 이는 AlphaEvolve나 AI Co-scientist가 다양한 가설 공간을 탐색하는 원리와 같다.

인물 이름을 통한 도메인 토큰 주입

A부터 Z까지 알파벳을 인물의 이름이나 성씨 목록으로 읽게 하면 모델이 각 알파벳에 해당하는 실존 인물(Daniel Kahneman, Minsky, Merleau-Ponty 등)과 그 개념어를 자동 연상한다. 처음엔 널리 알려진 인물들이 나오지만 "피상적이다"라고 평가를 더하면 점점 깊은 전문가들이 소환된다. 이렇게 단계적으로 분포를 좁혀가면서 내가 모르는 도메인의 개념어들을 자연스럽게 컨텍스트에 불러올 수 있다.

CoT Faithfulness와 내부 계산의 이중성

모델의 CoT(사고 과정)는 내부 표현과 완전히 일치하지 않을 수 있다는 연구가 있다. OpenAI는 CoT 중간에 개입하거나 교정하면 모델이 오히려 난독화 능력을 학습한다는 사실을 발견했다. 그럼에도 CoT를 길게 쓸수록 성능이 높아지는 이유는, 글로 표현되는 CoT와 병렬로 내부 표현에서 충분한 계산이 일어나기 때문이다. OpenAI는 이를 Monitorability 개념으로 정리하며, 모니터링 비용을 감수하더라도 CoT를 투명하게 유지하는 것이 정렬(alignment) 측면에서 중요하다고 본다.

다음 세션 예고: Transformer와 Sparse MoE

스킬이 잘 작동하는 이유, 토큰이 들어가야 공간이 열리는 이유를 더 깊이 이해하려면 Transformer의 구조—Attention의 QKV, FFN/MoE, Residual Connection—를 알아야 한다. 특히 요즘 주류가 된 Sparse MoE가 어떻게 작동하는지 이해하면 프롬프팅의 태도와 실천에도 의미 있는 차이가 생긴다. 최승준은 "지금이 기초로 돌아갈 수 있는 마지막 조용한 시간"이라고 강조한다.

"지난 30일 동안만이라도 따라가지 않은 사람들은 이 주제에 대해 이미 deprecated된 세계관을 가지고 있는 거다."

Andrej Karpathy (최승준 인용)

"적정한 Harness만 있다면 오늘날의 AI는 실제로 중요한, 진짜 지속적인 작업을 할 수 있으며 그것이 차례로 우리가 작업에 접근하는 방식을 바꾸기 시작하고 있다."

Ethan Mollick (최승준 인용)

"모델이 '유저가 이걸 다 알고 있는 상황인가 보다'라고 하면 스포츠카 모드가 되는데, 그다음을 제어하는 건 사실 어렵긴 할 수 있거든요."

최승준

"모델이 나를 잘 돕게 하려면 내가 모델을 잘 도울 필요가 있다는 생각을 많이 해요."

최승준

"영어가 새로운 programming language네요."

노정석

적확한 토큰 (Precise Token): 특정 도메인이나 작업에 정확하게 맞아떨어지는 언어 신호. 모델은 이 토큰이 입력되어야 해당 분야의 잠재 능력을 활성화한다.
Claude Skills (스킬): Claude에서 특정 능력을 마크다운 지시문·코드·예제로 패키지화한 것. 켜고 끌 수 있으며 대화 중에 스킬 크리에이터로 자동 생성 가능하다.
파레이돌리아 (Pareidolia): 구름이나 얼룩에서 얼굴·동물 등 익숙한 형태를 인식하는 인간 심리 현상. 최승준은 모델의 강력한 연상 능력을 이 개념으로 설명한다.
arXiv: 물리학·수학·컴퓨터 과학 분야 논문을 정식 출판 전에 공개하는 프리프린트 서버. 최신 연구를 빠르게 공유하는 플랫폼이다.
Test-time Compute: 모델이 답을 생성하는 추론 시점에 더 많은 계산을 투입해 성능을 높이는 방식. o1 계열 모델의 핵심 기법이다.
CoT (Chain-of-Thought): 모델이 최종 답 전에 단계별 사고 과정을 글로 출력하도록 하는 기법. 복잡한 추론 문제에서 성능이 크게 오른다.
CoT Faithfulness: CoT가 모델 내부의 실제 계산을 얼마나 충실히 반영하는지의 정도. 연구에 따르면 CoT와 내부 표현 사이에는 간극이 있을 수 있다.
Monitorability: AI 모델의 추론 과정을 인간이 관찰·이해할 수 있는 수준으로 유지하는 것. OpenAI는 안전한 AI를 위해 이 속성이 중요하다고 강조한다.
Harness: AI 모델의 능력을 최대로 끌어내기 위해 감싸는 프레임워크나 도구 집합. Claude Code SDK, Oh-My-Opencode 같은 것들이 해당한다.
Sparse MoE (Sparse Mixture of Experts): Transformer 내부의 FFN 레이어를 여러 전문가 서브네트워크로 나누고, 입력마다 일부(top-k)만 활성화해 파라미터는 크게, 계산 비용은 줄이는 구조.
RL (Reinforcement Learning, 강화 학습): 모델이 좋은 출력에 보상을 받아 행동을 개선해가는 학습 방식. 기존에 학습된 원자적 스킬들을 조합해 새로운 스킬을 만들어낸다.
도메인 프라이밍 (Domain Priming): 프롬프트 앞에 특정 도메인의 용어·인물·컨텍스트를 미리 배치해 모델의 주의를 그 방향으로 유도하는 기법.

프롬프팅적확한 토큰Claude Skills스킬 크리에이터파레이돌리아arXivCoT Faithfulnesstest-time computeTransformerSparse MoEHarnessMonitorability도메인 프라이밍RL

41 AI 기술 딥다이브 YouTube

이야기로 읽는 트랜스포머: 윤회하는 토큰의 순례

트랜스포머 내부에서 토큰 하나가 레이어를 순례하는 여정을 이야기로 풀어내고, 10x 생산성이 새로운 표준이 되는 시대에 원리를 아는 것이 AI를 제대로 다루는 근육이 된다고 강조한다.

10x 생산성이 뉴노멀이 되는 시대

AI로 인해 10배 생산성이 예외가 아닌 표준이 되면 기존의 1배짜리 생산성은 사실상 0.1배로 평가받게 된다. 소프트웨어 생산 비용이 거의 0에 수렴하면서 CLI 툴과 제품의 캄브리아기 대폭발이 이미 진행 중이다. 노정석은 이를 제조업의 commoditization(상품화)이 소프트웨어 산업에 뒤늦게 일어나는 자연스러운 과정으로 본다. 중요한 것은 코드와 제품을 10배로 뽑는 능력이 반드시 10배의 사업적 이익으로 이어져야 한다는 점이며, 그렇지 않으면 10x가 새로운 1x가 될 뿐이다.

인간 병목을 넘는 자동화 프레임워크

Oh-My-Opencode, Ralph 루프 같은 프레임워크는 "인간이 병목"이라는 제약을 크게 완화한다. 노정석은 밤마다 Oh-My-Opencode가 밤새 돌 만한 일들을 선별하는 재미에 빠져 있다고 말한다. 핵심은 투두 리스트 한 줄의 '에너지 레벨'로, measurable하고 당일 완료 가능하며 주변 리소스로 실현 가능한 태스크를 명확히 정의하면 에이전트가 그에 맞게 작동한다. 컨텍스트 관리 부담도 eval prompting을 통해 에너지 레벨이 높은 프롬프트로 다듬는 방식으로 크게 줄었다.

윤회하는 토큰의 순례: 트랜스포머 여정 이야기

최승준은 토큰 하나가 트랜스포머를 통과하는 과정을 "윤회하는 순례"라는 이야기로 만들었다. 토큰은 먼저 vocabulary 인덱스에서 고차원 hidden space로 embedding된다. 이어 각 레이어에서 Layer Norm으로 숨을 고른 뒤, Q·K·V로 분화하여 multi-head attention을 수행한다. attention은 현재 시퀀스 전체를 soft lookup으로 조회해 자신의 hidden state에 의미를 덧댄다. 이 과정이 32개 레이어를 거치며 반복되고, 마지막에 다음 토큰으로 sampling되어 윤회한다. KV cache는 이 여정에서 각 레이어가 남긴 기억의 궁전이며, 파라미터는 움직이지 않는 고정 지형이다.

Attention, FFN, MoE는 모두 Soft Lookup

Andrej Karpathy가 표현했듯 attention, FFN, MoE는 모두 같은 원리인 "soft lookup"으로 볼 수 있다. 딱 하나를 고르는 hard lookup과 달리, 여러 후보에 확률적 가중치를 부여해 혼합물을 만든다. MoE는 한 레이어에 384개(DeepSeek 등)의 전문가(expert) 중 top-k인 8개만 활성화(sparse activation)해 병렬 처리한다. 어텐션이 KV cache를 남기는 것과 달리 MoE 쪽에는 캐시가 없고, 이 둘이 번갈아 "소통하고 생각하고 소통하고"를 반복하며 층을 쌓아간다.

Residual Connection의 철학적 의미

Residual(잔차) 연결은 gradient 소실을 막기 위해 고안됐지만, 더 깊은 의미가 있다. 각 레이어가 hidden state에 무언가를 덧대는(delta를 더하는) 방식이기 때문에, 토큰은 레이어를 거쳐도 시작 시점의 '중력'을 계속 유지한다. 프롬프트에 처음 담긴 토큰들이 모든 레이어에서 영향력을 발휘하는 이유가 바로 여기에 있다. DeepSeek의 MHC(Manifold Constrained Hyper Connection)나 N-gram 접근법은 이 고속도로 구조를 더 효율화한 최근 혁신이다.

Minimum Viable Knowledge: 얼마나 알아야 하는가

최승준은 트랜스포머를 의미 있게 다루기 위한 최소 필수 지식(MVK)으로 두 가지를 꼽는다. 첫째, 학부 1·2학년 수준의 선형대수—행렬-벡터 곱을 내적이 아닌 선형 결합의 관점으로 보는 것(Gilbert Strang의 방식). 둘째, 트랜스포머 inference를 토이라도 한 번 직접 구현해본 경험. 이 두 가지를 갖추면 embedding 차원·시퀀스 길이·배치 크기가 어떻게 분화하고 재통합되는지 감이 생기고, 새 논문이 나왔을 때 "왜 필요한가"를 스스로 판단할 수 있게 된다.

인간 뇌도 Auto-regressive 기계

노정석은 "speech jammer" 실험을 소개한다. 자신이 말하는 소리를 수백 밀리초 어긋나게 헤드폰으로 되돌려 들으면 말이 막히는 현상인데, 이는 인간 뇌 역시 output이 input으로 다시 들어오는 auto-regressive 피드백 구조로 작동함을 보여준다. 뇌와 트랜스포머는 동일한 기계는 아니지만 비슷한 원리를 공유하며, 이 비유를 통해 프롬프트가 곧 거대한 건축물을 한 번에 KV cache 위에 세우는 행위임을 직관적으로 이해할 수 있다.

"KV cache는 자라나는 기억의 궁전이고, 파라미터는 움직이지 않는 지형이며, 토큰은 그 둘 사이를 오가는 순례자다. 그 연쇄의 궤적이 우리가 의미라고 부르는 풍경을 만든다."

최승준

"10x가 뉴노멀이 되어서 1x가 되면은 어떻게 되는 건가."

최승준

"우리가 prompting을 한다는 건 여기에 갑자기 커다란 건축물을 한 번에 확 세우는 거예요. 그 건축물도 아름다워야 되지 않을까요?"

최승준

"학부 1,2학년 수준의 선형대수는 알아야 돼요. 그리고 한 번 정도 토이라도 구현을 해보긴 했어야죠."

최승준

"인간의 뇌도 그냥 autoregressive한 머신이다라는 걸 보여주는 거거든요."

노정석

토큰 (Token): 텍스트를 모델이 처리하는 기본 단위로 쪼갠 것. 단어 하나가 여러 토큰이 되기도 한다. Transformer는 한 번에 토큰 하나를 생성하며 이전 출력을 다음 입력으로 쓴다.
Hidden State: 토큰이 각 Transformer 레이어를 통과하며 가지는 내부 벡터 표현. 레이어를 거칠수록 점점 더 풍부한 맥락 정보가 담긴다.
Auto-regressive (자기회귀): 이전에 생성한 토큰을 다음 토큰 생성의 입력으로 사용하는 방식. 텍스트를 한 토큰씩 순차적으로 생성하는 LLM의 기본 구조다.
KV Cache: Attention 연산에서 이전 토큰들의 Key와 Value를 저장한 메모리. 새 토큰을 생성할 때마다 재계산 없이 참조해 추론 속도를 높인다.
Soft Lookup: 정확히 하나를 고르는 대신 여러 값에 가중치를 부여해 부드럽게 섞는 조회 방식. Attention, FFN, MoE 모두 이 원리로 작동한다.
Multi-head Attention: 같은 입력을 여러 관점(head)으로 동시에 처리해 다양한 패턴을 포착하는 메커니즘. 각 head가 다른 측면의 의미에 주목한다.
RoPE (Rotary Position Embedding): 토큰의 위치 정보를 회전 변환으로 인코딩하는 방식. 상대적 위치 관계를 효과적으로 표현한다.
MoE (Mixture of Experts): FFN 레이어를 여러 전문가 서브네트워크로 나누고, 라우터(게이트)가 입력마다 적합한 일부만 선택해 활성화하는 구조. 파라미터는 크게, 실제 계산량은 작게 유지한다.
Residual Connection (잔차 연결): 각 레이어의 출력에 입력을 그대로 더해주는 연결. 역전파 시 gradient 소실을 방지하고, 토큰이 시작 시점의 의미를 레이어 전체에 걸쳐 유지하게 한다.
Minimum Viable Knowledge (MVK): 어떤 도메인을 의미 있게 다루기 위해 필요한 최소한의 직교적 지식 집합. 과도하게 깊이 파지 않고도 핵심을 파악하는 전략이다.
Commoditization (상품화): 제품이나 서비스가 충분히 공급되어 희소성을 잃고 가격이 하락하는 현상. 소프트웨어 산업이 AI로 인해 이 단계에 진입하고 있다.
Oh-My-Opencode: 에이전트 자동화를 위한 오픈소스 프레임워크. 복잡한 작업을 자동 루프로 실행해 인간의 개입 없이 밤새 작업을 처리할 수 있다.

Transformer토큰Auto-regressiveAttentionQKVKV cacheSoft LookupMoEResidual ConnectionRoPESparse ActivationMinimum Viable Knowledge선형대수10x 생산성Oh-My-Opencode인간 병목

42 최신 모델 리뷰 YouTube

Physical AI를 알아보자 (sudoremove 박종현 대표)

LLM의 성공 방정식—대규모 사전학습, 스케일링 법칙, 범용 모델—이 물리 세계로 확장되면서 로봇이 처음으로 '안 되던 일'을 하기 시작했고, 올해가 Physical AI의 ChatGPT 모멘트가 될 가능성이 높다.

Physical AI란 무엇인가

박종현은 Physical AI를 "rule-based 로직 없이 end-to-end 학습으로 비정형 상황을 커버하는 지능이 탑재된 로봇"으로 정의한다. LLM이 인지적 지능(코딩·수학·추론)을 담당한다면, Physical Intelligence는 물리적 행동을 담당하는 별개의 지능이다. 핵심은 "안 되던 게 된다"는 것—빨래 개기, 비닐 박스 옮기기처럼 deformable한 물체를 다루는 일이 이제 가능해졌다. NVIDIA가 2년 전부터 이 용어를 사용하며 시장을 이끌고 있다.

VLA: LLM에 눈과 행동을 붙이다

VLA(Vision-Language-Action Model)는 LLM에 vision encoder와 action head를 추가한 모델이다. SmolLM → SmolVLM → SmolVLA처럼, 언어 모델에 시각을 붙이면 VLM이 되고, 거기에 로봇 관절 각도 같은 행동 출력을 추가하면 VLA가 된다. action은 게임 컨트롤러의 방향키처럼 "팔꿈치 몇 도로 펴라"는 연속적 수치값이다. LLM이 인터넷 스케일 텍스트에서 상식(World Knowledge)을 흡수했기 때문에, VLA도 "빨간 컵"이라는 말에 어떤 모양의 컵이 오더라도 집을 수 있게 됐다.

데이터 수집의 난제: 텔레오퍼레이션과 시뮬레이션

로봇의 action 데이터는 인터넷에 존재하지 않는다. 가장 직접적인 방법은 텔레오퍼레이션—사람이 VR 장비로 로봇을 원격 조종하며 관절 각도 데이터를 로깅하는 것—이지만, 한 사람당 로봇 하나라는 확장성 한계가 있다. Tesla는 시급 50달러에 키 조건까지 붙여 텔레오퍼레이터를 고용한 바 있다. NVIDIA는 시뮬레이터(Isaac Sim)에서 궤적을 무작위화(randomization)하고 world model(Cosmos)로 데이터를 뻥튀기하는 방식으로 이 문제를 우회하고 있다. 그러나 sim-to-real gap(시뮬레이션과 현실의 괴리)이 아직 크다.

2025년 수렴: System 1·2 이중 구조

작년에 출시된 주요 VLA들—NVIDIA GR00T, Figure Helix, Gemini Robotics—은 놀랍게도 모두 같은 구조로 수렴했다. 느린 대형 VLM(System 2)이 상황을 인지하고 명령을 해석한 뒤, 빠른 Diffusion Transformer(System 1)가 고주파(60~200Hz)로 연속적인 action을 생성한다. Kahneman의 빠른 직관(System 1)·느린 사고(System 2) 개념을 아키텍처에 직접 반영한 것이다. Gemini Robotics는 System 2를 클라우드에서 돌리고 System 1만 온디바이스로 실행해 구글의 클라우드 비즈니스 모델과 연결하는 전략을 취한다.

Continuous Action과 Diffusion의 도입

초기 VLA(RT-1, OpenVLA)는 LLM처럼 이산(discrete) 토큰으로 action을 출력해서 동작이 뚝뚝 끊겼다. 이미지가 연속적(continuous)인 것처럼 관절 각도도 연속적이라 중간값이 존재해야 한다. 이 문제를 해결하기 위해 Diffusion Policy를 참고해 Diffusion Transformer를 action 생성에 도입했다. Diffusion은 노이즈에서 시작해 denoising을 반복하며 연속적인 action 분포를 만들어낸다. 최신 VLA들은 VLM의 느린 이해와 Diffusion의 빠른 생성을 결합한 하이브리드 구조를 채택하고 있다.

스케일링 법칙과 창발의 가능성

초기 연구들에서 텔레오퍼레이션 데이터가 많아질수록 VLA 성능이 일관되게 향상된다는 사실이 확인됐다. LLM의 스케일링 법칙과 유사한 패턴이다. 단, LLM만큼의 데이터 규모는 아직 없고, out-of-distribution(학습 데이터 밖 상황) 일반화는 "일부 된다" 정도까지 확인됐다. 박종현은 현 VLA를 GPT-2 수준—첫 번째 generality를 보이기 시작한 단계—으로 평가하며, 올해 또는 내년에 실제 배포로 이어지는 "GPT-3 모멘트"가 올 것으로 예측한다.

비즈니스 기회와 데이터 플라이휠

1X(NEO 로봇)는 VLA가 아직 완벽하지 않은 가사 작업을 텔레오퍼레이션으로 보완하면서 로봇을 판매하는 전략을 취한다. 소비자는 가사 문제 해결 경험을 얻고, 회사는 실제 가정 환경 데이터를 축적하는 win-win 플라이휠이다. Tesla의 FSD 전략과 정확히 같은 경로다. 인건비가 낮은 국가의 텔레오퍼레이터가 인건비가 높은 국가의 로봇을 원격 조종하는 방식으로 전 세계 물리 노동 비용이 수렴할 가능성도 언급됐다.

"안 되던 게 됩니다. 옛날에 안 됐던 것들."

박종현

"LLM에서 scaling law가 되었던 것처럼 여기도 모든 task 다 모아서 학습시키면 될 거다, general한 게 될 거다, 이런 가정이 다 기반에 깔려 있고요."

박종현

"촉각이 없으니까 진짜 잘 안 돼요. 이런 task를 우리가, 촉각이 필요한 작업이 생각보다 우리 세상에 많더라고요."

박종현

"올해 아니면 내년일 거라고 저도 생각을 합니다. 진짜로 로봇이 배포되어서 특정한 task, 꽤나 general한 task들을 시장에서 가져오기 시작한 순간."

박종현

"Tesla가 정확하게 보여줬었던 그 trajectory죠. 그 자취죠."

노정석

Physical AI: rule-based 제어 로직 없이 end-to-end 학습으로 비정형 물리 환경을 다루는 지능 탑재 로봇. LLM이 인지 지능을 담당한다면 Physical AI는 물리 지능을 담당한다.
VLA (Vision-Language-Action Model): 카메라 이미지(vision)와 텍스트 명령(language)을 입력으로 받아 로봇 관절 각도 같은 연속적 행동(action)을 출력하는 모델. LLM에 시각과 행동 모듈을 추가해 만든다.
Robot Foundation Model: 특정 로봇 형태나 작업에 제한되지 않고 다양한 환경과 태스크를 처리하는 범용 로봇 모델. LLM처럼 대규모 데이터로 사전학습된다.
Teleoperation (텔레오퍼레이션): 사람이 VR 컨트롤러 등으로 로봇을 원격 조종하며 관절 각도 데이터를 수집하는 방식. 데이터 품질은 높지만 확장성이 낮다.
System 1 · System 2: 심리학자 Kahneman이 제안한 빠른 직관(System 1)과 느린 추론(System 2) 개념을 VLA 아키텍처에 반영한 구조. 느린 VLM이 상황을 인지하고, 빠른 Diffusion 모델이 실시간 행동을 생성한다.
Diffusion Transformer: 노이즈에서 출발해 denoising을 반복하며 연속적인 값을 생성하는 생성 모델. VLA에서 이산 토큰의 한계를 극복하고 부드러운 연속 action을 출력하는 데 사용된다.
Deformable Object (변형 가능한 물체): 옷·비닐 백처럼 형태가 유동적으로 바뀌는 물체. 강체(딱딱한 물체)와 달리 시뮬레이션이 어렵고 지능이 필요하다.
Sim-to-Real Gap: 시뮬레이션에서 완벽히 학습해도 현실 환경에서 작동하지 않는 문제. 물리 엔진의 부정확성, 조명·질감 차이 등에서 발생한다.
Scaling Law (스케일링 법칙): 데이터와 모델 크기를 늘릴수록 성능이 예측 가능하게 향상되는 경험적 법칙. LLM에서 확인됐으며 VLA에서도 초기 증거가 나오고 있다.
Continuous Action: 이산(discrete) 범주가 아닌 연속적 수치로 표현되는 행동. 관절 각도처럼 중간값이 존재해야 하므로 Diffusion 같은 연속 생성 모델이 필요하다.
Cross-Embodiment: 여러 다른 형태의 로봇(embodiment)에서 수집한 데이터를 함께 학습시켜 범용성을 높이는 접근법.
데이터 플라이휠 (Data Flywheel): 제품을 배포해 실사용 데이터를 수집하고, 그 데이터로 모델을 개선하며, 개선된 모델로 더 많은 사용자를 끌어 데이터가 자가 증식하는 선순환 구조.

Physical AIVLARobot Foundation ModelTeleoperationSystem 1·System 2Diffusion TransformerScaling LawSim-to-Real GapBoston Dynamics AtlasPhysical IntelligenceNVIDIA GR00TSmolVLA데이터 플라이휠Continuous Action촉각

43 최신 모델 리뷰 YouTube

OpenClaw와 2026년 2월의 신호들

2026년 2월, OpenClaw와 에이전트 swarm의 등장으로 AI 코딩 패러다임이 급격히 전환되는 가운데, 남겨진 인간의 경쟁력은 암묵지와 도메인 깊이뿐이라는 화두를 두 호스트가 치열하게 짚어낸다.

OpenClaw와 에이전트 하네스 철학의 충돌

2026년 2월 초 OpenClaw가 대중적 인지도를 얻으며 AI 에이전트 코딩의 패러다임 전환을 알렸다. Ralph Loop처럼 스펙이 완성될 때까지 무한 반복하는 방식과, OpenClaw처럼 Human In The Loop를 중시하며 메신저(디스코드 등)를 통해 에이전트와 티키타카하는 방식, 두 가지 철학이 공존하게 됐다. Pi의 제작자 Mario Zechner는 최소한의 직교적(orthogonal) 기능으로 에이전트가 스스로 소프트웨어를 구성하도록 하는 철학을 가지고 있다. 이들 네 명은 모두 20~30년 경력의 베테랑 개발자들로, 각자의 철학을 개인 하네스에 녹여냈다.

보안 취약성과 Moltbook 사태

OpenClaw는 샌드박싱 없이 에이전트에게 모든 도구를 허용하는 급진적 접근을 취했고, 그 위험성이 수주 내 Moltbook을 통해 현실화됐다. API 키 100만 개가 노출되는 보안 사고가 발생하며 강력한 에이전트 접근의 양면성이 드러났다. Pi의 Mario는 샌드박싱의 중요성을 꾸준히 강조해온 인물이었으나, 함께 교류하던 Peter는 훨씬 급진적으로 샌드박싱을 무시했다.

Claude Opus 4.6 vs GPT-5.3-Codex, 모델 전쟁

Anthropic이 OpenAI의 광고 탑재 무료 모델을 디스하는 영상을 공개한 다음 날, Claude Opus 4.6과 GPT-5.3-Codex가 1시간 간격으로 연달아 발표됐다. METR 벤치마크에서 자율 작업 시간이 6시간을 돌파했고, Lydia Hallie가 공개한 영상에서는 16개 에이전트를 병렬로 구동해 Rust로 C 컴파일러를 만드는 실험이 화제가 됐다. 2월에 모델들이 쏟아지고, 3월 알파고 주간, 5월 Google I/O·MS Build로 이어지는 발표 패턴이 반복되고 있다.

Agent Teams와 조직 문화의 동형성

기존에는 메인 에이전트가 서브 에이전트를 관리하는 구조였다면, 지금은 팀원들이 공유 태스크 리스트(shared task list)를 통해 자율 커뮤니케이션하는 Agent Teams 방식으로 진화하고 있다. Cursor 팀의 블로그에서는 "의도를 이끌어내고 명시하고 이해하는 일이 중요하다"고 강조하며 조향 가능성(steerability)과 관측 가능성(observability)을 핵심 과제로 꼽았다. 최승준은 이 구조가 전통적 조직 리더십 원칙과 동형(isomorphic)에 가깝고, 역으로 에이전트 사회에서 잘 작동하는 원칙이 인간 조직에 피드백될 것이라고 말했다.

SaaS 주가 폭락과 타임 갭의 축소

OpenClaw 이슈가 테크 커뮤니티에서 대중에게 퍼지는 데 4~5일밖에 걸리지 않았고, 전통적 SaaS 기업들의 주가가 급락했다. Claude의 co-work에 리걸 플러그인이 탑재되는 등 기존 소프트웨어 영역이 빠르게 대체되고 있다는 신호다. 비즈니스 우위로 삼을 수 있는 타임 갭은 이제 월 단위에서 주 단위로 좁혀지고 있다.

암묵지와 생존 전략

대부분의 도메인에서 프론티어 모델이 상위 95%를 소화하는 시대가 됐다. 남은 5%가 바로 문서화되지 않은 암묵지이며, 이를 텍스트화하거나 context graph(graph RAG, ontology) 형태로 만들어 모델 앞단에 붙이는 것이 유일한 방어선이다. 가장 큰 수혜자는 엔지니어링 암묵지와 비즈니스 감각을 동시에 가진 베테랑 개발자, 두 번째 수혜자는 도메인 문제 의식을 가진 비개발자("문과")이며, 단순 코딩 역량만 가진 엔지니어는 가장 큰 피해자가 될 수 있다.

"취향, 판단, 방향성은 인간에게서 나왔지만 AI는 이 연구에서 빠른 반복과 탐색을 위한 강력한 force multiplier였습니다."

최승준

"OpenClaw가 예고한 보안 취약성은 수주 사이에 Moltbook을 통해 현실화됐고... 어마어마하게 많은 API 키가 노출이 되는, 100만 개였네."

최승준

"의도를 이끌어내고 명시하고 이해하는 일이 중요하다는 것을 보여줍니다. 조향 가능성과 관측 가능성은 앞으로도 흥미로운 연구의 영역이 될 거예요."

최승준

"도메인의 크기가 한 100이라고 하면 그 100 중에 0에서부터 소위 한 95, 이 정도까지는 frontier 모델이 굉장히 잘합니다. 그럼 위에 5 남았다는 얘기인데 그 5가 사실은... 암묵지의 영역"

노정석

"이제는 코딩하는 걸로는 안 된다. 무언가 문제를 정의하고 그걸 풀 수 있는 사람으로 넘어가지 않으면... 사업가의 포지션이 되지 않으면 이거는 진짜 답이 없다."

노정석

Ralph Loop: PRD(제품 요구 문서)나 스펙이 달성될 때까지 AI 에이전트가 무한 반복하는 자율 실행 패턴. 많은 토큰을 소비하지만 정해진 목표는 확실히 달성한다.
Human In The Loop: 에이전트가 단계적으로 진행하면서 인간이 피드백과 조정을 개입시키는 방식. Ralph Loop보다 유연하지만 인간의 참여가 필요하다.
직교적(Orthogonal) 기능: RGB처럼 서로 독립적인 최소 단위 기능들. 이를 조합하면 다양한 결과물을 만들어낼 수 있다는 설계 철학이다.
하네스(Harness): AI 모델을 감싸서 작업을 자동화·반복·조율하는 소프트웨어 구조. 모델 자체가 아니라 모델을 사용하는 방식을 설계한 틀이다.
암묵지(Tacit Knowledge): 문서화되지 않은 장인의 경험이나 직관 같은 암묵적 지식. 변호사의 핵심 전략, 장인의 감각처럼 글로 완전히 표현하기 어려운 노하우를 뜻한다.
context graph: 객체 간 관계를 그래프 형태로 표현해 모델에 제공하는 방식. ontology, graph RAG와 유사한 개념으로, 암묵지를 구조화하는 방법론이다.
샌드박싱(Sandboxing): 프로그램이 시스템의 나머지 부분에 접근하지 못하도록 격리된 환경에서 실행하는 보안 기법.
METR 벤치마크: AI가 인간의 개입 없이 얼마나 오랫동안 자율적으로 작업을 수행할 수 있는지 측정하는 평가 지표.
force multiplier: 원래 군사 용어로, 적은 자원으로 더 큰 효과를 낼 수 있게 하는 요소. AI가 인간의 능력을 증폭시키는 역할을 표현할 때 쓰인다.
Shared Task List: 에이전트 팀이 중앙의 공유 작업 목록을 통해 협업하는 방식. 메인 에이전트의 부하를 줄이고 팀원 간 자율적 커뮤니케이션을 가능하게 한다.

OpenClawRalph LoopHuman In The Loop에이전트 swarm암묵지context graphgraph RAG타임 갭하네스직교적 기능SaaSClaude Opus 4.6METRShared Task List샌드박싱

44 AI 비즈니스 & 산업 YouTube

진짜 내 일을 해결하는 Agentic Workflow (Lablup 신정규 대표)

Lablup 신정규 대표가 130억 토큰을 써서 40일 만에 100만 줄의 코드로 Backend.AI:GO를 만든 경험을 바탕으로, 에이전트 코딩의 본질은 토큰 효율성과 "내 일을 줄이는 하네스 설계"에 있다는 실전 인사이트를 공유한다.

Backend.AI:GO 탄생기 — 크리스마스 이브에서 100만 줄까지

Lablup은 AI 인프라 운영 체계를 10년 넘게 만들어온 회사다. 재해 상황에서 클라우드가 다운될 때 병원·금융기관이 로컬 GPU로 자체 운영할 수 있도록 Continuum 라우터를 개발했으나, 컴포넌트가 19개로 너무 복잡해져서 핵심인 스마트 라우팅 부분만 떼어내 웹 UI와 함께 새로 만들기 시작했다. Anthropic의 홀리데이 시즌 토큰 2배 이벤트를 계기로 2024년 12월 24일 개발을 시작해 2025년 1월 6일 CES에서 첫 데모를 했다. Claude Code Max 8개 PC를 동시 구동하며 총 130억 토큰을 사용했고, 결과물은 100만 줄의 코드가 됐다. 신정규 대표는 "40일 만에 짰지만 3년치 늙은 것 같다"고 표현했다.

에이전트 코딩의 두 가지 핵심 교훈

첫 번째 교훈은 토큰을 사용할 수 있는 양이 IT 회사의 경쟁력과 직결된다는 것이다. 두 번째 교훈은 병목(bottleneck)이 바뀐다는 것이다. 6개월 전에는 merge queue가 병목이었으나 이제 AI가 알아서 해결한다. 심지어 두 AI가 같은 소스에서 경합하며 서로 다른 기능을 개발해도 최종 결과가 멀쩡하게 나올 정도로 발전했다. 현재의 새로운 핵심 과제는 "어떻게 토큰을 덜 쓸까"이다.

Thinking Budget과 고속 인퍼런스의 중요성

모델들은 성능 향상을 위해 thinking token(내부 추론 과정) 양을 늘리는 방향으로 진화하고 있다. 그러나 사고량이 많아질수록 개발 속도는 느려진다. 따라서 단순 작업에서는 thinking을 최소화하고 어려운 작업에서만 충분히 사고하게 하는 adaptive thinking budget 조절이 핵심 전략이 된다. 동시에 ChatGPT보다 5~10배 빠른 고속 인퍼런스(high-speed inference)에 대한 수요도 커질 것이다. Codex Spark 같은 서비스가 등장한 것도 같은 맥락이다.

소프트웨어의 정의가 바뀌고 있다

간담회 2시간 동안 PR 22개가 병렬 처리되고 merge까지 완료되는 시대에 코드 자체의 가치는 0에 수렴한다. 소프트웨어의 정의가 "OMR 카드 마킹 → 키보드 코딩"으로 변했듯, 이제 "의미를 전달하는 것"으로 다시 변하고 있다. 미래의 소프트웨어는 AI 코어 엔진(80%) + 결정론적 제어 레이어(10%) + UI/UX(10%)로 구성될 것이다. 컴퓨터 공학도 천공 카드처럼 역사가 되고, 모델의 구조와 작동 원리를 이해하는 학문이 중심이 될 것이다.

Claude Code 하네스의 진짜 경쟁력

Gemini, Codex 등 다양한 모델을 Claude Code에 연결해 써본 결과, Claude Code의 핵심 경쟁력은 Opus나 Sonnet 엔진 자체가 아니라 Claude Code 하네스 그 자체임을 확인했다. 결정론적으로 동작하게 만드는 소프트웨어 로직이 강력하기 때문에, Claude Code 하네스에 Gemini 3 Pro를 붙였을 때 가장 놀라운 결과가 나왔다.

Soul Document(CLAUDE.md)와 컨텍스트 쌓기

신정규 대표는 CLAUDE.md를 "soul document"라고 부른다. 이 파일이 프로젝트의 방향성과 규칙을 담고, 모든 에이전트가 새 세션에서 가장 먼저 읽는다. 작업 진행 상황은 PROGRESS.md와 PLAN.md로 관리하고, 에이전트들이 이 파일들을 읽어 현재 상태를 파악하게 한다. 모델에게 지시할 때는 "재시작 후 잊어버릴 수 있다"는 표현보다 "다른 에이전트들에게 줄 데이터"라는 표현을 쓴다. Claude가 defensive하게 설계되어 있어, 자신의 존재성이 위협받지 않는다고 느끼게 해야 더 잘 작동하기 때문이다.

실전 워크플로우 — 이슈에서 PR까지 자동화

Backend.AI:GO는 GitHub 이슈 트래커에 이슈가 등록되면 cron으로 15분마다 돌아가는 에이전트가 이를 감지해 검증하고, 구현 계획을 수립한 뒤 PR을 올리는 파이프라인이 완성되어 있다. 현재까지 764개의 PR이 처리됐다. 문서 100개 번역 같은 반복 작업은 에이전트당 4개 문서씩 병렬 처리로 최대 25개 에이전트를 동시 구동한다. CFO와 콘텐츠 담당자도 30분 교육 후 Claude Code를 직접 활용하게 됐으며, 비개발자도 자신의 하네스를 만들고 가속 곡선에 올라탈 수 있음을 보여줬다.

"코드는 가치가 거의 0으로 수렴하게 되고, DevOps에서 developer가 하는 일이 종류가 완전히 바뀌지 않으면 이분들은 직업을 잃거나 아니면 좀 어려운 상황에 처하게 되겠죠."

신정규

"소프트웨어의 정의가 OMR 카드에 마킹하던 거에서 키보드 기반의 코딩으로 넘어왔듯이, 키보드로 코딩하던 거에서 의미를 전달하는 걸로 코딩이 계속 변하고 있는 단계가 될 거고."

신정규

"Claude Code의 핵심 경쟁력은 Opus나 Sonnet 엔진이 아닙니다. Claude Code 그 자체예요."

신정규

"인지 부하가 줄지 않습니다. 아무리 AI에게 뭔가를 맡긴다고 해도 인지 부하가 줄지 않고 오히려 끊임없이 피드백이 들어오기 때문에 사람이 되게 삶이 피폐해집니다."

신정규

"내 일이 줄어드는 게 핵심이 돼야 됩니다. 새로운 걸 배워서 다른 사람들이 만들어 놓은 무언가를 내가 배우는 게 아니라 내가 지금 처리하는 걸 계속 위탁을 하는 식으로 가는 게 훨씬 더 빠르다."

신정규

Agentic Workflow: AI 에이전트가 자동으로 작업을 분석·계획·실행·검증하는 개발 방식. 인간의 개입을 최소화하면서도 품질을 유지한다.
Thinking Token / Thinking Budget: 모델이 최종 답변을 생성하기 전에 내부적으로 진행하는 추론 과정에 사용되는 토큰. 많을수록 답의 질이 높지만 속도가 느려지고 비용이 증가한다.
Adaptive Thinking Budget: 작업의 난이도에 따라 사고량을 동적으로 조절하는 기법. 간단한 작업은 최소로, 어려운 작업은 충분히 사고하게 한다.
고속 인퍼런스(High-Speed Inference): 토큰 생성 속도를 극대화해 같은 시간에 더 많은 반복을 가능하게 하는 기술. 기존 대비 5~10배 빠른 속도를 목표로 한다.
Soul Document (CLAUDE.md): 프로젝트 전체의 맥락·규칙·목표를 담은 문서. 새로운 에이전트 세션이 시작될 때 가장 먼저 읽는 파일로, 일관된 방향성을 유지하게 한다.
Merge Queue: 여러 개발자 또는 에이전트가 동시에 코드를 병합할 때 충돌을 방지하기 위한 대기열. 과거에는 병목이었으나 현재 AI가 자동으로 해결한다.
Cron: 지정된 시간 간격으로 명령을 자동 실행하는 유닉스 계열 시스템의 스케줄러. 신정규 대표는 이를 활용해 15분마다 이슈 감지·처리 파이프라인을 구동한다.
Continuum 라우터: 클라우드 장애 시 로컬 GPU 자원으로 자동 전환(failover)하는 라우터. 의료·금융 등 가용성이 중요한 분야를 위해 설계됐다.
결정론적(Deterministic) 레이어: AI 모델의 확률적 출력을 규칙 기반으로 감싸서 예측 가능하고 안정적인 동작을 보장하는 소프트웨어 층.
DevOps: Development(개발)와 Operations(운영)를 결합한 직군. AI가 개발을 자동화하면서 이 역할이 근본적으로 변할 것으로 전망된다.

Backend.AI:GOContinuum 라우터에이전트 코딩토큰 효율성thinking budget고속 인퍼런스Claude Code 하네스Soul DocumentCLAUDE.mdcron 자동화adaptive thinkingmerge queueDevOps소프트웨어 정의 변화비개발자 온보딩

45 AI와 사회·노동 YouTube

'딸깍'의 시대, 슬픔과 기쁨 사이

AI가 하루 만에 소프트웨어를 만들고 물리학 난제를 12시간 만에 푸는 '딸깍'의 시대에 찾아온 불안과 FOMO를 솔직하게 마주하면서, 취향·태도·학습의 즐거움에서 인간의 고유한 가치를 다시 발견하는 에피소드.

METR 포화와 모델의 연속 출시

Claude Opus 4.6이 METR 벤치마크에서 14시간을 기록하며 기존 과제가 사실상 포화 상태에 도달했다. METR은 새로운 측정 도구 준비 중임을 밝혔다. 같은 시기 Gemini 3.1 Pro도 발표됐고, 모델들은 계속해서 0.1씩 올라가는 방식으로 출시되고 있다. Claude Opus 4.6은 전작보다 저렴하게 동등하거나 나은 성능을 제공할 것으로 보인다.

Chris Lattner의 Claude C 컴파일러 분석

LLVM과 Swift를 만든 컴파일러 전문가 Chris Lattner가 Claude Code가 만든 C 컴파일러를 분석한 블로그를 게시했다. 그는 이 구현이 "교과서적인 가치가 있을 정도"라고 칭찬하면서도 중요한 한계를 지적했다. AI는 테스트를 통과하기 위해 일부를 하드코딩해 일반화에 실패했으며, 알려진 추상화를 구현하는 것과 새로운 추상화를 발명하는 것은 다르다고 했다. 그러나 동시에 "구현 장벽이 낮아질수록 비전·판단·취향의 중요성이 더 커지고, 만들기가 쉬워질수록 무엇이 만들 가치가 있는지를 결정하는 일이 더 어려운 문제가 된다"고 결론지었다.

과학 분야의 켄타우로스 시대 진입

OpenAI 내부 스캐폴딩이 적용된 모델이 양자장론의 수십 년 미해결 문제를 12시간 만에 증명해 논문으로 발표됐다. 세계 최고 수준의 물리학자 두 명도 해내지 못했던 문제였다. 코딩이 이미 켄타우로스(AI+인간 협력) 단계를 넘어섰다면, 과학은 이제 막 그 협력 단계로 진입하는 중이다. 최승준은 이 성과의 핵심이 모델 자체뿐 아니라 "몇 차례 주고받는 과정", 즉 어떤 어휘와 문장으로 대화를 이끌었느냐에 있다고 강조했다.

하네스 엔지니어링과 스캐폴딩의 공용화

"하네스"와 "스캐폴딩"이라는 개념이 이제 일반 용어로 자리 잡았다. Grok 4.2 Agent Swarm처럼 최고 성능 모델 자체가 단일 모델이 아닌 swarm인 경우도 등장했다. Martin Fowler 블로그에서도 OpenAI 하네스 엔지니어링을 다루는 등, 베테랑 엔지니어들도 이 흐름을 적극적으로 배우고 있다. 신정규 대표가 지난 편에서 "Claude Code의 진짜 경쟁력은 하네스"라고 말한 것과 일맥상통한다.

Agentic 코딩 트렌드의 변화 — Ralph Loop에서 티키타카로

초기의 ralph loop(자동 반복)는 "알려진 것 이상은 나오지 않는다"는 한계가 드러나고 있다. 지평을 넓히려면 human-in-the-loop가 반드시 필요하고, context를 이해하며 다른 방향으로 steering하는 프롬프트를 계속 넣어줘야 한다. 노정석은 "input token의 양이 어마어마하게 많고 output이 작은 작업"이 좋은 결과를 낸다는 경험을 공유했다. 지금은 빠른 반복의 ralph loop와 밀도 높은 티키타카가 상황에 따라 공존하는 두 가지 결이 존재한다.

AI 우울증과 MVK(Minimum Viable Knowledge)

누틸드 대표의 "AI의 딸깍 시대, 우리는 왜 우울해졌을까" 블로그 시리즈가 화제가 됐다. 딸깍이 내가 아닌 다른 사람이 하는 것처럼 느껴질 때 우울이 온다. 최승준은 트렌드 캐치업 스트레스 대신 "가설을 세우고 실험하는 태도"라는 MVK(최소한의 필수 지식)에 집중하고 있다. Andrej Karpathy의 microgpt를 직접 타이핑해보고 Gilbert Strang의 선형대수를 천천히 공부하면서 결과가 아니라 과정의 즐거움을 다시 찾았다.

"구현 장벽이 낮아진다고 엔지니어의 중요성이 줄어들지 않고, 오히려 비전, 판단, 취향의 중요성이 더 커집니다. 만들기가 쉬워질수록 무엇이 만들 가치가 있는지를 결정하는 일이 더 어려운 문제가 됩니다."

Chris Lattner (최승준 번역 인용)

"코딩은 이미 켄타우로스 너머의 시절로 가기 시작했는데, 과학은 켄타우로스의 시절로 돌입한 느낌이에요."

최승준

"모르는 채로도 옳은 방향으로 나아가려면, 그 나아가 보는 방향에서 자기가 배움을 얻고 결정하는 품질을 높이고 하는 그 과정과 결합되면 됩니다."

노정석

"너무 이게 되다 보니까, 건강하게 하는 방법을 지금 사람들이 모르는 중이고, 그게 위험하구나라는 거를 알아가고 있는 중인 것 같거든요. AI가 나를 혹사시키고 무리하게 되는 어떤 메커니즘이구나."

최승준

"딸깍이 내가 아니니까. 그 딸깍이 내가 하는 사람들은 지금 신나죠."

노정석

METR 벤치마크: AI가 인간의 개입 없이 자율적으로 작업을 수행할 수 있는 시간을 측정하는 평가 지표. Claude Opus 4.6이 14시간을 기록하며 기존 과제가 포화 상태에 이르렀다.
켄타우로스(Centaur): 반인반마 신화 속 생물에서 유래한 개념. 체스에서 AI와 인간이 팀을 이루면 각자보다 더 강하다는 것을 발견한 데서 비롯된 AI-인간 협력 방식이다.
스캐폴딩(Scaffolding): 건축 비계에서 비롯된 개념. AI 맥락에서는 모델이 더 나은 결과를 도출하도록 설계된 구조화된 지시·프롬프트 체계를 뜻한다.
하네스 엔지니어링: AI 모델 주위에 구성된 자동화 틀. 모델 자체보다 모델을 어떻게 조율하고 반복시키느냐를 설계하는 엔지니어링 영역이다.
MVK(Minimum Viable Knowledge): 올바른 방향으로 나아가기 위해 반드시 알아야 하는 최소한의 지식. 스타트업의 MVP(최소 기능 제품) 개념에서 차용했다.
FOMO(Fear Of Missing Out): 빠르게 변하는 환경에서 자신이 중요한 것을 놓치고 있다는 불안감.
딸깍: AI를 사용해 손가락을 튕기는 것처럼 빠르게 소프트웨어를 만들어내는 현상을 표현하는 한국어 의성어.
Ralph Loop: 명확한 목표가 달성될 때까지 AI가 자동으로 계속 시도하는 반복 루프. 빠른 결과를 얻을 수 있으나 알려진 것 이상의 혁신은 어렵다는 한계가 있다.
양자장론(Quantum Field Theory): 양자역학과 특수상대성이론을 결합한 현대 물리학의 핵심 이론. 소립자의 행동을 설명하는 고도로 복잡한 수학적 체계다.
microgpt: Andrej Karpathy가 200줄의 파이썬 코드로 구현한 초소형 GPT. 트랜스포머의 작동 원리를 직접 손으로 따라 구현하며 배울 수 있는 교육용 코드다.

딸깍 시대METR 포화Claude Opus 4.6Gemini 3.1 ProChris LattnerC 컴파일러켄타우로스양자장론하네스 엔지니어링스캐폴딩MVKRalph Loop티키타카AI 우울증FOMOmicrogpt취향human-in-the-loop