GROK3를 맞이하며 AI 세상에 대한 관점 정비하기
Grok 3 출시를 계기로 컴퓨트·알고리즘·서비스 세 가지 렌즈로 AI 산업의 현황을 정리하고, 모델 성능 추적보다 '가전제품 만들기'에 집중해야 할 때가 왔음을 역설한다.
빠르게 변하는 AI 세상과 관점의 필요성
ChatGPT 출시(2022년 11월) 이후 놀라움을 느끼는 주기가 연 단위에서 주 단위로 줄어들었고, arXiv에 하루 500~1,000개의 AI 논문이 올라오는 시대가 됐다. 노정석은 이 지수함수적 변화를 해석하기 위해 '컴퓨트·알고리즘·서비스'라는 세 가지 카테고리 프레임을 2020년부터 유지해 왔으며, 그 관점이 여전히 유효하다고 말한다.
컴퓨트: 상향 평준화되는 모델 품질
xAI는 20만 개의 GPU로 구성된 데이터센터를 122일 만에 자체 구축해 Grok 3를 출시했다. 컴퓨테이션 총량이 2배 늘어도 성능 향상은 스케일링 법칙에 따라 loss 24% 감소 수준에 그쳐 체감 차이는 크지 않다. 그러나 벤치마크 인덱스로 보면 OpenAI, Google, Anthropic, Meta, xAI 모두 프론티어 모델 품질이 빠르게 상향 평준화되고 있으며, OpenAI의 선두 우위가 흔들리고 있다.
알고리즘: DeepSeek R1과 S1이 보여준 데이터의 힘
DeepSeek R1은 강화학습(RL)으로 인스트럭터 모델을 리즈닝 모델로 변환할 수 있음을 공개적으로 증명했다. 이어 스탠포드 S1 논문은 단 1,000개의 고품질·고난도 데이터셋만으로 Qwen 3B 모델을 OpenAI o1-preview 수준으로 끌어올렸다. 노정석은 이를 '텍스트북 is All You Need'로 요약하며, 좋은 데이터 1,000개가 방대한 컴퓨트보다 강력할 수 있음을 강조한다.
선순환의 굴레: 합성 데이터와 차세대 모델
프론티어 모델이 좋아질수록 고품질 합성(synthetic) 데이터가 생성되고, 그 데이터로 다음 세대 모델과 소형 모델을 학습시키면 다시 품질이 올라가는 선순환이 구동 중이다. 리즈닝 모델과 인스트럭터 모델의 경계도 사라지고 있으며, 테스트 타임 컴퓨트를 통해 생성된 데이터가 다음 훈련에 재투입되는 구조가 ASI(초인공지능) 등장 때까지 지속될 것이라고 전망한다.
인텔리전스 가격은 0에 수렴한다
여러 플레이어가 경쟁하면서 AI 인텔리전스의 공급 가격은 궁극적으로 0에 수렴할 것이다. 사람들은 필요한 업무를 처리할 수 있는 가장 싼 모델을 선택하기 때문에, 경쟁이 심화될수록 가격은 계속 낮아진다. 이 시점에서 '30원이냐 40원이냐'를 논쟁하는 것은 의미가 없다고 본다.
모델 추적을 멈추고 가전제품에 집중할 때
CPU 스펙을 달달 외워도 자신의 수익과 무관하듯, 모델 성능 뉴스 추적도 마찬가지라고 말한다. 전기처럼 인텔리전스가 콘센트처럼 어디서나 쓸 수 있게 되면, 중요한 건 그 전기를 활용해 만드는 가전제품(서비스·제품)이다. 노정석은 이제 '모델 팔로잉'을 그만하고 '가전제품 만들기'에 미친 듯이 집중할 시기라고 결론짓는다.
"좋은 교과서 하나만 있으면 다 된다라는 거를 보여 주는 거죠."
"인텔리전스의 가격이 0으로 수렴해 가고 있다는 거, 에이 좋은 모델은 더 비싸게 파는 거 아니야 근데 이게 참 생각을 해 보면 두 배 좋은데 가격이 열배 비싸다라고 하면 사람들이 아마 그거 안 쓸 거예요."
"지금 모델이 어떻다 얘기하는게 꼭 CPU 스펙 외우는 꼴과 비슷한 거 같은 느낌이 들어서 어 저는 이제 요거는 이제 그만하려고 그래요."
"인텔리전스 아웃렛이 달리기 시작을 할 건데 … 뭐가 중요한 걸까 뭘 만들어야 될까라는 생각을 해보면 그냥 전기의 비유를 갖고 와서 생각을 해 보면 당연히 요런 것들이 아아 우리의 삶을 더 윤택하게 만드는 각종 어플라이언스를 가전제품들이죠."
"이제는이 모델에서 일어나는 거 팔로잉을 그만하고 가전 제품에 집중해야 되겠다라는 생각을 요새 강력하게 하고 있는 중입니다."
- 스케일링 법칙 (Scaling Law)
- 컴퓨테이션을 2배 늘릴 때 모델 성능(loss)이 약 24% 개선된다는 경험적 법칙. 2020년 OpenAI 논문에서 처음 정리됐으며, 무한정 컴퓨트를 투입해도 성능 향상 폭은 점점 줄어든다.
- 테스트 타임 컴퓨트 (Test-Time Compute, TTC)
- 모델 훈련이 끝난 후에도 실제 답변을 생성하는 '추론' 단계에서 더 많은 계산 자원을 투입해 성능을 높이는 기법. 오래 생각할수록 더 나은 답을 내놓는다.
- 리즈닝 모델 (Reasoning Model)
- 단순히 답을 내놓는 대신, 중간 추론 과정을 길게 전개하며 문제를 푸는 모델. OpenAI o1, DeepSeek R1이 대표적이다.
- 디스틸레이션 (Distillation, 증류)
- 크고 강력한 모델이 만들어낸 고품질 데이터를 소형 모델에 학습시켜, 작은 모델도 큰 모델에 준하는 성능을 내게 하는 기법.
- SFT (Supervised Fine-Tuning)
- 이미 사전 학습된 모델에 레이블이 붙은 고품질 데이터를 추가 학습시켜 특정 작업에 특화시키는 방법.
- MOE (Mixture of Experts)
- 모델 내부에 여러 전문가(expert) 네트워크를 두고, 입력에 따라 일부만 활성화해 전체 파라미터 수 대비 연산 효율을 높이는 아키텍처.
- 합성 데이터 (Synthetic Data)
- 실제 인간이 만든 데이터가 아니라 AI 모델이 스스로 생성한 데이터. 데이터 부족 문제를 해결하는 핵심 수단으로 부상하고 있다.
- 인텔리전스 아웃렛
- 전기 콘센트처럼 AI 인텔리전스가 어디서나 API 형태로 손쉽게 연결되어 쓸 수 있게 되는 미래 상태를 빗댄 표현.
- GPQA (Graduate-Level Google-Proof Q&A)
- 대학원 수준의 과학 문제로 구성된 AI 벤치마크. 전문가도 쉽게 검색으로 풀 수 없는 문제를 포함한다.
- KV 캐시 (Key-Value Cache)
- Transformer 모델이 이전에 처리한 토큰 정보를 저장해 반복 계산을 줄이는 메모리 최적화 기법.