본문 번역
AI가 정말 업무 속도를 높이고 있을까? 어떤 종류의 작업을 가장 잘 지원하는가? 그리고 사람들의 직업 자체를 어떻게 바꿀 수 있을까?
Anthropic은 이런 질문들에 답하기 위해 실세계 AI 사용 현황을 지속적으로 측정하고 있다. 프라이버시 보존 분석 기법을 활용해 Claude.ai(주로 소비자 사용)와 자사 API(주로 기업 사용)의 대화 데이터를 분석한다. 지금까지의 보고서에서 직업·임금 수준별 AI 과업 분석, 소프트웨어 개발 심층 분석, 국가별·미국 주별 AI 사용 현황 등을 다뤄왔다.
이번 네 번째 보고서에서는 '경제적 프리미티브(Economic Primitives)'라는 새로운 개념을 도입한다. 이는 Claude의 경제적 영향을 시간 경과에 따라 추적하기 위한 5가지 기초 측정 지표 세트로, 작업 복잡도(Task Complexity), 숙련 수준(Skill Level), 사용 목적(Purpose), AI 자율성(AI Autonomy), 성공률(Success)로 구성된다. 이 프리미티브들은 샘플 내 모든 대화에 대해 Claude가 공통된 질문 세트에 답하는 방식으로 도출된다.
2025년 11월의 대화를 샘플링했으며, 주로 Claude Sonnet 4.5 모델 기반이다. Claude.ai 100만 건(소비자)과 자사 API 100만 건(기업)으로 총 200만 건의 대화를 분석했다.
경제적 프리미티브에서 배운 것
어떤 작업이, 얼마나 빨라지는가?
분석 결과, 더 복잡한 작업일수록 Claude에 의한 속도 향상 폭이 더 컸다. '대화 입력을 이해하는 데 필요한 교육 연수'로 복잡도를 측정한 결과, Claude.ai에서 고등학교 교육(12년) 수준의 과업은 9배, 대학교 학위(16년) 수준의 과업은 12배 빨라졌다. API에서는 그 차이가 더 컸다. 이는 AI의 생산성 이득이 상대적으로 높은 인적 자본을 요구하는 과업에 집중되고 있음을 의미하며, 화이트칼라 전문직이 업무에서 AI를 더 많이 사용한다는 기존 연구 결과와 일치한다.
성공률을 보정해도 이 경향은 유지된다. Claude는 대졸 수준 과업을 66%, 고졸 미만 과업을 70%의 성공률로 완수한다. 복잡도에 따른 성공률 감소보다 속도 향상 폭이 훨씬 가파르게 증가하기 때문에, 전체 효과는 줄어들되 사라지지 않는다.
Claude는 어느 정도의 시간 범위까지 작업을 지원할 수 있는가?
METR의 AI 과업 지평(Task Horizon) 벤치마크에 따르면, 긴 작업일수록 AI 모델이 완수하기 어렵다. 하지만 모델이 발전하면서 이 한계가 꾸준히 확장되고 있다.
Anthropic은 자체 프리미티브로 이 분석을 보완했다. METR 벤치마크상 Claude Sonnet 4.5는 약 2시간짜리 작업에서 50% 성공률을 달성하는 반면, Anthropic의 자체 API 데이터에서는 약 3.5시간, Claude.ai에서는 무려 약 19시간짜리 작업에서 같은 성공률을 보였다. 이 차이는 방법론의 차이에서 비롯된다. 실사용자들은 복잡한 작업을 더 작은 단계로 나눠 피드백 루프를 형성하고, 작동할 거라고 기대하는 작업을 선별적으로 가져오기 때문이다.
벤치마크 환경과 실사용 환경의 차이는 AI 능력을 평가하는 데 있어 핵심적인 문제다. 사용자의 '작업 분해' 전략과 선별 편향이 AI의 실효적 과업 지평(effective task horizon)을 벤치마크보다 크게 확장시킨다.
국가별로 Claude 사용 방식이 어떻게 다른가?
경제 발전 수준이 다른 국가들에서 Claude는 매우 다른 종류의 과업을 수행한다. 1인당 GDP가 높은 국가에서는 업무나 개인 용도로 훨씬 많이 사용되는 반면, 스펙트럼의 반대편에 있는 국가들은 교육 과제에 더 많이 활용한다. 이는 저소득 국가에서 소수의 업무 과업과 교육에 집중되다가, 소득이 높아지면서 개인적 용도로 다양화되는 '채택 곡선(adoption curve)' 가설에 부합한다.
이 결과는 Microsoft의 최근 연구와도 일치한다. Microsoft는 교육 목적 AI 사용을 낮은 소득과, 여가 목적 사용을 높은 소득과 연결지었다. Anthropic은 르완다 정부 및 ALX와의 파트너십에서 이 점을 고려해, 참가자들이 먼저 AI 리터러시를 개발하고 이후 광범위한 응용으로 전환하는 프로그램을 설계했다.
직업 수준 분석
과업 커버리지
2025년 1월 데이터를 다룬 첫 보고서에서, 샘플 내 36%의 직업에서 Claude가 최소 25%의 과업에 사용되었다. 보고서 전체를 통합하면 이 수치는 49%로 상승했다. 하지만 Claude의 성공률을 고려해(해당 과업의 수행 빈도와 소요 시간으로 가중치 적용) 조정하면, AI의 영향을 가장 많이 받는 직업의 양상이 달라진다.
예를 들어, 데이터 입력 담당자와 방사선 전문의는 단순 과업 커버리지가 시사하는 것보다 훨씬 큰 영향을 받는 반면, 교사와 소프트웨어 개발자는 상대적으로 덜 영향을 받는 것으로 나타났다.
과업 내용: 고숙련 과업 우선 대체의 함의
AI가 커버하는 과업이 해당 직업 내에서 더 높은 숙련도를 요구하는지, 낮은 숙련도를 요구하는지를 분석한 결과, Claude가 상대적으로 더 높은 교육 수준을 요구하는 과업을 커버할 가능성이 높았다. 구체적으로, Claude가 커버하는 과업의 평균 필요 교육 수준은 14.4년(미국 준학사 학위에 해당)으로, 경제 전체 평균인 13.2년보다 높다.
Claude가 커버하는 과업을 제거하면 직업의 과업 구성이 어떻게 변할지 실험적으로 추정한 결과, 1차 효과로 직업들이 평균적으로 탈숙련화(deskill)될 것으로 나타났다. 기술 작가, 여행 대리인, 교사 등이 특히 영향을 받는다. 다만 이것이 반드시 현실화될 것으로 예측하는 것은 아니며, 노동시장이 동적으로 조정될 가능성이 있다.
총량적 영향
Anthropic의 이전 연구에서는 AI의 광범위한 채택이 향후 10년간 미국 노동생산성 성장률을 연간 1.8%포인트 증가시킬 수 있다고 추정했다. 이는 추세 성장률의 약 두 배에 해당한다.
새로운 프리미티브를 적용해 재검증한 결과, 과업 속도 향상만으로는 이전과 동일한 1.8%포인트 추정치가 나왔다. 그러나 과업 신뢰성(reliability) — 즉 과업이 성공적으로 완료될 확률로 조정하면 — Claude.ai에서는 약 1.2%포인트, API에서는 약 1.0%포인트로 감소했다.
그러나 연간 1%포인트 증가만으로도 상당히 의미 있는 수치다. 이는 미국 생산성 성장률을 1990년대 말~2000년대 초 수준으로 되돌릴 것이다. 또한 이 추정치는 AI 모델이 훨씬 더 강력해지거나 업무에서의 AI 활용이 훨씬 정교해질 가능성을 반영하지 않는다.
이전 지표 업데이트
사용 집중도
Claude 사용은 여전히 특정 과업에 높게 집중되어 있다. Claude.ai에 3,000개 이상의 고유 업무 과업이 존재하지만, 상위 10개가 전체의 24%를 차지하며, 이는 2025년 1월의 21%에서 꾸준히 증가했다. 컴퓨터·수학 과업이 Claude.ai 대화의 약 1/3, API 트래픽의 거의 절반을 차지하며 여전히 지배적이다.
증강 vs 자동화
새 보고서에 따르면, Claude.ai에서 증강(52%)이 자동화(45%)를 다시 앞섰다. 이는 8월 샘플에서 자동화가 49% 대 47%로 앞섰던 것의 반전이다. 하지만 더 긴 시간축에서 보면 자동화 비중은 서서히 증가하는 추세다. 2025년 1월에는 증강 55% 대 자동화 41%, 3월에는 55% 대 42%였다.
지리적 분포
AI 사용의 지리적 집중은 여전하다. 미국, 인도, 일본, 영국, 한국이 Claude.ai 사용을 주도하고, 채택률은 1인당 GDP로 잘 설명된다. 미국 상위 5개 주가 전체 사용량의 거의 절반(50%)을 차지하지만, 생산가능 인구로는 38%에 불과하다. 다만 미국 내에서는 주(州)별 수렴이 빠르게 진행되고 있어, 이 추세가 지속되면 2~5년 내 전국적으로 균등화될 것으로 예측된다. 이는 20세기의 경제적으로 중요했던 기술들의 확산 속도보다 약 10배 빠른 수준이다.
1인당 GDP가 1% 증가하면 1인당 Claude 사용량이 0.7% 증가한다. 고소득 국가일수록 자동화보다 협업적 방식의 AI 사용 비율이 높으며, Claude에게 위임하는 의사결정 자율성이 낮다. 즉 부유한 국가일수록 AI를 독립적으로 작동시키기보다는 보조 도구이자 협력자로 사용한다.
결론
이번 보고서의 가장 직접적인 결론은, AI가 전 세계 노동력에 미치는 영향이 여전히 매우 불균등하다는 것이다. AI 사용은 특정 국가와 직업에 집중되어 있으며, 과업 커버리지 분석이 보여주듯 일부 직업에는 다른 직업과 매우 다른 방식으로 영향을 미친다.
보다 넓은 관점에서, 이 보고서는 향후 조사와 비교할 수 있는 새로운 기준선을 만들었다. Claude가 발전하면 더 어려운 작업을 맡게 될 것이고, 아마 더 높은 성공률을 달성할 것이다. 또한 과업이 Claude.ai에서 API로 — 즉 소비자에서 기업으로 — 이동할 수 있으며, 이는 기업 채택이 AI의 생산성 효과에 미치는 중요성을 고려할 때 경제적 영향의 또 다른 선행 지표가 될 수 있다.