10,000,000. 이것은 Meta가 Llama 4 Scout에 탑재한 컨텍스트 윈도우 토큰 수다. GPT-4o의 기본 컨텍스트인 128,000 토큰의 78배다. Meta는 2026년 4월 5일 이 모델을 무료 오픈 웨이트로 공개했다. 그리고 AI 업계는 이 숫자가 단순한 스펙 경쟁이 아니라는 것을 천천히 깨닫고 있다.
무슨 일이 일어났나: Llama 4의 두 주인공
Meta는 Llama 4 시리즈에서 두 모델을 즉시 공개했다. Llama 4 Scout는 총 1,090억 파라미터(16 전문가, 170억 활성), 컨텍스트 1,000만 토큰으로 업계 최장 기록을 세웠다. Llama 4 Maverick은 총 4,000억 파라미터(128 전문가, 170억 활성), 컨텍스트 100만 토큰으로 MMLU 91.8%, HumanEval 91.5%, SWE-bench 74.2%를 기록해 GPT-4o와 Gemini 2.0 Flash를 모두 초과했다. API 가격은 혼합 기준 토큰 100만 개당 $0.19~$0.49. 아직 오픈 웨이트가 없는 Behemoth(288억 활성)는 STEM 벤치마크에서 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 상회한다고 Meta는 밝혔다.
왜 이것이 생각보다 중요한가
Maverick이 GPT-4o를 넘어섰다는 것은 중요하지만, 그게 핵심이 아니다. 진짜 문제는 Scout의 1,000만 토큰 컨텍스트가 엔터프라이즈 AI 아키텍처의 근본을 흔들고 있다는 것이다. 지난 2년간 AI 스타트업 생태계에서 가장 각광받은 기술 중 하나가 RAG(Retrieval-Augmented Generation)였다. 복잡한 기업 문서, 데이터베이스, 코드베이스를 AI가 처리할 수 있도록 청크로 쪼개고 검색해 오는 방식이다. 그런데 컨텍스트 윈도우가 1,000만 토큰이라면, 수백만 줄의 코드베이스나 수년치 고객 대화 데이터를 그냥 전부 넣으면 된다. 오픈 웨이트이기 때문에 EU, 인도 등 데이터 주권 규제가 강한 지역의 기업들도 자체 인프라에서 운영할 수 있다.
숨은 인사이트: 1,000만 토큰이 죽이는 카테고리들
역사적으로 컨텍스트 윈도우 확장은 점진적이었다. 4K → 8K → 32K → 128K. 하지만 10M은 단순한 확장이 아니라 패러다임 전환이다. 지금 이 순간 수많은 스타트업이 "엔터프라이즈 문서 검색 AI", "코드베이스 이해 AI", "회의록 분석 AI"를 RAG 기반으로 구축하고 있다. Scout의 1,000만 토큰은 이 카테고리 전체를 잠재적으로 상품화한다. 한편 Scout는 오픈 웨이트이므로, Google과 OpenAI의 수백억 달러 모델을 쓰던 기업이 자체 인프라에 Scout를 배포하고 클라우드 API 비용을 극적으로 줄일 수 있다. Meta가 오픈소스를 전략적 무기로 활용하는 방식은 2016년 Facebook이 React를 오픈소스로 공개하던 순간과 닮아있다. 당시 React는 프론트엔드 생태계의 표준이 되었다. Llama가 AI 인프라의 React가 된다면, 그 생태계를 통제하는 쪽이 다음 라운드를 가져간다.

