2026년 2월 16일, 알리바바의 Qwen 팀은 아무 예고 없이 GitHub에 파일 하나를 올렸다. 모델 웨이트, 훈련 설정, 84페이지 기술 보고서, 그리고 Apache 2.0 라이선스. 이것이 Qwen 3.5였다. 경쟁사들이 수조 원짜리 GPT-5 발표에 스포트라이트를 받고 있는 동안, 중국의 한 팀이 AI 비용의 근본 방정식을 조용히 다시 쓰고 있었다.
무슨 일이 일어났나: 숫자로 보는 Qwen 3.5
Qwen 3.5는 3,970억 개의 파라미터를 가진 혼합 전문가(Mixture-of-Experts, MoE) 모델이다. 그런데 토큰 하나를 처리할 때 실제로 활성화되는 파라미터는 170억 개에 불과하다. 알리바바 자사의 1조 파라미터 모델과 동등한 성능을 내면서, 추론 비용은 그 일부에 그친다. 컨텍스트 윈도우는 기본 256,000 토큰이며 호스팅 환경에서 100만 토큰까지 확장된다. 지원 언어는 201개—방언까지 포함해 사실상 전 세계를 커버한다. 출시 첫날부터 Apache 2.0 라이선스로 공개되었으며, 훈련 설정과 함께 완전한 오픈 웨이트를 제공한다.
왜 이것이 생각보다 중요한가
표면적으로 Qwen 3.5는 "또 하나의 강력한 오픈소스 모델"처럼 보인다. 그러나 이 모델이 의미하는 것은 다르다. AI 산업의 불문율 중 하나는 "더 강한 모델에는 더 많은 컴퓨팅이 필요하다"는 것이었다. Qwen 3.5는 그 법칙에 균열을 낸다. MoE 아키텍처는 이미 알려진 기술이지만, 알리바바는 이를 멀티모달 에이전트 용도에 특화해 최적화했다. 코딩, 추론, 이미지 이해를 단일 모델에서 처리하며, 100만 토큰 컨텍스트로 전체 코드베이스나 2시간 분량의 영상을 RAG 없이 처리할 수 있다. 데이터 프라이버시가 중요한 기업 법무팀, 의료 기관, 정부 기관에게 이것은 폐쇄적인 API 없이도 운영 가능한 첫 번째 진정한 프론티어급 오픈 모델에 가깝다.
숨은 인사이트: MoE 효율성이 만드는 새로운 권력 지형
Qwen 3.5의 진짜 충격은 모델 자체가 아니라 그것이 증명하는 원리에 있다. AI 경쟁의 핵심이 "누가 가장 큰 모델을 만드느냐"에서 "누가 가장 효율적인 모델을 만드느냐"로 이동하고 있다는 것. OpenAI와 Google이 수십억 달러의 데이터센터 투자로 규모의 경제를 구축하는 동안, 알리바바는 그 게임 자체를 바꿔버렸다. 특히 주목할 것은 속도다. DeepSeek의 R1이 저비용 추론의 가능성을 처음 보여준 것이 2024년 말이었다. 불과 1년 남짓 만에 알리바바는 그 원리를 멀티모달, 에이전트, 201개 언어로 확장했다. 이 속도는 중국 AI 팀들이 단순히 "따라가는" 것이 아님을 시사한다. 규모 경쟁이 아닌 효율성 경쟁에서는, 거대한 GPU 클러스터보다 더 나은 알고리즘이 이긴다.

