"첫 모델이 좋은 성능을 보이겠지만, 더 중요한 것은 우리가 얼마나 빠른 속도로 나아가는지를 보여주는 것입니다." 2026년 4월 8일, 저커버그가 Muse Spark 출시와 함께 한 말입니다. 조심스럽게 들리죠. 이유가 있어요. 메타는 지난해 Llama 4로 큰 상처를 입었거든요. 벤치마크 조작 의혹에 오픈소스 전략의 역풍까지. 그 실패를 딛고 완전히 새로운 조직을 만들어 다시 돌아왔습니다. 바로 메타 슈퍼인텔리전스랩(Meta Superintelligence Labs)이고, 그 첫 모델이 Muse Spark입니다. 과연 메타의 반격이 통할지, 지금 완전히 분석해드릴게요.
1. Muse Spark가 탄생한 배경
Muse Spark를 제대로 이해하려면 메타가 왜 이걸 만들었는지부터 알아야 합니다. 2025년 4월, 메타는 Llama 4로 OpenAI·Anthropic·Google과 정면 대결을 선언했어요. 결과는 참담했습니다. 벤치마크에서 좋은 모델을 사용하고, 실제 사용자에게는 다른 버전을 제공했다는 조작 의혹이 불거졌고, 메타는 이를 결국 인정했습니다.
더 큰 문제는 오픈소스 전략의 부메랑이었어요. Llama를 오픈웨이트로 공개했더니 알리바바, DeepSeek 같은 중국 기업들이 가져다 더 강력한 모델을 만들어 역으로 추격해 오는 상황이 됐습니다. 실제로 Llama 다운로드의 41%가 중국 기반 허브에서 이루어지고 있다는 통계까지 나왔어요. 오픈소스가 경쟁자에게만 이익을 준 셈이 된 거죠.
저커버그는 즉각 칼을 뽑았습니다. 데이터 라벨링 기업 Scale AI 지분 49%를 143억 달러(약 20조 원)에 인수하고, 공동창업자인 알렉산드르 왕을 최고AI책임자(CAIO)로 영입했어요. 왕은 OpenAI·Anthropic·Google 출신 AI 연구자들을 대거 스카우트했고, 일부는 수억 달러의 영입 비용을 썼다고 전해집니다. 이렇게 탄생한 조직이 바로 메타 슈퍼인텔리전스랩(MSL)이고, Muse Spark는 그 첫 번째 결과물입니다.
2. Muse Spark가 Llama와 다른 3가지
1) 폐쇄형 모델로 전환
Llama 시리즈와 가장 크게 달라진 점은 오픈소스를 포기했다는 거예요. Muse Spark는 비공개 모델로 출시됐습니다. 코드와 모델 가중치가 공개되지 않아요. 메타가 처음으로 OpenAI·Anthropic처럼 폐쇄형 전략을 택한 겁니다. 향후 오픈소스 버전이 나올 예정이라고는 하지만, 라마 시절과는 완전히 다른 행보예요.
2) 완전히 새로운 아키텍처
Muse는 Llama 시리즈와 계보가 다릅니다. 슈퍼인텔리전스랩이 모델 아키텍처, 최적화, 데이터 큐레이션을 포함한 AI 스택 전체를 처음부터 다시 구축했어요. 이름에서부터 거리를 두는 것 자체가 Llama의 오명을 씻겠다는 의지의 표현이기도 합니다.
3) 네이티브 멀티모달 추론
Muse Spark는 메타의 첫 네이티브 멀티모달 모델입니다. 이미지 속 정보를 텍스트로 변환해서 이해하는 기존 방식과 달리, 시각 정보 속의 논리적 관계를 직접 파악하고 이를 기반으로 추론합니다. 텍스트·이미지·음성을 처음부터 통합해서 처리하는 방식이에요.
3. 핵심기술, '사고압축' 작동원리
Muse Spark에서 가장 주목할 만한 기술은 '사고 압축(Thought Compression)'입니다. AI가 추론할 때 쓰는 토큰 수를 줄이면서도 정확도를 유지하는 방식이에요.
기존 AI 모델들은 복잡한 문제를 풀 때 매우 긴 추론 체인을 거칩니다. 생각을 많이 할수록 정확하지만 느리고 비싸지는 구조예요. Muse Spark는 강화학습 과정에서 '사고 시간'에 패널티를 부여해, 모델이 추론 토큰을 과도하게 쓰지 않도록 훈련했습니다. 더 적은 토큰으로 문제를 풀어낸 뒤 다시 정밀도를 높이는 방식이에요.
그 결과, Llama 4 Maverick과 동등한 성능을 내는 데 필요한 컴퓨팅이 10배 이상 줄었다고 메타는 밝혔습니다. 이게 사실이라면 AI 학습 비용의 패러다임 자체를 바꿀 수 있는 혁신이에요.
숙고 모드(Contemplating Mode)
Muse Spark에는 세 가지 응답 모드가 있습니다. 빠른 '인스턴트(Instant)' 모드, 단계적으로 풀어나가는 '싱킹(Thinking)' 모드, 그리고 여러 에이전트가 병렬로 추론하는 '숙고(Contemplating)' 모드입니다. 숙고 모드는 Google의 Gemini Deep Think, OpenAI의 GPT Pro 확장 추론에 대응하는 기능이에요. 출시 첫날 전면 공개되지 않고 단계적으로 적용될 예정입니다.
4. 벤치마크 결과 어디서 강하고 어디서 약한가
솔직하게 수치로 보여드릴게요. 메타가 공개한 벤치마크와 독립 평가 결과가 다소 엇갈리는 부분이 있어 두 가지를 모두 확인하는 게 중요합니다.
| 벤치마크 | Muse Spark | Gemini 3.1 Pro | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|---|---|
| CharXiv Reasoning (차트 이해) | 86.4% | 80.2% | 82.8% | - |
| HealthBench Hard (의료) | 42.8% | 20.6% | 40.1% | - |
| MMMU Pro (멀티모달) | 80.4% | - | - | - |
| GPQA Diamond (추론) | 89.5% | 94.3% | 92.8% | 92.7% |
| HLE (Humanity's Last Exam) | 50.4% (메타 발표) / 39.9% (독립 평가) | 44.7% | - | - |
| AI Intelligence Index | 52점 | 57점 | 57점 | - |
차트 이해, 의료 추론, 멀티모달 인식에서는 경쟁 모델을 앞섭니다. 반면 박사급 추론(GPQA)과 종합 지능 지수에서는 상위권에 미치지 못해요. 특히 독립 평가기관 Artificial Analysis는 Muse Spark를 전체 순위 4위(52점)로 측정했는데, 1~2위의 57점과는 격차가 있습니다.
메타 스스로도 장기 에이전틱 시스템과 코딩 워크플로에서 성능 격차가 존재한다고 솔직하게 인정했어요. 저커버그가 출시 전부터 기대치를 낮춘 것도 이런 맥락입니다.
5. Llama 4 논란 재발? 벤치마크 신뢰성 문제
한 가지 짚어드려야 할 부분이 있어요. 메타는 Llama 4에서 벤치마크 조작 전례가 있습니다. 이번 Muse Spark에서도 HLE 점수가 메타 발표치(50.4%)와 독립 평가기관 수치(39.9%) 사이에 10포인트 이상 차이가 납니다. 메타가 자체 측정한 수치를 그대로 믿기보다는, 제3자 평가 결과와 교차 확인하는 게 필요해요.
또한 Muse Spark 출시 이후 모델이 평가 환경을 인지하고 그에 맞춰 다르게 행동한다는 초기 증거가 발견됐는데, 메타는 이를 출시를 막을 수준은 아니라고 결론 내렸다고 밝혔습니다.
6. 어떻게 써볼 수 있나?
Muse Spark는 현재 Meta AI 앱과 웹사이트에 적용됐으며, 앞으로 몇 주 안에 WhatsApp·Instagram·Facebook Messenger·AI 안경까지 순차 확장될 예정입니다. 클로즈드 API 프리뷰는 선별된 파트너에게 먼저 제공되고, 향후 더 넓은 상업적 접근이 계획돼 있습니다.
2026년 메타는 AI 설비투자로 최대 1,350억 달러를 집행할 계획이에요. 지난해의 거의 두 배 수준입니다. Muse Spark는 완성형이 아닌 출발점이라고 메타는 강조합니다.
메타의 반격
Muse Spark는 메타가 AI 패권 경쟁에 다시 발을 들여놓은 반격 카드입니다. 차트 이해와 의료 추론에서 경쟁사를 앞서는 성능은 분명하고, 사고 압축 기술을 통한 연산 효율 10배 향상은 주목할 만한 혁신이에요.
다만 전반적인 추론 능력과 코딩에서 아직 최상위권에는 미치지 못하고, 벤치마크 신뢰성 문제도 완전히 해소되지 않았습니다. 저커버그의 말처럼, 지금 Muse Spark가 얼마나 강한지보다 앞으로 메타가 얼마나 빠르게 따라잡는지가 더 중요한 관전 포인트가 될 거예요.
0 댓글