2019년부터 138억 달러를 OpenAI에 쏟아부은 마이크로소프트가 드디어 독자 AI 모델을 세상에 내놨습니다. 2026년 4월 2일, 구글 딥마인드 공동창업자이자 인플렉션AI 전 CEO 무스타파 술레이만이 이끄는 MAI 슈퍼인텔리전스 팀이 MAI-Transcribe-1(음성 인식), MAI-Voice-1(음성 생성), MAI-Image-2(이미지 생성) 3종을 동시에 공개했어요. 이 중 MAI-Transcribe-1은 FLEURS 벤치마크에서 OpenAI와 Google을 제치고 오류율 3.8%를 기록했습니다. 10명 내외의 소수 팀이 만든 모델이 업계 최고 성능을 냈다는 사실 — 이게 왜 중요한지, 지금부터 완전히 분석합니다.
1. MS와 OpenAI, 무엇이 달라졌나
마이크로소프트와 OpenAI의 관계는 AI 업계 역사상 가장 성공적인 파트너십으로 꼽혀왔어요. MS는 2019년부터 총 138억 달러를 투자했고, OpenAI의 API는 Azure 클라우드 전용으로 운용됐습니다. ChatGPT 폭발 성장 덕분에 Azure도 빠르게 성장했어요.
그런데 2025년에 결정적 변화가 생겼습니다. MS와 OpenAI가 협력 조건을 재협상하면서, 마이크로소프트의 범용 AI 모델 자체 개발을 제한하던 계약 조항이 삭제됐어요. 이 조항이 바로 MS가 막강한 자본력을 가지고도 자체 거대 모델 개발에 나서지 못했던 핵심 이유였습니다.
계약 족쇄가 풀리자 MS는 바로 움직였어요. 2025년 11월 무스타파 술레이만 주도로 MAI 슈퍼인텔리전스 팀을 출범시켰고, 2026년 3월에는 Copilot 조직을 전면 개편해 술레이만이 일상 운영에서 벗어나 최첨단 모델 개발에만 전념할 수 있는 구조를 만들었어요. 3월에는 AllenAI 전 CEO 알리 파르하디, 3월 17일에는 Snap 전 SVP 제이컵 앤드리우가 Copilot EVP로 합류하며 전열을 정비했습니다. 그 첫 번째 결실이 출범 6개월 만에 나온 MAI 모델 3종이에요.
2. 3종 모델 특징 소개
MAI-Transcribe-1 — 음성 인식 세계 1위
가장 주목받는 모델입니다. 한국어 포함 25개 언어를 지원하며, AI 업계 표준 음성 인식 평가 지표인 FLEURS 테스트에서 평균 오류율 3.8%를 기록했어요. OpenAI Whisper와 Google 모델을 모두 앞서는 수치입니다.
특히 강점이 눈에 띄는 두 가지 환경이 있어요. 첫째, 여러 언어가 뒤섞이는 다국어 회의 환경입니다. 국제 컨퍼런스나 다국적 기업 회의에서 참가자들이 여러 언어로 전환하며 말해도 정확하게 인식해요. 둘째, 소음 환경입니다. 콘서트 현장이나 교통 소음이 있는 환경에서도 사람의 목소리를 정확히 잡아낸다고 MS가 강조했어요. Copilot, Bing, 그리고 Azure Speech에 이미 적용되고 있습니다.
MAI-Voice-1 — 60배 빠른 음성 생성
60초 분량의 오디오를 단 1초 만에 생성합니다. 속도만 놀라운 게 아니에요. 짧은 음성 샘플 데이터만 제공하면 그 사람과 똑같은 목소리로 맞춤형 음성 클론을 만들 수 있어요. 개인화된 AI 음성 서비스나 오디오북 제작 현장에서 즉각적인 반응이 나오는 이유입니다. Copilot과 Azure Speech에 이미 통합됐어요.
MAI-Image-2 — 이미지 3강 구도 진입
이미지 생성 모델 중 가장 공신력 있는 평가 플랫폼 중 하나인 Arena.ai에서 상위 3위권에 진입했습니다. 이로써 AI 이미지 생성 시장에 구글(Gemini 3.1 Flash Image) + OpenAI(GPT Image 1.5) + 마이크로소프트(MAI-Image-2)의 3강 구도가 형성됐어요. Midjourney나 Stability AI 같은 독립 업체들에게는 더 큰 압박이 될 전망입니다.
3. 10명이 만든 모델이 세계 최고?
이번 출시에서 가장 놀라운 사실 중 하나는 각 모델 개발팀이 10명 내외의 소수 인원으로 구성됐다는 점이에요. 거대 자본과 수백 명의 인력을 투입하는 게 당연한 AI 개발 관행과 완전히 다른 접근입니다.
술레이만은 "최근 몇 달 사이 세 가지 최고 수준 모델을 연이어 출시했으며, 이미 마이크로소프트 전체에 걸쳐 실제 서비스에 적용하고 있다"고 강조했어요. "더 빠르고, 더 뛰어나며, 가격 대비 성능에서도 경쟁력을 갖췄다"는 메시지는 단순한 제품 설명이 아니라 OpenAI를 겨냥한 선언입니다.
4. 이중 트랙 전략 — OpenAI와 공존하며 독립하는 방식
중요한 점은 MS가 OpenAI와 완전히 결별한 게 아니라는 거예요. 여전히 GPT 시리즈는 Azure를 통해 제공되고, MS는 OpenAI 지분 가치도 보유하고 있어요.
MS가 선택한 건 '이중 트랙 전략'입니다. OpenAI 모델을 계속 제공하면서 동시에 자체 MAI 모델도 선택지로 제공하는 구조예요. 개발자와 기업 고객 입장에서는 더 많은 선택지가 생기고, 가격 경쟁이 심화될 수밖에 없어요. OpenAI 입장에서는 최대 파트너가 직접 경쟁자로 전환하는 압박을 받는 구조입니다.
술레이만의 목표는 명확해요. "2027년 안에 텍스트·이미지·음성을 모두 아우르는 최첨단 모델을 자체적으로 확보하겠다." GPT-5급과 경쟁하는 범용 LLM을 만들겠다는 선언입니다.
5. 빅테크 AI 독립전쟁의 신호탄
MS의 MAI 출시는 단독 사건이 아닙니다. 구글은 처음부터 Gemini를 자체 개발했고, 메타는 Llama로 오픈소스 진영을 이끌고 있어요. 아마존은 Anthropic에 투자하면서도 자체 Titan 모델을 개발 중이고, 애플은 온디바이스 AI를 독자적으로 구축하고 있어요.
2026년은 빅테크들이 AI 의존에서 AI 자립으로 전환하는 해입니다. OpenAI와 Anthropic이 독자 프론티어를 구축하는 사이, 기존 플랫폼 기업들도 더 이상 외부 AI에만 의존하지 않겠다는 선언을 잇달아 내놓고 있어요. 이 흐름에서 MS의 MAI는 가장 상징적인 사건이에요. 가장 깊은 의존 관계였던 MS-OpenAI 파트너십에 균열이 생겼다는 신호이기 때문입니다.
GPT-5급 LLM까지 나온다면?
MAI 모델 3종의 벤치마크 성능은 인상적이지만 더 중요한 건 그 의미입니다. 세계 최대 소프트웨어 기업이 "AI 역량은 외부에서 빌리는 게 아니라 직접 만들겠다"고 선언한 것이고, 그 첫 결과물이 업계 최고 성능을 냈어요. 2027년 목표인 GPT-5급 범용 LLM이 나온다면, AI 업계 판도는 다시 한번 뒤집힐걸로 생각됩니다.
0 댓글