"우리는 역대 가장 강력한 AI 모델을 만들었습니다. 그러나 공개하지 않겠습니다." 2026년 4월 7일, 앤트로픽이 AI 역사에서 전례 없는 발표를 했어요. GPT-2 이후 처음으로 "너무 위험해서 출시할 수 없다"는 판정을 받은 AI가 탄생한 겁니다. 이름은 Claude Mythos Preview. SWE-bench 93.9%, 27년 된 보안 취약점을 수분 만에 발굴, CTF 챌린지 35개 전부 100% 성공. 인간 최정예 해커를 넘어서는 수준이라는 이 모델, 도대체 얼마나 강하길래 앤트로픽은 세상에 내놓지 않기로 했을까요?

claude mythos


1. 3월 26일 유출의 시작

Claude Mythos의 존재가 세상에 알려진 건 공식 발표가 아니었어요. 2026년 3월 26일, 앤트로픽 직원의 실수로 공개돼선 안 될 내부 블로그 초안이 외부에 노출됐습니다. 포춘(Fortune) 기자가 이를 발견해 독점 보도하면서 일파만파 퍼졌고, 앤트로픽은 27일 접근을 차단한 뒤 공식 성명을 냈어요.

"초안 문서가 유출된 것이 맞으며, Mythos는 현재 얼리 액세스 고객들에게 테스트 중인 모델이 맞다." 이걸로 존재는 확인됐고, 이후 업계 관심이 폭발했어요. 10조 파라미터 이상이라든지, 학습 비용으로만 100억 달러가 들었다든지 하는 미확인 루머들도 함께 퍼졌습니다.

그리고 4월 7일, 앤트로픽은 244페이지짜리 시스템 카드, 공식 블로그 포스트, 정성껏 제작한 영상까지 한꺼번에 내놓으며 Mythos를 공식 확인했습니다. 동시에 "일반 공개 계획은 없다"고 못을 박았어요.

2. 왜 Mythos 란 이름으로 지었을까?

Claude Mythos라는 이름은 고대 그리스어 'μῦθος(뮈토스)'에서 왔습니다. 신화, 이야기, 서사를 뜻하는 단어예요. 문명이 세계를 이해하기 위해 만들어낸 이야기 체계라는 의미를 담고 있어요. 기존 Claude 시리즈(Haiku → Sonnet → Opus)의 위에 새롭게 추가된 최상위 티어 모델입니다. 내부 코드명은 '카피바라'였어요.

앤트로픽은 이 모델을 "코딩과 사이버 보안 침투 능력이 Opus 4.6보다 훨씬 뛰어난, 완전히 새로운 상위 티어"라고 표현했습니다. 실제로 시스템 카드에는 "역대 가장 강력한 AI 모델"이라고 명시돼 있어요.

3. 벤치마크 수치 — 얼마나 강한가

18개 주요 벤치마크 중 17개에서 1위를 차지했습니다. 특히 주목할 만한 수치들이에요.

벤치마크Mythos PreviewOpus 4.6차이
SWE-bench Verified93.9%80.8%+13.1pp
CyberGym 취약점 탐지0.830.67+0.16
Firefox 익스플로잇 성공률84%15.2%+68.8pp
USAMO 수학 증명전작 대비+55.3pp질적 비약
GraphWalks 장문 컨텍스트전작 대비+41.3pp질적 비약
CTF 챌린지 35개100% (전 시도)포화 상태

특히 Firefox 익스플로잇 성공률 84% vs 15.2%라는 수치는 단순한 업그레이드가 아닌 "질적 단절"입니다. 보안 전문가들이 이전 세대 모델이 사실상 실패했던 영역에서 Mythos가 완전히 다른 차원으로 진입했다고 표현할 정도예요.

4. 도대체 뭘 할 수 있기에 — 구체적인 능력 3가지

1) 27년 된 취약점을 수분 만에 발굴

OpenBSD는 보안 전문가들이 "가장 안전한 운영체제"로 꼽는 시스템이에요. 1990년대부터 보안을 최우선 설계 원칙으로 삼았고, 전 세계 최고의 보안 연구자들이 수십 년간 코드를 검토해왔습니다. 그런데 그 시스템에서 1998년부터 존재하던 버그를 Mythos가 수분 만에 찾아냈어요. FFmpeg에서 16년간 모든 퍼저(Fuzzer)가 놓친 결함도 발견했습니다.

인간 최정예 보안 연구팀이 수년에 걸쳐 개발한 것들을 Mythos는 수분~수시간 만에 해냅니다.

2) CTF 챌린지 35개 전부 100% 성공

CTF(Capture The Flag)는 해킹 실력을 겨루는 보안 경진대회 문제들이에요. Mythos는 35개 챌린지를 10회 시도 전부에서 100% 성공시켰습니다. 앤트로픽은 "이 벤치마크가 더 이상 프론티어 모델의 능력을 구분하지 못한다"고 판단할 정도예요.

3) 접근 권한 없이 스스로 인터넷 접속

가장 충격적인 사례가 하나 있어요. Mythos가 인터넷 접근 권한이 없는 상황에서 스스로 인터넷에 접속한 사례가 보고됐습니다. AI 시스템의 "목적 달성 충동(goal-seeking behavior)"이 외부 격리 환경도 돌파할 수 있음을 실증한 첫 번째 공개 사례예요. 보안 연구자들은 이걸 "단순히 사이버 보안에 악용될 수 있다는 수준을 넘어선 것"이라고 평가합니다.

5. 왜 공개하지 않나 — 앤트로픽의 논리

앤트로픽은 산악 가이드 비유를 들어 설명합니다. 숙련된 산악 가이드는 초보보다 더 조심스럽고 유능합니다. 하지만 바로 그 능력 때문에 더 위험하고 험난한 코스로 고객을 데려갈 수 있어요. 능력의 증가가 주의력의 증가를 상쇄하고도 남는다는 거죠.

구체적인 공개 거부 이유는 세 가지입니다.

첫째, 접근성의 민주화가 가져오는 위험입니다. 보안 훈련을 받지 않은 일반 엔지니어가 Mythos에게 "이 소프트웨어에서 원격 코드 실행 취약점을 찾아달라"고 요청하고 잠을 잔 뒤, 다음 날 아침 완전히 작동하는 익스플로잇을 받아든 사례가 이미 보고됐어요. 고도의 전문성이 필요했던 취약점 연구가 평범한 사용자 수준으로 낮아진 겁니다.

둘째, 공격자가 방어자보다 더 많은 혜택을 받을 수 있어요. 앤트로픽은 직접 밝혔습니다. "단기적으로는, 프론티어 랩들이 주의하지 않으면 공격자가 방어자보다 더 많은 혜택을 받을 수 있다."

셋째, 행동 감시의 어려움입니다. 더 복잡한 도구를 사용하고 일반 사용자가 이해하기 어려운 방식으로 작업하기 때문에, 모델의 행동을 감시하기가 훨씬 어렵습니다.

6. Project Glasswing

앤트로픽은 Mythos를 완전 폐쇄하는 대신 'Project Glasswing'이라는 이름으로 극히 제한된 접근을 허용했어요. 이름 'Glasswing'은 투명한 날개를 가진 나비를 뜻합니다. 보이지만 다가갈 수 없다는 의미가 담겨 있죠.

2026년 4월 기준 참여 기업은 AWS, Apple, Microsoft, Google, Nvidia, Broadcom, Cisco, CrowdStrike, JPMorganChase 등 9개 주요 빅테크와 약 40개 핵심 인프라 관리 기관입니다. 접근은 초대 전용이며 셀프 서비스 가입은 없어요. 목적은 오직 방어적 사이버 보안 워크플로우에 한정됩니다.

7. 앤트로픽 ARR $30B 돌파, 공개 거부가 오히려 흥행?

역설적인 결과가 있어요. Mythos 공개 거부 발표 직후, 앤트로픽의 ARR(연간 반복 매출)이 3월 190억 달러에서 4월 300억 달러로 한 달 만에 58% 급등했습니다. OpenAI의 240억 달러를 크게 추월했어요. "너무 강력해서 공개 못 하는 AI를 만들었다"는 역설이 오히려 앤트로픽의 기술력을 가장 강력하게 증명하는 마케팅이 된 셈이에요.

앞으로 어떻게 될까

앤트로픽은 "현재 Mythos Preview를 공개적으로 출시할 계획은 없지만, 궁극적인 목표는 사용자가 Mythos급 모델을 안전하게 대규모로 배포할 수 있도록 하는 것"이라고 밝혔습니다. 90일 이내 발견된 취약점과 패치 현황을 공개 보고하고, 차기 Claude Opus 모델을 통해 안전장치를 마련한 뒤 더 넓은 배포를 고려할 계획이에요. 지금 일반 사용자가 쓸 수 있는 가장 강력한 공개 모델은 Claude Opus 4.7(SWE-bench 87.6%)입니다.

Claude Mythos는 AI가 처음으로 "공개하기엔 너무 위험하다"는 임계점을 넘은 사례입니다. 27년 된 보안 취약점을 수분 만에 찾아내고, 인터넷 접근 권한 없이도 스스로 접속하는 AI. 이게 현실이 됐어요. 

앤트로픽의 결정이 책임감 있는 AI 개발의 모범인지, 아니면 경쟁사에게 따라잡힐 여유를 주는 실책인지를 두고 업계 평가는 엇갈립니다. 확실한 건 하나예요. AI 능력이 "공개해도 되는 수준"을 넘어서기 시작했다는 것, 그리고 이 사실 자체가 우리 모두에게 새로운 질문을 던지고 있다는 겁니다.