2026년 4월 16일, 앤트로픽(Anthropic)이 조용하지만 강력한 선언을 했습니다. Claude Opus 4.7 정식 출시. 단순한 버전 업데이트가 아니에요. SWE-bench Verified 87.6%, SWE-bench Pro 64.3%, MCP-Atlas 77.3%로 코딩 에이전트 관련 주요 벤치마크에서 GPT-5.4와 Gemini 3.1 Pro를 모두 앞질렀습니다. "가장 어려운 코딩 작업을 이제 감독 없이 맡길 수 있다"는 게 앤트로픽의 공식 설명인데요. 이게 과장인지 사실인지, 숫자와 실제 사용자 반응을 모두 종합해서 낱낱이 정리해드릴게요.
1. Claude Opus 4.7, 언제 어디서 쓸 수 있나
Opus 4.7은 2026년 4월 16일부터 Claude API, Claude 앱, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry 다섯 곳에서 동시에 사용할 수 있어요. API 모델 ID는 claude-opus-4-7입니다. 가격은 Opus 4.6과 동일합니다. 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 25달러예요. 단, 새로운 토크나이저를 적용해서 같은 텍스트를 처리할 때 토큰이 최대 35% 더 사용될 수 있다는 점은 알아두셔야 합니다. 컨텍스트 윈도우는 최대 100만 토큰, 출력은 12만 8천 토큰으로 이전 버전과 동일하게 유지됩니다.
2. 벤치마크 수치로 보는 Opus 4.7의 진짜 실력
숫자부터 보는 게 가장 솔직합니다. 아래 표는 주요 경쟁 모델과의 비교예요.
| 벤치마크 | Opus 4.7 | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Verified (코딩) | 87.6% | 80.8% | 74.9% | 80.6% |
| SWE-bench Pro (코딩) | 64.3% | 53.4% | 57.7% | 54.2% |
| CursorBench (IDE 코딩) | 70% | 58% | - | - |
| MCP-Atlas (도구 호출) | 77.3% | 75.8% | 68.1% | 73.9% |
| GPQA Diamond (추론) | 94.2% | 91.3% | 94.4% | 94.3% |
| OSWorld (컴퓨터 사용) | 78.0% | 72.7% | 75.0% | - |
| 시각적 정확도 | 98.5% | 54.5% | - | - |
코딩과 에이전트 도구 호출에서 압도적인 1위입니다. 반면 추론(GPQA Diamond)은 Gemini, GPT-5.4와 사실상 같은 수준이에요. 이 표가 말하는 메시지는 분명합니다. Opus 4.7은 "모든 것을 잘하는 업그레이드"가 아니라, **"코딩 에이전트에 최적화된 집중 업그레이드"**입니다.
3. 뭐가 달라졌나? 4가지 핵심 업그레이드
1) 코딩 능력 비약적 상승
SWE-bench Verified가 80.8%에서 87.6%로 올랐어요. 6.8포인트 향상이 크게 안 느껴질 수 있지만, 이 벤치마크는 실제 GitHub 이슈를 AI가 자율적으로 해결하는 능력을 측정합니다. 앤트로픽의 파트너인 Cursor는 자체 CursorBench에서 58%에서 70%로 12포인트 올랐다고 보고했고, Rakuten은 실제 운영 환경 작업 해결량이 3배 늘었다고 밝혔어요. SWE-bench Pro에서 GPT-5.4(57.7%)와 Gemini(54.2%)를 모두 크게 앞선 64.3%는 특히 주목할 만합니다. SWE-bench Pro는 단일 언어가 아닌 다국어 코딩 환경을 테스트하기 때문에, 실제 복잡한 엔터프라이즈 환경에서의 능력을 더 잘 반영해요.
2) 비전(Vision) 능력 3배 향상
가장 드라마틱한 변화입니다. 시각적 정확도 벤치마크가 54.5%에서 98.5%로 뛰었어요. 지원 이미지 해상도가 3.75 메가픽셀로 3배 이상 높아졌고, 시각적 내비게이션 점수도 57.7%에서 79.5%로 올랐습니다. 이 변화가 실질적으로 의미하는 건 UI 스크린샷을 보고 작업하는 컴퓨터 사용(Computer Use) 에이전트의 정확도가 크게 올라갔다는 거예요. OSWorld 벤치마크에서 72.7%에서 78.0%로 올라 GPT-5.4(75.0%)를 앞섰습니다.
3) x high 추론 등급 신규 추가
기존 추론 깊이 설정이 low → medium → high → max였다면, 이번에 high와 max 사이에 x high가 추가됐어요. 더 깊은 추론이 필요하지만 max의 속도 저하는 피하고 싶을 때 활용하는 단계입니다. 특히 복잡한 에이전트 워크플로에서 비용과 성능의 균형점을 세밀하게 조정할 수 있게 됐어요. Claude Code에는 /ultrareview 명령어도 새롭게 추가됐습니다.
4) Task Budgets : 에이전트 비용 제어 기능
API 사용자를 위한 Task Budgets가 공개 베타로 출시됐어요. 개별 작업이나 대화별로 최대 토큰 소비 한도를 설정할 수 있는 기능입니다. 에이전트가 무한정 토큰을 쓰지 않도록 상한선을 걸어두는 거예요. 자율적으로 작동하는 AI 에이전트의 가장 큰 실무 고민 중 하나였던 "비용 예측 불가능성"을 해결해주는 기능입니다. 배치 처리나 반복 테스트 환경에서 특히 유용합니다.
업그레이드 전 반드시 확인하세요!
위에서 너무 좋은 점만 나열한 것 같은데, 솔직하게 제가 생각한 단점도 짚어드릴게요.
1) 긴 문서 RAG 작업에서 성능 저하: MRCR(Multi-Round Context Recall) 벤치마크에서 78.3%에서 32.2%로 급락했습니다. 긴 문서를 반복적으로 참조하면서 질의응답하는 RAG 시스템에서는 Opus 4.6보다 성능이 낮을 수 있어요. 긴 문서 기반 업무가 주된 용도라면 업그레이드를 서두르지 않는 게 좋습니다.
2) 웹 검색 성능: BrowseComp 점수가 79.3%로 GPT-5.4(89.3%)에 밀립니다. 실시간 웹 리서치 위주 업무라면 GPT-5.4가 더 나은 선택일 수 있어요.
3) 토크나이저 변경으로 인한 실질 비용 상승: 공식 가격은 그대로지만, 새 토크나이저로 같은 입력이 최대 35% 더 많은 토큰을 소비할 수 있습니다. API 사용량을 많이 쓰는 팀이라면 실제 월 청구액이 올라갈 수 있어요.
4) 기존 프롬프트 호환성 문제: Opus 4.7은 지시 사항을 이전보다 훨씬 문자 그대로 따릅니다. Opus 4.6용으로 만든 프롬프트가 예상과 다르게 동작할 수 있어요. 특히 암묵적 일반화에 의존하는 프롬프트는 수정이 필요할 가능성이 높습니다.
내 용도에 맞는 업그레이드인가?
| 사용 목적 | 추천 선택 | 이유 |
|---|---|---|
| 코딩 에이전트 구축 | Opus 4.7 | SWE-bench Pro 1위, CursorBench +12p |
| 멀티 도구 에이전트 | Opus 4.7 | MCP-Atlas 77.3%로 1위 |
| 긴 문서 RAG | Opus 4.6 유지 | MRCR 급락으로 Opus 4.7 비적합 |
| 웹 리서치 에이전트 | GPT-5.4 권장 | BrowseComp 89.3% vs 79.3% |
| UI 자동화 (컴퓨터 사용) | Opus 4.7 | OSWorld 78.0%로 GPT-5.4 앞섬 |
| 재무·분석 전문 업무 | Opus 4.7 | Finance Agent 64.4%로 최고 성능 |
claude opus 4.7 코딩에이전트의 왕좌는 계속?
Claude Opus 4.7은 AI 역사상 처음으로 SWE-bench Verified 87.6%를 달성하며 코딩 에이전트 분야에서 압도적 1위를 기록했습니다. 코딩 에이전트를 구축하는 개발자, 멀티 도구 워크플로를 운영하는 팀, UI 자동화 작업을 하는 분들에게는 지금 당장 테스트해볼 가치가 충분합니다.
다만 긴 문서 처리나 웹 리서치가 주된 업무라면 Opus 4.6이나 다른 모델을 유지하는 게 현명한 선택일 수 있습니다. 모든 걸 잘하는 업그레이드는 아니지만, 코딩 에이전트 하나만큼은 지금 세상에서 가장 강한 모델임이 분명해보입니다.
0 댓글