무료 오픈소스 AI인데 GPT-5급 성능? DeepSeek V3.2 직접 써봤습니다

ChatGPT 유료 구독료가 부담스러우셨던 적 있으신가요? 혹은 데이터를 미국 서버로 보내는 게 영 찜찜하셨나요? 이 두 가지 고민을 한 번에 해결해줄 수 있는 AI가 등장했습니다.

바로 중국 AI 스타트업 DeepSeek가 공개한 V3.2가 바로 그 주인공인데요. 오픈소스에 무료로 쓸 수 있으면서, 성능은 GPT-5와 어깨를 나란히 하고 일부 분야에서는 앞서기까지 한다는 게 요점입니다. 과연 이게 사실인지, 숫자와 데이터를 중심으로 낱낱이 파헤쳐 드리도록 하겠습니다

DeepSeek가 다시 돌아왔다, V3.2의 탄생 배경

DeepSeek는 2025년 초 R1 모델로 전 세계 AI 업계를 발칵 뒤집었던 중국 스타트업입니다. 당시 미국 iOS 앱스토어에서 ChatGPT를 제치고 다운로드 1위를 기록했고, 엔비디아 주가가 하루 만에 18% 폭락하는 사태가 벌어졌을 정도였어요. GPT-4급 성능을 갖춘 모델을 개발 비용 600만 달러(약 80억 원) 수준으로 만들었다는 사실이 알려지면서 'AI 스푸트니크 쇼크'라고까지 불렸죠.

그 이후 DeepSeek는 한동안 조용했습니다. 후속 R2 모델 개발 과정에서 GPU 확보 문제가 불거졌다는 내부 소식도 돌았고, 한때 "원히트 원더 아니냐"는 회의론도 있었어요. 그러다 2025년 12월, DeepSeek-V3.2 정식 버전이 공개됐습니다. 그리고 그 결과는 다시 한번 업계를 놀라게 했습니다. Claude Sonnet을 비롯해 GPT-5를 거의 모든 영역에서 앞서는 벤치마크 결과가 나왔거든요. 공개된 오픈소스 모델 중 가장 강력한 성능을 보여준다고 해도 과언이 아닐 지경이었습니다.

V3.2의 핵심 기술 — 왜 이렇게 효율적인가

DeepSeek-V3.2가 낮은 비용으로 높은 성능을 낼 수 있는 이유는 몇 가지 핵심 기술 혁신에 있습니다.

MoE 아키텍처 — 필요한 전문가만 소환

V3.2는 MoE(Mixture of Experts, 전문가 혼합) 구조를 사용합니다. 총 파라미터 수는 671B(6,710억 개)에 달하지만, 실제로 한 번에 활성화되는 건 37B뿐이에요. 쉽게 말해 671명의 전문가가 대기 중인데, 매 상황에서 딱 필요한 37명만 불러서 일을 시키는 방식이에요. 불필요한 연산을 줄이면서도 전체 전문가 집단의 지식을 활용할 수 있는 구조라, 같은 성능을 내는 데 훨씬 적은 컴퓨팅이 들어갑니다.

DeepSeek Sparse Attention (DSA) — 긴 문맥 처리의 핵심

V3.2에서 새롭게 도입된 DSA 기술은 긴 문장이나 문서를 처리할 때 연산 복잡도를 크게 낮춥니다. 기존 방식은 문장이 길어질수록 연산량이 기하급수적으로 늘어났는데, DSA는 중요한 부분에만 집중해서 처리해요. 품질은 그대로 유지하면서 속도와 비용을 동시에 잡았다는 평가입니다.

확장형 강화학습(RL) — 추론 능력의 도약

DeepSeek는 V3.2 개발 과정에서 강화학습 방식을 대폭 고도화했습니다. 이 결과로 V3.2는 기본 버전만으로도 GPT-5와 비슷한 추론 성능에 도달했고, 고성능 변형인 V3.2-Speciale는 특정 벤치마크에서 GPT-5를 앞서는 결과를 냈어요. 알파고가 강화학습으로 바둑을 정복했듯, 이 방식은 AI의 문제 해결 능력을 비약적으로 키우는 데 효과적입니다.

GPT-5와 직접 비교 — 어디서 이기고 어디서 지나

솔직하게 비교해드릴게요. 모든 항목에서 DeepSeek가 앞서는 건 아닙니다. 다만 결과가 꽤 놀랍습니다.

벤치마크 항목	DeepSeek V3.2	GPT-5	비고
AIME 2025 (수학)	93.1%	90.2%	V3.2 우위
HMMT 2025 (수학올림피아드)	97.5%	-	V3.2-Speciale 99.0%
SWE Multilingual (코딩 에이전트)	70.2%	55.3%	V3.2 압도적 우위
환각률 (낮을수록 좋음)	6.3%	6.2%~8.4%	비슷하거나 V3.2 우위
컨텍스트 윈도우	163.8K	1.1M	GPT-5.4 우위
가격 (출력 1M 토큰)	$0.38~0.42	$15.00	V3.2 약 40배 저렴

가장 눈에 띄는 부분이 코딩 에이전트 성능입니다. 실제 GitHub 문제를 자율적으로 해결하는 능력을 측정하는 SWE Multilingual 벤치마크에서 V3.2는 70.2%로, GPT-5의 55.3%를 크게 앞질렀어요. 단순한 수학 문제 풀기가 아니라, 실제 소프트웨어 개발 업무에서 DeepSeek가 훨씬 강하다는 의미입니다.

반면 컨텍스트 윈도우 길이(한 번에 처리 가능한 텍스트 양)에서는 GPT-5.4의 1.1M 토큰에 비해 V3.2의 163.8K가 확연히 짧습니다. 아주 방대한 문서를 한 번에 처리해야 하는 업무라면 아직 GPT-5나 Gemini가 유리하죠.

가격이 다르다 — GPT-5의 40분의 1 수준

비용 측면에서는 비교 자체가 의미 없을 정도의 격차가 있습니다. DeepSeek V3.2 API를 사용하면 출력 토큰 100만 개당 약 0.38~0.42달러입니다. 같은 작업에 GPT-5.4를 쓰면 100만 토큰당 15달러가 들어요. 약 36~40배 차이입니다.

월 10달러짜리 ChatGPT 구독 대신 DeepSeek API를 직접 호출한다면, 같은 돈으로 훨씬 더 많은 양의 작업을 처리할 수 있어요. OpenClaw 같은 에이전트 플랫폼 사용자들 사이에서는 V3.2를 일상 모델로 쓸 때 월 평균 비용이 1~3달러에 불과하다는 피드백도 있습니다.

오픈소스 모델이기 때문에 직접 서버에 배포하면 API 비용도 없앨 수 있습니다. MIT 라이선스로 공개돼 있어서 상업적 활용도 자유롭습니다.

어디서 특히 강한가 — DeepSeek V3.2의 최적 활용처

V3.2가 가장 빛을 발하는 영역은 이렇습니다.

코딩과 에이전트 작업: 앞서 말씀드렸듯, 자율적으로 코드를 생성하고 수정하고 검증하는 에이전트 능력에서 GPT-5를 앞섭니다. GitHub 연동, 자동 PR 생성, 코드 리뷰 자동화 등에 특히 강해요.

수학·논리 추론: AIME 2025에서 93.1%로 GPT-5의 90.2%를 앞서는 결과가 나왔습니다. 데이터 분석, 수식 기반 계획 작업에도 잘 맞습니다.

비용 민감형 대규모 처리: 하루에 수백만 건의 요청을 처리해야 하는 서비스라면 비용 절감 효과가 엄청납니다. GPT-5 대비 40분의 1 비용으로 같은 규모의 작업을 할 수 있거든요.

데이터 보안이 중요한 기업: 오픈소스이기 때문에 사내 서버에 직접 배포해서 데이터가 외부로 나가지 않게 운영할 수 있습니다. 금융, 의료, 법률처럼 데이터 민감도가 높은 업종에 유리해요.

한계와 주의사항 — 이건 꼭 알아야 한다

장점만 말씀드리면 불완전한 정보가 되죠. 솔직하게 말씀드릴게요.

중국 정부 편향 문제: DeepSeek 모델은 중국 공산당에 유리한 방향으로 특정 민감한 질문에 편향된 답변을 하는 경향이 있습니다. 이를 인식한 퍼플렉시티(Perplexity)가 해당 편향을 제거한 R1-1776 모델을 별도로 오픈소스로 공개하기도 했어요. 정치적으로 민감한 콘텐츠를 다루는 서비스라면 반드시 검토해야 합니다.

훈련 비용 투명성 논란: 공개된 사전학습 비용 600만 달러는 단계별 전체 비용이 아닌 일부라는 분석도 있습니다. 다만 홍콩대 연구진이 논문의 결과를 재현했고, 실제로 낮은 비용이 가능하다는 게 확인됐어요.

GPU 확보 제약: 미국의 반도체 수출 규제로 인해 DeepSeek는 최신 엔비디아 GPU를 충분히 확보하지 못하는 상황입니다. R2 출시가 지연되는 주된 이유 중 하나이기도 해요.

긴 문맥 처리 한계: 컨텍스트 윈도우 163.8K는 Gemini의 1M 토큰과 비교하면 짧습니다. 책 한 권 이상 분량의 문서를 한 번에 처리해야 한다면 다른 모델을 고려해야 합니다.

지금 어떻게 써볼 수 있나

DeepSeek Chat: DeepSeek 공식 사이트(chat.deepseek.com)에서 무료로 바로 체험 가능합니다.

API 활용: DeepSeek API를 통해 서비스에 바로 연동할 수 있고, OpenAI SDK와 호환되는 포맷이라 기존 코드에서 모델 이름만 바꿔도 전환이 쉽습니다.

로컬 배포: 충분한 GPU가 있다면 허깅페이스(Hugging Face)에서 모델 가중치를 다운로드해 자체 서버에 배포 가능합니다. 32GB RAM과 12GB 이상의 VRAM을 가진 워크스테이션에서도 실행 가능하다고 알려져 있어요.

Perplexity Pro: Pro 플랜에서 DeepSeek 모델을 선택해 사용하는 방법도 있습니다.

마무리

DeepSeek-V3.2는 "오픈소스 AI는 유료 모델보다 성능이 떨어진다"는 공식을 완전히 깨버린 모델입니다. 코딩 에이전트와 수학 추론 분야에서는 GPT-5를 앞서고, 환각률에서도 비슷하거나 더 낮은 결과가 나왔습니다. 가격은 40분의 1, 라이선스는 자유 상업적 활용 가능, 로컬 배포까지 된다는 조합은 개발자와 기업에게 강력한 선택지가 됩니다. 물론 데이터 편향 문제와 컨텍스트 윈도우 한계는 도입 전에 반드시 검토해야 해요. 비용 절감이 급한 스타트업, 코딩 자동화가 필요한 개발팀, 데이터 보안이 중요한 기업이라면 지금 당장 DeepSeek V3.2를 테스트 목록 맨 위에 올려두세요.

trendissue

무료 오픈소스 AI인데 GPT-5급 성능? DeepSeek V3.2 직접 써봤습니다

DeepSeek가 다시 돌아왔다, V3.2의 탄생 배경

V3.2의 핵심 기술 — 왜 이렇게 효율적인가

MoE 아키텍처 — 필요한 전문가만 소환

DeepSeek Sparse Attention (DSA) — 긴 문맥 처리의 핵심

확장형 강화학습(RL) — 추론 능력의 도약

GPT-5와 직접 비교 — 어디서 이기고 어디서 지나

가격이 다르다 — GPT-5의 40분의 1 수준

어디서 특히 강한가 — DeepSeek V3.2의 최적 활용처

한계와 주의사항 — 이건 꼭 알아야 한다

지금 어떻게 써볼 수 있나

마무리

이번 주 인기 글

작성자: TrendIssue

댓글 쓰기

0 댓글

Contact form

신고하기

프로필

이 블로그 검색

본문하단

trendissue

무료 오픈소스 AI인데 GPT-5급 성능? DeepSeek V3.2 직접 써봤습니다

DeepSeek가 다시 돌아왔다, V3.2의 탄생 배경

V3.2의 핵심 기술 — 왜 이렇게 효율적인가

MoE 아키텍처 — 필요한 전문가만 소환

DeepSeek Sparse Attention (DSA) — 긴 문맥 처리의 핵심

확장형 강화학습(RL) — 추론 능력의 도약

GPT-5와 직접 비교 — 어디서 이기고 어디서 지나

가격이 다르다 — GPT-5의 40분의 1 수준

어디서 특히 강한가 — DeepSeek V3.2의 최적 활용처

한계와 주의사항 — 이건 꼭 알아야 한다

지금 어떻게 써볼 수 있나

마무리

이번 주 인기 글

작성자: TrendIssue

댓글 쓰기

0 댓글

Contact form

신고하기

프로필

이 블로그 검색

본문하단

사이드바 상단