DeepSeek-R1-0528 : DeepSeek Update는 중국어 AI 모델을 서구 업계 리더들과 시선으로 되돌려줍니다.

게시일: 2025년 5월 31일 / 업데이트일: 2025년 5월 31일 – 저자: Konrad Wolfenstein

DeepSeek-R1-0528: DeepSeek 업데이트로 중국 AI 모델이 서구 업계 선두 기업들과 동등한 수준으로 복귀했습니다 – 이미지: Xpert.Digital

오픈소스 AI의 한계에 도달하다: DeepSeek이 OpenAI와 Google을 압도하고 있다

60위에서 68위로: DeepSeek, 중국 AI 기업을 다시 정상으로 끌어올리다

중국 AI 스타트업 딥시크(DeepSeek)는 2025년 5월 28일 DeepSeek-R1-0528 업데이트를 출시하며 글로벌 AI 판도를 뒤흔드는 중요한 이정표를 세웠습니다. 오픈소스 추론 모델인 DeepSeek의 이번 업데이트는 성능을 획기적으로 향상시켜, 처음으로 OpenAI의 o3 및 구글 제미니 2.5 Pro와 동등한 수준에 도달했습니다. 특히 주목할 만한 점은 이러한 최고 성능을 훨씬 저렴한 비용으로, 그리고 완전히 개방된 모델 가중치를 통해 달성했다는 것입니다. 이는 독점 AI 시스템의 미래에 대한 근본적인 질문을 제기합니다. 독립적인 평가 플랫폼인 Artificial Analysis는 새로운 모델에 68점을 부여했는데, 이는 기존 60점에서 68점으로 상승한 점수로, OpenAI o1과 o3의 성능 차이에 해당합니다.

적합:

Deepseek and Alibaba : 전문 수준에서의 획기적인가요? 중국 AI는 의료 시스템을 추진합니다

이번 업데이트 및 기술적 개선 사항

DeepSeek-R1-0528은 기본 아키텍처를 변경하지 않고 알고리즘 최적화와 학습 후 처리 과정에서 컴퓨팅 리소스 활용도를 높여 성능을 크게 향상시킨 업데이트입니다. 이번 업데이트는 주로 추론 능력 향상에 초점을 맞춰 DeepSeek에 따르면 "훨씬 더 심층적인 사고 과정"을 가능하게 합니다. 이러한 개선의 특히 인상적인 예는 AIME 2025 수학 시험에서 확인할 수 있는데, 정확도가 70%에서 87.5%로 향상되었습니다. 동시에 문제당 평균 토큰 수가 12,000개에서 23,000개로 증가하여 더욱 집중적인 처리가 이루어졌음을 보여줍니다.

이번 업데이트는 추론 성능 향상 외에도 JSON 출력 및 함수 호출, 최적화된 사용자 인터페이스, 그리고 오류 감소 등 중요한 새로운 기능을 추가합니다. 이러한 개선 사항 덕분에 개발자들이 모델을 훨씬 더 편리하게 사용할 수 있게 되었으며, 모델의 활용 범위도 크게 확장되었습니다. 업데이트 내용은 변경되지 않았습니다. 기존 API 사용자는 자동으로 업데이트를 받게 되며, 모델 가중치는 Hugging Face에서 MIT 오픈소스 라이선스로 계속 이용 가능합니다.

벤치마크 성능 및 성능 비교

DeepSeek-R1-0528 벤치마크 결과는 모든 평가 범주에서 놀라운 성능 향상을 보여줍니다. 수학 문제 해결 부문에서 AIME-2024 점수는 79.8%에서 91.4%로, HMMT-2025는 41.7%에서 79.4%로, CNMO-2024는 78.8%에서 86.9%로 상승했습니다. 이러한 결과는 DeepSeek 모델이 전 세계적으로 수학 문제 해결에 가장 강력한 AI 시스템 중 하나임을 입증합니다.

DeepSeek-R1-0528은 프로그래밍 벤치마크에서도 상당한 발전을 보였습니다. LiveCodeBench에서는 63.5%에서 73.3%로, Aider-Polyglot에서는 53.3%에서 71.6%로, SWE Verified에서는 49.2%에서 57.6%로 향상되었습니다. Codeforces 레이팅은 1,530점에서 1,930점으로 상승하여 알고리즘 문제 해결 부문에서 상위권에 자리매김했습니다. 경쟁 모델과 비교했을 때, DeepSeek-R1은 SWE Verified에서 49.2%의 성공률을 기록하며 OpenAI o1-1217(48.9%)을 근소하게 앞섰고, Codeforces에서는 96.3%의 백분위수와 2,029점의 Elo 레이팅으로 OpenAI의 최상위 모델에 매우 근접한 성능을 보였습니다.

일반 지식 및 논리 테스트에서 전반적인 성능 향상이 확인되었습니다. GPQA-Diamond는 71.5%에서 81.0%로, Humanity's Last Exam은 8.5%에서 17.7%로, MMLU-Pro는 84.0%에서 85.0%로, MMLU-Redux는 92.9%에서 93.4%로 향상되었습니다. OpenAI의 SimpleQA만 30.1%에서 27.8%로 소폭 하락했습니다. 이러한 포괄적인 성능 향상은 DeepSeek-R1-0528이 특정 분야뿐만 아니라 모든 인지 작업 영역에서 경쟁력을 갖추고 있음을 보여줍니다.

기술 아키텍처 및 혁신

DeepSeek-R1-0528의 기술적 기반은 총 6,710억 개의 파라미터 중 370억 개의 활성 파라미터와 128,000 토큰의 컨텍스트 길이를 갖는 정교한 MoE(Mixture of Experts) 아키텍처에 있습니다. 이 모델은 고급 강화 학습을 구현하여 자체 검증, 다단계 반사, 그리고 인간과 유사한 추론 능력을 달성합니다. 이러한 아키텍처 덕분에 모델은 반복적인 사고 과정을 통해 복잡한 추론 작업을 처리할 수 있으며, 이는 기존 언어 모델과 차별화되는 특징입니다.

특히 혁신적인 측면은 DeepSeek-R1-0528의 사고 과정을 정제하여 Qwen3-8B-Base를 사후 학습시킨 DeepSeek-R1-0528-Qwen3-8B라는 간소화된 변형 모델을 개발했다는 점입니다. 이 간소화된 버전은 훨씬 낮은 리소스 요구량으로 인상적인 성능을 달성하며 8~12GB VRAM을 탑재한 GPU에서도 실행됩니다. AIME 2024 테스트에서 이 모델은 오픈 소스 모델 중 최고 수준의 성능을 보여주었으며, Qwen3-8B보다 10% 향상된 성능을 보였고 Qwen3-235B-Thinking과 유사한 성능을 달성했습니다.

개발 방법론을 살펴보면 DeepSeek이 강화 학습을 활용한 사후 학습에 점점 더 의존하고 있음을 알 수 있으며, 이로 인해 평가 기간 동안 토큰 사용량이 7,100만 개에서 9,900만 개로 40% 증가했습니다. 이는 근본적인 아키텍처 변경 없이도 모델이 더 길고 심층적인 답변을 생성할 수 있음을 시사합니다.

시장 지위 및 경쟁 구도

DeepSeek-R1-0528은 서구 기술 기업들의 주요 독자적인 모델들과 강력한 경쟁자로 자리매김하고 있습니다. Artificial Analysis에 따르면, 이 모델은 68점을 기록하며 Google의 Gemini 2.5 Pro와 동등한 수준을 보였고, xAI의 Grok 3 mini, Meta의 Llama 4 Maverick, Nvidia의 Nemotron Ultra와 같은 모델들보다 앞섰습니다. 코드 실행 능력 부문에서는 OpenAI의 o4-mini 및 o3 바로 아래 수준을 달성했습니다.

이번 업데이트 출시로 전 세계 AI 시장에 상당한 파장이 일었습니다. 2025년 1월 DeepSeek-R1이 처음 출시되었을 당시에도 중국을 제외한 지역의 기술주가 하락세를 보였고, AI 확장에 막대한 컴퓨팅 파워와 투자가 필요하다는 기존의 통념에 의문을 제기했습니다. 이에 서구 경쟁사들은 신속하게 대응했습니다. 구글은 Gemini 이용 요금을 할인했고, OpenAI는 가격을 인하하고 컴퓨팅 파워가 덜 필요한 o3 Mini 모델을 출시했습니다.

흥미롭게도 EQBench의 텍스트 스타일 분석 결과에 따르면 DeepSeek-R1의 스타일은 OpenAI보다 Google의 영향을 더 강하게 받은 것으로 나타났는데, 이는 개발 과정에서 Gemini의 합성 출력물이 더 많이 사용되었을 가능성을 시사합니다. 이러한 관찰 결과는 다양한 AI 개발사 간의 복잡한 영향 관계와 기술 이전을 잘 보여줍니다.

비용 효율성 및 가용성

DeepSeek-R1-0528의 핵심 경쟁 우위는 탁월한 비용 효율성에 있습니다. 가격 구조가 OpenAI보다 훨씬 유리한데, 입력 토큰은 캐시 적중 시 백만 개당 0.14달러, 캐시 미스 시 백만 개당 0.55달러이며, 출력 토큰은 백만 개당 2.19달러입니다. OpenAI o1은 입력 토큰 백만 개당 15달러, 출력 토큰 백만 개당 60달러를 청구하므로 DeepSeek-R1이 90~95% 더 저렴합니다.

Microsoft Azure는 DeepSeek-R1을 경쟁력 있는 가격으로 제공합니다. 글로벌 버전은 입력 토큰 1,000개당 0.00135달러, 출력 토큰 1,000개당 0.0054달러이며, 지역 버전은 이보다 약간 높은 가격입니다. 이러한 가격 책정 방식 덕분에 독점 솔루션의 높은 비용 부담 없이 고품질 AI 기능을 활용하고자 하는 기업과 개발자에게 DeepSeek-R1은 특히 매력적인 선택지가 될 것입니다.

MIT 라이선스 하에 오픈 소스 모델로 제공되므로 라이선스 비용 없이 상업적으로 사용하거나 수정할 수 있습니다. 개발자는 모델을 로컬에서 실행하거나 다양한 API를 통해 사용할 수 있어 구현에 대한 유연성과 제어권을 확보할 수 있습니다. 리소스가 제한적인 사용자를 위해 24GB 메모리를 탑재한 일반 소비자용 하드웨어에서 실행되는 80억 개 매개변수의 간소화된 버전도 제공됩니다.

적합:

중국의 인공지능 분야 추격전: 딥시크 사례와 데이터의 전략적 활용

중국의 AI 격차 해소: 딥시크의 성공이 의미하는 바는 무엇인가

DeepSeek-R1-0528은 전 세계 AI 개발에 있어 중요한 전환점이 되었으며, 미국의 수출 제한에도 불구하고 중국 기업들이 서구 최고 수준의 시스템과 경쟁할 수 있는 모델을 개발할 수 있음을 입증했습니다. 이번 업데이트는 학습 후 최적화와 강화 학습을 효과적으로 활용하면 근본적인 아키텍처 변경 없이도 상당한 성능 향상이 가능하다는 것을 보여줍니다. 최고 수준의 성능, 획기적인 비용 절감, 그리고 오픈 소스라는 장점을 결합한 이번 업데이트는 AI 산업의 기존 비즈니스 모델에 근본적인 변화를 가져올 것입니다.

딥시크의 성공에 대한 서구 경쟁업체들의 반응은 이미 초기 시장 변화를 보여주고 있습니다. 오픈AI와 구글은 가격을 인하했고, 더욱 효율적인 모델 개발에도 박차를 가하고 있습니다. 원래 2025년 5월 출시 예정이었던 딥시크-R2가 출시되면 이러한 경쟁 압력은 더욱 심화될 수 있습니다. 딥시크-R1-0528의 성공 사례는 인공지능 혁신이 반드시 막대한 투자와 컴퓨팅 자원을 필요로 하는 것은 아니며, 영리한 알고리즘과 효율적인 개발 방식을 통해 달성될 수 있음을 보여줍니다.

적합: