语言选择 📢


DeepSeek-R1-0528:DeepSeek更新将中国人工智能模型带回了西方行业领导者

发表于:2025年5月31日 /更新,发表于:2025年5月31日 - 作者: Konrad Wolfenstein

DeepSeek-R1-0528:DeepSeek更新将中国人工智能模型带回了西方行业领导者

DeepSeek-R1-0528:DeepSeek更新将中国人工智能模型带回了西方行业领导者 - XPERT.Digital

开源AI处于极限:DeepSeek在阴影中执行OpenAi和Google

从60到68:DeepSeek弹出中国人AI回到顶部

随着2025年5月28日DeepSeek-R1-0528的出版,中国Ki初创公司DeepSeek取得了一个重要的里程碑,重新定义了全球AI景观。开源读取模型的更新显示出急剧的性能提高,这是与OpenAIS O3和Google Gemini 2.5 Pro相同水平的首次置于DeepSeek。尤其值得注意的是,这一最佳性能是通过成本的一小部分和完全开放的模型权重来实现的,这引发了有关专有AI系统未来的基本问题。独立的评级平台人工分析将新模型分为68分 - 从60点到68点的跳跃对应于OpenAAI O1和O3之间的性能差异。

适合:

更新及其技术改进

DeepSeek-R1-0528代表了一个实质性的进一步发展,这不需要对基本体系结构进行任何更改,但是通过算法优化和增加算术资源的使用来实现训练后培训的显着增加。该更新主要侧重于提高推理技能,并根据DeepSeek的说法,可以实现“更深入的思维过程”。这一改进的一个特别令人印象深刻的例子表明,在AIME 2025数学测试中,准确性从70%上升到87.5%。同时,每个问题的平均令牌数量从12,000增加到23,000个令牌,这表明处理过程更加密集。

除了改进推理外,更新还引入了重要的新功能,包括JSON输出和功能视图,优化的用户界面和减少的幻觉。这些创新使该模型对开发人员来说更为实用,并大大扩大了其范围。可用性保持不变:现有的API用户会自动接收更新,而模型权重仍可以在拥抱面的开放式执照下可用。

基准性能和性能比较

DeepSeek-R1-0528的基准结果在所有评估类别中都显示出令人印象深刻的改进。在数学任务中,AIME 2024值从79.8%上升到91.4%,HMMT 2025从41.7%提高到79.4%,CNMO 2024从78.8%上升到86.9%。这些结果将模型定位为全球数学问题解决方案最强大的AI系统之一。

通过编程基准测试,DeepSeek-R1-0528也显示出重大进展。 Livecodebech从63.5%提高到73.3%,从53.3%提高到71.6%,而SWE从49.2%验证到57.6%。 CodeForces等级从1,530升至1,930点,这将模型分类为算法问题解决者的顶级组。与竞争模型相比,DeepSeek-R1在SWE验证时达到49.2%,因此仅占48.9%的OpenAAI O1-1217,而96.3%的Codeforces率达到96.3%,ELO评级为2029点,非常接近OpenAIS。

一般知识和逻辑测试证实了绩效的广泛增长:GPQA-Diamond从71.5%上升到81.0%,人类的最后一次考试从8.5%提高到17.7%,MMLU-PRO从84.0升至85.0%,MMLU-REDUX从92.9%提高到93.4%。只有Openais SimpleQA的略微下降幅度从30.1下降到27.8%。这些全面的改进文件,即DeepSeek-R1-0528不仅在专业领域,而且在整个认知任务中都具有竞争力。

技术架构和创新

DeepSeek-R1-0528的技术基础是基于高度发达的MOE(专家的混合物)体系结构,该体系结构具有370亿个主动参数,共有6710亿个参数,上下文长度为128,000个令牌。该模型实现了先进的PUR奉献学习,以实现自我检查,多阶段的反思以及为人类量身定制的争论能力。该体系结构使模型能够通过迭代思维过程来管理复杂的推理任务,从而区分传统语音模型。

一个特别创新的方面是开发蒸馏型变体DeepSeek-R1-0528-QWEN3-8B,它是通过将DeepSeek-R1-0528的思想提取为QWEN3-8B基础训练而创建的。这个较小的版本可实现令人印象深刻的服务,资源需求明显降低,并且可以使用8-12 GB VRAM在GPU上运行。该模型在开源模型下的AIME 2024测试中实现了最先进的性能,与QWEN3-8B相比,该模型提高了10%,并且具有可比性的性能,例如QWEN3-235B思维。

开发方法表明,DeepSeek越来越依赖于加强学习后的培训,这导致41至9900万个令牌的评估消费增加了40%。这表明该模型在没有根本架构变化的情况下会产生更长,更深的答案。

市场地位和竞争动力

DeepSeek-R1-0528成为西方技术公司领先的专有模式的认真竞争者。根据人工分析,具有68点的模型与Google的Gemini 2.5 Pro相同,并且在诸如Xais Grok 3 Mini,Metas Llama 4 Maverick和Nvidias Nemotron Ultra之类的模型前面。在代码类别中,DeepSeek-R1-0528达到O4-Mini和O3的水平。

更新的发布对全球AI景观产生了重大影响。 2025年1月,DeepSeek-R1的最初出版物已经导致了中国境外的技术股票,并质疑AI规模需要巨大的计算能力和投资的假设。西方竞争对手的反应很快:Google引入了双子座的折扣访问关税,而OpenAI降低了价格,并引入了O3 Mini型号,该模型需要更少的计算能力。

有趣的是,EQBench的文本样式分析表明,DeepSeek-R1比OpenAAI更注重Google,这表明该开发中可能已经使用了更多的合成Gemini输出。该观察结果强调了各个AI开发人员之间复杂的影响和技术转移。

成本效率和可用性

DeepSeek-R1-0528的决定性竞争优势是其非凡的成本效率。价格结构明显比OpenAI便宜:输入令牌的价格为每百万个代币的速度为0.14美元,而Cache Misses的价格为0.55美元,而产出代币的价格为每百万个代币2.19美元。相比之下,OpenAI O1的投入令牌需要15美元,而每百万的产出令牌为60美元,这使得DeepSeek-R1的价格超过90-95%。

Microsoft Azure还提供具有竞争力的DeepSeek-R1:全球版本的输入令牌为0.00135美元,每1000个令牌的产出令牌为0.0054美元,而区域版本的价格略高。该定价使该模型对想要使用高质量AI功能的公司和开发人员特别有吸引力,而无需高昂的专有解决方案。

在共同许可下作为开源模型的可用性还可以无许可费用商业使用和修改。开发人员可以在本地操作该模型或使用各种AP​​I,从而提供了对实现的灵活性和控制。对于资源有限的用户,可以使用80亿个参数版本,该版本在带有24 GB内存的消费者硬件上运行。

适合:

中国的人工智能追赶:DeepSeek的成功意味着什么

DeepSeek-R1-0528标志着全球AI开发中的一个转折点,表明尽管美国出口限制与最佳西方系统竞争,但中国公司仍可以开发模型。该更新证明,如果有效地使用了培训后的优化和重新训练学习,则可以在没有任何根本建筑变化的情况下提高绩效。最高绩效,大幅度降低成本和开源可用性问题的结合在AI行业中确定了业务模型。

西方竞争对手对DeepSeek成功的反应已经显示出最初的市场变化:在Openaai和Google上降价以及资源储蓄模型的开发。随着最初计划于2025年5月计划的DeepSeek-R2的预期出版,这种竞争压力可能会进一步加剧。 DeepSeek-R1-0528的成功故事表明,AI的创新不一定需要大量的投资和算术资源,而是可以通过巧妙的算法和有效的开发方法来实现。

适合:

 

您的AI转换,AI集成和AI平台行业专家

☑️我们的业务语言是英语或德语

☑️ 新:用您的国家语言进行通信!

 

数字先锋 - 康拉德·德军总部

康拉德·德军总部

我很乐意作为个人顾问为您和我的团队提供服务。

您可以通过填写此处的联系表,或者直接致电+49 89 89 674 804 (慕尼黑)。我的电子邮件地址是: wolfenstein xpert.digital

我很期待我们的联合项目。

 

 

☑️ 为中小企业提供战略、咨询、规划和实施方面的支持

AI策略的创建或重组

☑️ 开拓业务发展


⭐️人工智能(KI) - ai博客,热点和内容中心⭐️AISAIS人工智能搜索 / KIS-KI-SERACH / NEO SEO = NSEO = NSEO(下一代搜索引擎优化) ⭐️中国⭐️X Paper