语言选择 📢

DeepSeek V3：具有令人印象深刻的AI性能的改进的AI模型超过了基准中的顶级模型

发表于：2025年3月26日 /更新，发表于：2025年3月26日 - 作者： Konrad Wolfenstein

DeepSeek V3改善了推理和编程

开源Ki的未来：DeepSeek发布V3更新

2025年3月25日，DeepSeek发布了其V3语言模型的重要更新，称为DeepSeek-V3-0324。该新版本在推理，编程和前端开发等领域显示出显着改善。凭借令人印象深刻的基准结果以及在强大的消费硬件上运行的可能性，DeepSeek-V3-0324将自己定位为领先的开源AI模型，挑战专有解决方案。

适合：

领先的AI模型的比较分析：Google Gemini 2.0，DeepSeek R2和GPT-4.5

技术基础和建筑

专家的混合物作为关键技术

DeepSeek V3-0324基于创新的Experts（MOE）架构，将其与许多其他AI模型区分开来。该体系结构使系统不为每个任务激活模型的所有部分，而只能激活相应请求所需的特定组件。它的工作方式就像一个专家团队，其中只有合适的专家用于解决问题。

当前模型总共有6850亿个参数，其中每个任务仅激活约370亿个参数。这种选择性激活可以显着更有效地处理，并大大降低了资源需求。

改善性能的创新技术

DeepSeek-V3-0324介绍了两项提高其性能的中心技术创新：

多头潜在注意力（MLA）：该技术将钥匙值缓存压缩到潜在的矢量中，从而优化了较长文本的处理并大大减少了内存需求。
多言论预测（MTP）：可以同时生成几个令牌，从而将输出速度提高高达80％。
此外，DeepSeek使用V3混合精度算术，其中在同一操作中以不同的长度和精度进行润滑剂组合学。降低的准确性会增加时间，而不会显着影响结果的质量。

绩效改进和基准结果

在不同领域的重大进展

DeepSeek-V3-0324与其前身在几个关键领域相比显示出显着改善：

推理能力 - 基准结果显示出显着增加，尤其是对于复杂的任务：
- MMLU-PRO：从75.9到81.2（+5.3点）
- GPQA：从59.1到68.4（+9.3分）
- Aime（美国邀请数学考试）：从39.6到59.4（+19.8分）
- Livecodebech：从39.2到49.2（+10.0点）
前端开发：提高技能，创建可执行的代码以及美学上吸引人的网站和游戏前端。
中文技能：改进的写作技巧，具有更好的风格和质量，以中型到长格式的文本，优化的翻译质量和信函。

在AI比赛中定位

DeepSeek-V3-0324现在是人工分析智能指数中评分最高的非阅读模型。它超过了所有专有的非读取模型，包括Gemini 2.0 Pro，Claude 3.7十四行诗和Llama 3.3 70B。在情报指数中，它直接落后于DeepSeek自己的R1模型以及来自OpenAAI，Anthropic和Alibaba的其他推理模型。

在诸如Drop之类的测试中，DeepSeek取得了令人印象深刻的91.6％，而GPT-4O达到83.7％，Claude 3.5 88.3％。与领先的专有解决方案相比，这些结果强调了该模型的竞争力。