发表于:2025年7月13日 /更新,发表于:2025年7月13日 - 作者: Konrad Wolfenstein
万亿参数型Kimi K2铺平了欧洲主权AI的开发
另一个开源革命:Kimi K2在欧洲数据中心带来了世界一流的AI
Kimi K2将开放的AI生态系统提升到了一个新的水平。具有万亿个参数的专家专家模型的混合物模型可在现实的编程,数学和代理基准中提供专有的重量级,而成本的一小部分以及完全发布的权重。对于德国的开发人员,这为自己提供了高性能AI服务,嵌入现有流程和开发新产品的机会。
适合:
为什么Kimi K2比下一个大型AI模型更重要
虽然诸如Openaai和Anthropic之类的西方实验室隐藏了付费界面背后的最佳模型,但Monshot AI正在追求不同的课程:所有权重均在修改后的共同执照下公开可用。此步骤不仅使科学可重复性成为可能,而且允许中小型公司在边缘方案中构建自己的推理群集或使用Kimi K2。开始进入中国作为开源LLM运动时钟的阶段。 DeepSeek V3直到6月才被认为是基准,现在Kimi K2再次设置了横杆。
建筑和培训过程
创纪录水平的专家混合物
Kimi K2建立在具有384位专家的创新专家系统的基础上,该系统只有8位专家和全球“共享专家”是每个令牌的主动性。该体系结构使推理引擎同时只能将320亿个参数加载到RAM中,从而大大减少了GPU负载。尽管已完全精确的700亿个参数模型已经需要两个H100 GPU,但Kimi K2的质量可比甚至更好,尽管它仅在同一GPU上执行三分之一的权重。
与其他模型相比,Kimi K2的效率很明显:DeepSeek v3 base总数超过6710亿参数,低于GPT-4.1的估计值,约有1,800亿参数。对于Kimi K2,每个令牌只有320亿个参数保持活跃,而DeepSeek V3基地为370亿。 Kimi K2专家系统使用384位专家,其中8位被选中,而DeepSeek V3基地使用了240名当选为8名专家。这三个模型都支持上下文长度为128K令牌。
这一开发表明,Moonshot首次发布了具有万亿个参数的公共模型,并且仍然保持在每个令牌的400亿个参数限制之下,这在大语言模型的效率上是一个重大进展。
MuonClip-稳定新标准
对超强启动变压器的训练通常会遭受爆炸的注意逻辑。因此,Moonshot将令牌效率的MUON优化器与下游“ QK-CLIP”这流结合在一起,该纹理在每个步骤之后将查询和键矩阵归一化。根据Moonshot的说法,在15.5万亿个训练令牌中没有单个损失尖峰出现。结果是一条非常平滑的学习曲线和一个从第一个版本开始稳定的模型。
数据库
Kimi K2具有15.5万亿个令牌,达到了GPT-4类模型的数据量。除了经典的Web文本和代码外,模拟的工具调用和工作流对话还流入了预训练,以锚定能力。与DeepSeek R1不同,代理能力并不主要基于旋转链条,而是基于模型必须协调多个API的学习场景。
详细的基准服务
基准服务显示了不同责任领域的三个AI模型之间的详细比较。在编程区域,Kimi K2-Instr。在SWE-Bench验证的测试中,成功率为65.8%,而DeepSeek V3的表现为38.8%,GPT-4.1的成功率为54.6%。在Kimi K2-Instr。占53.7%,其次是DeepSeek V3,为49.2%,GPT-4.1为44.7%。在TAU2零售测试中的工具耦合中,平均四次尝试以74.8%的速度达到了最佳性能,就在Kimi K2-Instr之前。占70.6%和DeepSeek V3,占69.1%。在具有确切协议的Math-500数学类别中,Kimi K2-Instr。占97.4%,其次是DeepSeek V3,占94.0%,GPT-4.1,占92.4%。在没有反射期的常识测试MMLU中,GPT-4.1的表现最好90.4%,紧随其后的是Kimi K2-Instr。占89.5%,而DeepSeek V3则以81.2%的形式形成底部。
结果解释
- 在现实的编码方案中,Kimi K2显然在所有以前的开源模型面前,并在经过验证的SWE-Bench上击败GPT-4 .1。
- 数学和象征性思维几乎是完美的。该模型还超过了专有系统。
- 凭借纯粹的世界知识,GPT-4 .1仍然处于领先地位,但是距离比以往任何时候都小。
日常生活中的代理技能
许多LLM解释很好,但不采取行动。 Kimi K2始终接受培训,以完成任务自主的工具呼叫,代码版本和文件改编。
示例1:商务旅行计划
该模型将查询(“柏林三人的书籍,酒店和餐桌”)拆除为17个API呼叫:日历,飞行聚合器,训练API,Opentable,Company Email,Company Email,Google Sheets Sheets Narual Marual Profter Prestual Engineering。
示例2:数据分析
读取了具有50,000个工资数据集的CSV,对统计评估,这是一个交互式HTML页面生成并保存的图。整个连锁店都在一个聊天室中运行。
为什么这很重要?
- 生产力:模型响应不仅是文本,而且是可执行的动作。
- 错误鲁棒性:通过工作流程的RL培训,Kimi K2学会了解释错误消息并纠正自己。
- 成本:自动化代理可以节省人类的交换并降低上下文成本,因为需要更少的往返。
许可,成本和运营后果
执照
权重遵守MIT般的许可证。对于每月活跃用户超过1亿美元或每月超过2000万美元的产品,就需要UI中可见的“ Kimi K2”注释。对于大多数德国公司来说,这是无关紧要的。
API和自我托管价格
API和自我托管价格在提供者之间显示出明显的差异。虽然Monshot API的输入令牌计算为0.15美元,而输入令牌为2.50美元,而DeepSeek-API的输入为0.27美元,产出为1.10美元。 GPT-4 O API平均输入为10.00美元,输出$ 30.00的价格明显昂贵。
通过MOE技术的成本效率特别出色:云成本已经变得极具竞争力。一个实用的例子说明了这一点:开发人员与Kimi K2的2,000个令牌聊天仅支付约0.005美元,而与GPT-4的聊天相同的聊天费用为4美元。
内部操作的硬件配置文件
- 完整型号(FP16):至少8×H100 80 GB或4×B200。
- 4位量化:在2×H100或2×Apple M3 Ultra 512 GB上运行稳定。
- 推理引擎:VLLM,SGLANG和TENSORRT-LLM本地支持Kimi K2。
欧洲实用领域
- 行业4.0:自动维护计划,错误诊断和备件订单可以作为代理流程建模。
- 中型企业:本地聊天机器人回答供应商和客户查询,而无需向美国服务器发送数据。
- 医疗保健:诊所使用Kimi K2来代码医生的信件,DRG案件的计算和任命协调 - 在房屋上进行的所有工作。
- 研究与教学:大学在HPC群集中主持该模型,以使学生可以通过最新的LLM进行免费实验。
- 当局:公共机构受益于来源开放权重,因为数据保护要求使使用专有云模型变得困难。
生产运营的最佳实践
各种经过验证的实践已经为AI系统的生产运行而建立了自己。在聊天助手的情况下,应将温度设置为0.2至0.3,以确保事实答案,而最高P值应最大为0.8。对于代码生成,至关重要的是要清楚地定义系统提示,例如使用“您是精确的Python助手”并实施可靠的测试。在工具调用的情况下,必须严格指定JSON方案,以便模型格式函数正确呼叫。 RAG管道最大的尺寸为800个令牌,并在检索前与BGE rerank-l等交叉编码器进行了重新排序。对于安全性,必须在沙箱中执行传出命令,例如在鞭炮VM中,以最大程度地降低注射风险。
适合:
挑战和极限
内存足迹
尽管只有32 B参数活跃,但路由器必须保持所有专家权重。因此,纯CPU推断是不现实的。
工具依赖性
错误定义的工具导致无尽的循环;强大的错误处理是强制性的。
幻觉
在完全未知的API的情况下,模型函数可以发明。严格的验证器是必要的。
许可条款
随着用户增长的强劲增长,可以讨论品牌义务。
道德与出口控制
开放性也可能使应用程序不当;公司负责过滤系统。
开源作为创新引擎
Moonshot AI的步骤表明,开放模型不仅在专有替代方案下运行,而且在某些字段中占主导地位。在中国,由大学,初创企业和云提供商创建了一个生态系统,他们通过联合研究和积极的定价加速了发展。
对于欧洲,有一个双重优势:
- 没有供应商锁定和欧洲数据主权的技术访问。
- 商业提供商的成本压力,这可以预期在中期公平的价格中,表现可比。
从长远来看,可以预期其他数万亿人的模型将会出现,也许也可能是多模式。如果Moonshot遵循趋势,视觉或音频扩展,则可以打开。最终,最佳“开放代理人”的竞赛成为了人工智能经济的核心驱动力。
没有更昂贵的黑匣子API:Kimi K2使AI开发民主化
Kimi K2标志着一个转折点:它结合了顶级性能,表演能力和单个软件包的开放权重。对于欧洲的开发人员,研究人员和公司而言,这意味着真正的选择自由:您可以自己操作,适应和整合一个负担得起的强大的AI基础,而不是依靠昂贵的黑匣子API。任何在早期获得代理工作流程和MOE基础设施经验的人都会在欧洲市场中获得可持续的竞争优势。
适合:
您的全球营销和业务发展合作伙伴
☑️我们的业务语言是英语或德语
☑️ 新:用您的国家语言进行通信!
我很乐意作为个人顾问为您和我的团队提供服务。
您可以通过填写此处的联系表,或者直接致电+49 89 89 674 804 (慕尼黑)。我的电子邮件地址是: wolfenstein ∂ xpert.digital
我很期待我们的联合项目。