言語の選択 📢

Moonshot AIのKiモデルKimi K2：中国からの新しいオープンソースフラッグシップ - オープンAIシステムの別のマイルストーン

公開：2025年7月13日 /更新：2025年7月13日 - 著者： Konrad Wolfenstein

KiモデルKimi K2：中国からの新しいオープンソースのフラッグシップ - オープンKIシステムイメージのための別のマイルストーン：Xpert.Digital

兆候のパラメーターモデルkimi k2はヨーロッパの主権AI開発のために舗装されています

別のオープンソース革命：キミK2はヨーロッパのデータセンターで世界クラスのAIをもたらします

Kimi K2は、オープンAIエコシステムを新しいレベルにもたらします。 1兆パラメーターを備えたExperts Modelの混合モデルは、現実的なプログラミング、数学、エージェントベンチマークの独自のヘビー級の結果を、コストのほんの一部と完全に公開された重みで提供します。ドイツの開発者にとって、これにより、高性能AIサービス自体をホストし、既存のプロセスを埋め込み、新製品を開発する機会が開かれます。

に適し：

中国発のオープンソース AI – これが、DeepSeek がテクノロジーの世界を混乱に陥れている方法です – GPU の数を減らし、AI の能力を強化

Kimi K2が次の大きなAIモデル以上の理由

OpenaaiやAnthropicなどの西洋の研究室は、有料インターフェイスの背後に最高のモデルを隠していますが、Monshot AIは別のコースを追求しています。すべてのウェイトは、修正されたColicenseで公開されています。このステップは、科学的再現性を可能にするだけでなく、中小企業が独自の推論クラスターを構築したり、EdgeシナリオでKimi K2を使用したりすることもできます。スタートは、中国がオープンソースLLM運動の時計として確立される段階に分類されます。 Deepseek V3は6月までベンチマークと見なされていましたが、現在はKimi K2が再びクロスバーを設定しています。

アーキテクチャとトレーニングプロセス

記録レベルでの混合物

Kimi K2は、384人の専門家がいる革新的な専門家システムに基づいています。これにより、トークンごとにアクティブな専門家とグローバルな「共有専門家」のみがアクティブです。このアーキテクチャにより、推論エンジンは320億パラメーターのみを同時にRAMにロードでき、GPU負荷が大幅に削減されます。密集した700億パラメーターモデルは完全な精度ですでに2つのH100 GPUを必要としますが、Kimi K2は同じGPUの重みの3分の1のみを実行しますが、同等またはさらに優れた品質を達成します。

他のモデルと比較して、Kimi K2の効率は明らかです。合計10,000億パラメーターで、Deepseek V3-Baseは671億パラメーターを超え、約1,800億パラメーターのGPT-4.1の推定値を下回っています。 Kimi K2では、Deepseek V3ベースの370億人と比較して、トークンあたりのパラメーターは3,200億パラメーターのみがアクティブのままです。 Kimi K2 Expert Systemは384人の専門家を使用し、そのうち8人が選択されていますが、Deepseek V3-Baseは8人の選出された240人の専門家を使用しています。 3つのモデルはすべて、コンテキスト長の128Kトークンをサポートしています。

この開発は、Moonshotが初めて1兆パラメーターを持つパブリックモデルをリリースし、トークンごとに400億パラメーターの制限のままであることを示しています。これは、大規模な言語モデルの効率の大きな進歩です。

Muonclip-新しい標準の安定化

非常に強力なMOE変圧器のトレーニングは、しばしば注意ロジットの爆発に苦しんでいます。したがって、ムーンショットは、トークン効率の高いMuonオプティマイザーと、各ステップの後にクエリとキーマトリックスを正規化する下流の「QK-Clip」フライゼーションを組み合わせます。 Moonshotによると、15.5兆トレーニングトークンに登場する1つの損失スパイクはありませんでした。その結果、非常に滑らかな学習曲線と、最初のリリースから安定したモデルができます。

データベース

15.5兆個のトークンで、Kimi K2はGPT-4クラスモデルのデータボリュームに到達します。古典的なWebテキストとコードに加えて、シミュレートされたツール呼び出しとワークフローダイアログは、Anchor能力を活用するための事前トレーニングに流れました。 DeepSeek R1とは異なり、エージェントの能力は主にスウィングのチェーンスーパービジョンに基づいているのではなく、モデルがいくつかのAPIを調整する必要がある学習シナリオに基づいています。

詳細にベンチマークサービス

ベンチマークサービスは、責任のさまざまな分野にある3つのAIモデル間の詳細な比較を示しています。プログラミングエリアでは、Kimi K2-Instr。 SWEベンチ検証テストでは、成功率は65.8％でしたが、DeepSeek V3は38.8％、GPT-4.1で54.6％で実行されました。 LiveCodeBench V6、Kimi K2-Instr。 53.7％で、49.2％のDeepSeek V3、GPT-4.1で44.7％が続きました。 TAU2小売テストでの平均4回の試行でのツールの結合では、GPT-4.1は、Kimi K2-Instrのすぐ前に74.8％で最高のパフォーマンスを達成します。 70.6％、Deepseek V3は69.1％です。正確な一致を伴うMath-500数学カテゴリでは、Kimi K2-Instr。 97.4％で、94.0％のDeepSeek V3、GPT-4.1で92.4％が続きました。反射期間のない一般的な知識テストMMLUでは、GPT-4.1は90.4％を最もよく行い、その後にKimi K2-Instrが続きます。 89.5％で、Deepseek V3は81.2％で底を形成します。

結果の解釈

現実的なコーディングシナリオでは、Kimi K2は明らかに以前のすべてのオープンソースモデルの前にあり、SWEベンチの検証でGPT-4 .1を叩きます。
数学と象徴的思考はほぼ完璧です。モデルは独自のシステムも超えています。
純粋な世界の知識により、GPT-4 .1はまだすぐ先にありますが、距離はこれまで以上に小さくなっています。

日常生活におけるエージェントスキル

多くのLLMはよく説明しますが、行動しないでください。 Kimi K2は、ツールコール、コードバージョン、ファイルの適応を自律的に含むタスクを完了するために、一貫して訓練されました。

例1：出張計画

このモデルは、カレンダー、フライトアグリゲーター、トレインAPI、オペンテーブル、会社の電子メール、グーグルシート、マニュアルプロンプトエンジニアリングの17のAPIコールに、問い合わせ（「ベルリンの3人のブックフライト、ホテル、テーブル」）を解体します。

例2：データ分析

50,000の給与データセットを備えたCSVが読み取り、統計的に評価され、インタラクティブなHTMLページとして生成され、保存されます。チェーン全体は、単一のチャットジムで実行されます。

なぜそれが重要なのですか？

生産性：モデル応答はテキストだけでなく、実行可能なアクションです。
エラーの堅牢性：ワークフローに関するRLトレーニングを通じて、Kimi K2はエラーメッセージを解釈して修正することを学びます。
コスト：自動化されたエージェントは、人間のハンドオーバーを節約し、往復が少ないため、コンテキストコストを削減します。

ライセンス、コスト、および運用上の結果

ライセンス

ウェイトはMITのようなライセンスの対象となります。毎月1億人以上のアクティブユーザーまたは月あたり2,000万ドル以上の販売がある製品のみでは、ムーンショットがUIで目に見える「Kimi K2」ノートが必要です。これは、ほとんどのドイツ企業にとっては無関係です。

APIおよび自己ホースト価格

APIと自己ホストの価格は、プロバイダー間の明確な違いを示しています。 Monshot APIは、入力トークンで0.15ドル、出力トークンで100万ドルで2.50ドルを計算しますが、DeepSeek-APIの入力は0.27ドル、出力で1.10米ドルかかります。入力で平均10.00ドル、出力が30.00ドルで、GPT-4 O APIは大幅に高価です。

MOEテクノロジーによるコスト効率は特に注目に値します。クラウドコストは非常に競争力があります。実用的な例はこれを示しています。開発者は、Kimi K2との2,000トークンチャットに約0.005ドルのみを支払いますが、GPT-4と同じチャットには4ドルの費用がかかります。

社内操作のためのハードウェアプロファイル

フルモデル（FP16）：少なくとも8×H100 80 GBまたは4×B200。
4ビット量子化：2×H100または2×Apple M3 Ultra 512 GBで安定します。
推論エンジン：Vllm、Sglang、およびTensorrt-llmはKimi K2をネイティブにサポートします。

ヨーロッパの実用的なアプリケーション分野

Industry 4.0：自動化されたメンテナンス計画、エラー診断、スペアパーツの注文は、エージェントフローとしてモデル化できます。
中規模のビジネス：ローカルチャットボットは、サプライヤーと顧客の問い合わせにリアルタイムでデータを送信することなくリアルタイムで回答します。
ヘルスケア：診療所は、Kimi K2を使用して、医師の手紙をCodage Doctorの手紙、DRG症例の計算、および敷地内のすべての任命調整を行います。
研究と教育：大学はHPCクラスターでモデルをホストして、学生が最新のLLMを使用した実験を無料で実現できるようにします。
当局：データ保護要件により独自のクラウドモデルの使用が難しくなるため、公的機関はソースオープンの重みから恩恵を受けます。

生産的な運用のためのベストプラクティス

AIシステムの生産的な運用のために、さまざまな実証済みの慣行が確立されています。チャットアシスタントの場合、事実の回答を確保するために温度を0.2〜0.3に設定する必要がありますが、上部P値は最大0.8でなければなりません。コード生成の場合、「あなたは正確なPythonアシスタントです」という命令など、システムプロンプトを明確に定義し、信頼できるテストを実装することが重要です。ツール呼び出しの場合、モデルフォーマット関数が正しく呼び出されるように、JSONスキームを厳密に指定する必要があります。 Ragパイプラインは、800トークンのチャンクサイズで、検索前にBGE-Rerank-Lなどのクロスエンコーダーと再ランク付けするのに最適です。セキュリティのためには、射撃者VMなどのサンドボックスで発信コマンドを実行して、注入リスクを最小限に抑えることが不可欠です。

に適し：

経済としてのAI経済：グローバルな変革、予測、地政学的優先事項の分析

課題と制限

メモリフットプリント

アクティブなのは32 Bパラメーターのみですが、ルーターはすべての専門家の重みを保持する必要があります。したがって、純粋なCPU推論は非現実的です。

ツールの依存関係

誤って定義されたツールは、無限のループにつながります。堅牢なエラー処理が必須です。

幻覚

完全に未知のAPIの場合、モデル関数は発明できます。厳格なバリデーターが必要です。

ライセンス条項

強力なユーザーの成長により、ブランディングの義務が議論される可能性があります。

倫理と輸出管理

また、オープン性は潜在的に不適切なアプリケーションをもたらします。企業はフィルターシステムを担当しています。

イノベーションエンジンとしてのオープンソース

Moonshot AIのステップは、オープンモデルが独自の代替案を追いかけるだけでなく、特定のフィールドを支配することを示しています。中国では、共同研究と積極的な価格設定で開発を加速する大学、新興企業、クラウドプロバイダーから生態系が作成されています。

ヨーロッパには二重の利点があります：

ベンダーロックインおよびヨーロッパのデータ主権の下での技術アクセス。
商業プロバイダーのコストプレッシャー。これは、同等のパフォーマンスで中期的な公正価格で予想される可能性があります。

長期的には、他の兆モーイモデルが表示されることが予想されます。おそらくマルチモーダルでもあります。 Moonshotがトレンドに従っている場合、ビジョンまたはオーディオ拡張機能を開くことができます。最新の状態では、最高の「オープンエージェント」の競争がAI経済の中心的な推進力になります。

これ以上高価なブラックボックスAPI：キミK2民主化AI開発

Kimi K2はターニングポイントをマークします。単一のパッケージで、トップパフォーマンス、行動、および重量を開く能力を組み合わせています。ヨーロッパの開発者、研究者、企業にとって、これは真の選択の自由を意味します。高価なブラックボックスAPIに依存する代わりに、手頃な価格の強力なAIベースを自分で運営、適応、統合することができます。初期段階でエージェントワークフローやMOEインフラストラクチャの経験を積む人は、ヨーロッパ市場で持続可能な競争上の優位性を生み出します。

に適し：