⭐️人工知能 (AI) - AI ブログ、ホットスポット、コンテンツハブ⭐️中国⭐️ XPaper

Available in 27 languages 📢

Moonshot AIのKimi K2 AIモデル：中国発のオープンソースのフラッグシップモデル - オープンAIシステムの新たなマイルストーン

公開日: 2025年7月13日 / 更新日: 2025年7月13日 – 著者: Konrad Wolfenstein

AIモデルKimi K2：中国発のオープンソースフラッグシップモデル – オープンAIシステムにとって新たなマイルストーン – 画像：Xpert.Digital

1兆パラメータモデル「Kimi K2」が欧州における主権AI開発への道を開く

オープンソース革命のもう一つ：Kimi K2が世界クラスのAIを欧州のデータセンターに導入

Kimi K2は、オープンAIエコシステムを新たなレベルへと引き上げます。1兆個のパラメータを持つ専門家混合モデルは、プロプライエタリな大規模システムと同等の現実的なプログラミング、数学、エージェントベンチマーク結果を、わずかなコストで、重みを完全に開示した状態で提供します。これにより、ドイツの開発者や企業は、高性能AIサービスを自社でホストし、既存のプロセスに統合し、新製品を開発する機会が得られます。.

に適し：

中国発のオープンソースAI - DeepSeekがテクノロジー業界を混乱に陥れる - GPUは少なく、AIパワーは増大

Kimi K2が単なる次世代のAIモデルではない理由

OpenAIやAnthropicといった欧米の研究機関が最優秀モデルを有料APIの背後に隠しているのに対し、Moonshot AIは異なるアプローチを採用しています。すべての重みは修正MITライセンスの下で公開されています。これにより、科学的再現性が向上するだけでなく、中小企業が独自の推論クラスターを構築したり、エッジシナリオでKimi K2を使用したりすることも可能になります。今回のリリースは、中国がオープンソースLLM運動の先駆者としての地位を確立しつつある時期と重なっています。6月まではDeepSeek V3がベンチマークとされていましたが、Kimi K2は再びその基準を引き上げました。.

アーキテクチャとトレーニング方法

記録的なレベルの専門家の混合

Kimi K2は、384人のエキスパートからなる革新的なエキスパートシステム上に構築されています。トークンごとにアクティブなエキスパートは8人のみで、グローバルな「共有エキスパート」は1人のみです。このアーキテクチャにより、推論エンジンは320億パラメータのみを同時にメモリにロードできるため、GPU負荷が大幅に軽減されます。700億パラメータの高密度モデルをフル精度で実行するには既に2基のH100 GPUが必要ですが、Kimi K2は同じGPUで3分の1の負荷で、同等、あるいはそれ以上の品質を実現します。.

他のモデルと比較すると、Kimi K2の効率性は明らかです。合計1兆個のパラメータを持つKimi K2は、6,710億個のパラメータを持つDeepSeek V3-Baseを上回り、約1兆8,000億個のパラメータを持つGPT-4.1の推定値には及ばないという結果が出ています。さらに、Kimi K2はトークンあたり320億個のパラメータしか使用しないのに対し、DeepSeek V3-Baseは370億個です。Kimi K2のエキスパートシステムは384人のエキスパート（うち8人を選択）を使用しますが、DeepSeek V3-Baseは240人のエキスパート（うち8人を選択）を使用します。3つのモデルはすべて、128,000トークンのコンテキスト長をサポートしています。.

この開発により、Moonshot はトークンあたり 400 億のパラメータ制限を下回りながら、初めて 1 兆のパラメータを持つ公開モデルをリリースすることになります。これは、大規模言語モデルの効率性における大きな進歩を表しています。.

MuonClip – 新たなレベルの安定化

超強力なMoE変換子の学習では、しばしばアテンションログの爆発的な増加に悩まされます。そのため、Moonshotはトークン効率の高いMuonオプティマイザーと、各ステップの後にクエリ行列とキー行列を正規化する下流の「qk-clip」リスケーリングプロセスを組み合わせています。Moonshotによると、15.5兆トークンの学習トークンにおいて、損失の急上昇は一度も発生しませんでした。その結果、非常に滑らかな学習曲線と、最初のリリース以来安定したモデルが実現しました。.

データベース

Kimi K2は15.5兆トークンを保有し、GPT-4クラスのモデルと同等のデータ量を実現しています。従来のWebテキストとコードに加え、ツール呼び出しやワークフロー対話のシミュレーションが事前学習に組み込まれ、エージェントの能力を確立しました。DeepSeek R1とは異なり、エージェントの能力は主に思考連鎖の監視に基づくのではなく、モデルが複数のAPIをオーケストレーションする必要があるシナリオの学習に基づいています。.

ベンチマークパフォーマンスの詳細

ベンチマーク結果では、様々なタスク領域における3つのAIモデルの詳細な比較が示されています。プログラミングでは、Kimi K2-Instr.はSWE-bench Verified Testで65.8%の成功率を達成し、DeepSeek V3は38.8%、GPT-4.1は54.6%のスコアを獲得しました。LiveCodeBench v6では、Kimi K2-Instr.が53.7%でリードし、DeepSeek V3が49.2%、GPT-4.1が44.7%で続いています。ツール連携テストでは、Tau2 Retailで平均4回の試行を行った結果、GPT-4.1が74.8%で最高のパフォーマンスを達成し、Kimi K2-Instr.の70.6%、DeepSeek V3の69.1%をわずかに上回りました。数学カテゴリMATH-500の完全一致では、Kimi K2-Instr.が優位に立っています。 97.4%の正解率で、DeepSeek V3が94.0%、GPT-4.1が92.4%で続きました。制限時間なしのMMLU一般知識テストでは、GPT-4.1が90.4%で最高の成績を収め、Kimi K2-Instr.が89.5%で僅差で続きました。DeepSeek V3は81.2%で僅差でした。.

結果の解釈

現実的なコーディングシナリオでは、Kimi K2 はこれまでのすべてのオープンソースモデルを明らかに上回り、SWE-bench Verified で GPT-4.1 を上回ります。.
数学と記号的思考はほぼ完璧であり、この点においてモデルは独自のシステムさえも凌駕しています。.
純粋な世界知識という点では、GPT-4.1 はまだわずかにリードしていますが、その差はこれまでよりも小さくなっています。.

日常生活におけるエージェントスキル

多くのLLMは説明は上手いものの、行動に移しません。Kimi K2は、ツールの呼び出し、コードの実行、ファイルの操作など、タスクを自律的に完了するように一貫して訓練されました。.

例1：出張計画

このモデルは、リクエスト（「ベルリンでの3人分のフライト、ホテル、テーブルの予約」）を、カレンダー、フライトアグリゲータ、電車 API、OpenTable、会社のメール、Google スプレッドシートの 17 個の API 呼び出しに分解します。手動によるプロンプトエンジニアリングは必要ありません。.

例2: データ分析

50,000件の給与データレコードを含むCSVファイルをインポートし、統計分析を行い、グラフを生成してインタラクティブなHTMLページとして保存します。このプロセス全体は、1回のチャットターンで完了します。.

なぜこれが重要なのでしょうか?

生産性: モデル応答は単なるテキストではなく、実行可能なアクションです。.
エラーの堅牢性: ワークフローの RL トレーニングを通じて、Kimi K2 はエラーメッセージを解釈して自身を修正することを学習します。.
コスト: 自動化されたエージェントは、必要なラウンドトリップが少なくなるため、人による引き継ぎを省き、コンテキストコストを削減します。.

ライセンス、コスト、運用上の影響

ライセンス

重み付けはMITライセンスに準じます。Moonshotは、月間アクティブユーザー数が1億人を超える、または月間収益が2,000万ドルを超える製品についてのみ、UIに「Kimi K2」という目立つ表示を義務付けています。これはほとんどのドイツ企業には無関係です。.

APIとセルフホスティングの料金

APIとセルフホスティングの価格はプロバイダーによって大きく異なります。Moonshot APIは入力トークン100万個あたり0.15ドル、出力トークン100万個あたり2.50ドルですが、DeepSeek APIは入力トークン1個あたり0.27ドル、出力トークン1個あたり1.10ドルです。GPT-4 APIはさらに高額で、平均入力トークン1個あたり10ドル、出力トークン1個あたり30ドルです。.

特に注目すべきは、MoEテクノロジーが提供するコスト効率です。クラウドコストは非常に競争力が増しています。実例を挙げると、開発者はKimi K2との2,000トークンのチャットにわずか0.005ドルしか支払わないのに対し、GPT-4では同じチャットに4ドルかかります。.

社内運用向けハードウェアプロファイル

フルモデル (FP16): 少なくとも 8 × H100 80 GB または 4 × B200。.
4 ビット量子化: 2 × H100 または 2 × Apple M3 Ultra 512 GB で安定して動作します。.
推論エンジン: vLLM、SGLang、TensorRT-LLM は、Kimi K2 をネイティブにサポートします。.

ヨーロッパでの実用化

インダストリー 4.0: 自動化されたメンテナンススケジュール、障害診断、スペアパーツの注文をエージェントフローとしてモデル化できます。.
中小企業 (SME): ローカルチャットボットは、米国のサーバーにデータを送信せずに、サプライヤーや顧客からの問い合わせにリアルタイムで回答します。.
ヘルスケア: クリニックでは、医療レターのコーディング、DRG ケースの計算、予約の調整に Kimi K2 を使用しています。これらはすべてオンプレミスで実行されています。.
研究と教育: 大学は HPC クラスターでモデルをホストし、学生が最先端の LLM を使用して自由に実験できるようにしています。.
当局: データ保護規制により独自のクラウドモデルの使用が困難になっているため、公的機関はオープンソースのメリットを享受できます。.

生産性の高い運用のためのベストプラクティス

AIシステムの生産的な運用のために、いくつかのベストプラクティスが確立されています。チャットアシスタントの場合、事実に基づいた回答を保証するために温度を0.2～0.3に設定し、p値は最大0.8にする必要があります。コード生成では、システムプロンプトを明確に定義し（例えば「あなたは正確なPythonアシスタントです」という指示）、信頼性の高いテストを実装することが重要です。ツール呼び出しの場合、モデルが関数呼び出しを正しくフォーマットできるように、JSONスキーマを厳密に指定する必要があります。RAGパイプラインは、チャンクサイズを800トークン以下にし、取得前にbge-RERANK-Lなどのクロスエンコーダーで再ランク付けすることで最適に機能します。セキュリティの観点からは、インジェクションリスクを最小限に抑えるため、送信コマンドをサンドボックス（例えばFirecracker VM）で実行することが不可欠です。.

に適し：

AI経済の経済力：世界的な変革、予測、地政学的優先事項の分析

課題と限界

メモリフットプリント

有効なパラメータは32 B 個のみですが、ルーターはすべてのエキスパート重みを維持する必要があります。したがって、純粋な CPU による推論は現実的ではありません。.

ツール依存性

ツールの定義が不正確な場合、無限ループが発生するため、堅牢なエラー処理が不可欠です。.

幻覚

全く未知のAPIを使うと、モデルは偽の関数を作り出す可能性があります。厳格な検証が必要です。.

ライセンス条項

ユーザー数の大幅な増加に伴い、ブランディングの要件が議論の話題になる可能性があります。.

倫理と輸出管理

このオープン性により、潜在的に悪用されるアプリケーションも容易になり、フィルターシステムの責任は企業に課せられます。.

イノベーションの原動力としてのオープンソース

Moonshot AIの動きは、オープンモデルがプロプライエタリな代替モデルに遅れをとっているだけでなく、すでに特定の分野で優位に立っていることを示しています。中国では、大学、スタートアップ企業、クラウドプロバイダーからなるエコシステムが出現し、共同研究と積極的な価格設定を通じて開発を加速させています。.

これにより、ヨーロッパは二重の利点を得られます。

ベンダーロックインがなく、欧州のデータ主権の下での技術的アクセス。.
商業プロバイダーに対するコスト圧力は、中期的には同等のサービスに対して適正な価格が期待できることを示唆しています。.

長期的には、さらに数兆ドル規模の存在モデル（MoE）、ひょっとするとマルチモーダルな存在モデルが登場すると予想されます。ムーンショットがこのトレンドに沿えば、視覚や音声の強化技術が公開される可能性があります。そうなれば、最高の「オープンエージェント」をめぐる競争が、AI経済の中心的な原動力となるでしょう。.

高価なブラックボックスAPIはもう不要：Kimi K2がAI開発を民主化

Kimi K2は転換点となるでしょう。最高のパフォーマンス、俊敏性、そして幅広い選択肢を一つのパッケージに統合しています。ヨーロッパの開発者、研究者、そして企業にとって、これは真の選択の自由を意味します。高価なブラックボックスAPIに頼るのではなく、手頃な価格で高性能なAI基盤を運用、カスタマイズし、自社製品に統合することが可能になります。エージェントベースのワークフローとMoEインフラストラクチャの早期導入で経験を積む企業は、ヨーロッパ市場において持続可能な競争優位性を築くことができるでしょう。.

に適し：