大いなる幻滅:ますます大規模化するAIモデルが重要な知能テストに失敗する理由
ARC-AGI ベンチマークとは何ですか? また、なぜ開発されたのですか?
ARC-AGIベンチマークは、2019年にフランソワ・ショレ氏によって開発された、AIシステムの汎用知能を測定するための一連のテストです。ARCは「Abstruction and Reasoning Corpus for Artificial General Intelligence(汎用人工知能のための抽象化および推論コーパス)」の略です。このベンチマークは、AIシステムが明示的に訓練されていない新しいタスクを理解し、解決する能力を評価するために作成されました。
このベンチマークの開発は、ショレの画期的な論文「知能の尺度について」における知能の定義に基づいています。彼は、真の知能は特定のタスクの習得ではなく、新しいスキルを効率的に習得することにあると主張しています。このテストは、色付きのグリッドを使った視覚的なパズルで構成されており、AIシステムは根底にある変換ルールを認識し、それを新しい例に適用する必要があります。
ARC-AGI は他の AI ベンチマークとどう違うのでしょうか?
従来のAIテストは、多くの場合、事前知識や記憶されたパターンに依存しますが、ARC-AGIは、いわゆる「コア知識の事前知識」、つまり物体の永続性、数え上げ、空間理解といった – 的な認知スキルに重点を置いています。これらのスキルは通常、4歳までに習得されます。
ARC-AGIの主な違いは、純粋な記憶またはデータ補間によって解けるように特別に設計されていることです。ベンチマークの各タスクはそれぞれ固有のものであり、テスト用に特別に開発されているため、オンライン上にサンプルが存在することはありません。そのため、このテストは、大量の学習データに基づくAIシステムの一般的な戦略に対して耐性があります。
ARC-AGI ベンチマークにはどのようなバージョンがありますか?
現在、ベンチマークには 3 つの主なバージョンがあります。
ARC-AGI-1
静的な視覚パズルで構成される2019年のオリジナルバージョンでは、人間の正解率は平均95%に達しているのに対し、ほとんどのAIシステムは長い間5%を下回っています。
ARC-AGI-2
2025年にリリースされるこの強化版は、現代の推論システムにも匹敵する性能を発揮するように特別に設計されています。人間はほぼ100%の性能を達成し続けていますが、高度なAIモデルでさえ、タスクの10~20%しか処理できません。
ARC-AGI-3
まだ開発中の最新バージョンでは、インタラクティブな要素が導入されています。静的なパズルではなく、AIエージェントはグリッドワールドでの探索と試行錯誤を通して学習する必要があります。これは、人間が新しい環境を探索するのと同様です。
ARC-AGI テストでは、さまざまな AI モデルのパフォーマンスはどのようになりますか?
さまざまな AI モデル間のパフォーマンスの違いは顕著です。
ARC-AGI-1では、Grok 4は約68%の精度を達成しましたが、GPT-5は65.7%でした。タスクあたりのコストは、Grok 4で約1ドル、GPT-5で約0.51ドルでした。
より難しいテストである ARC-AGI-2 では、パフォーマンスが大幅に低下します。GPT-5 はタスクあたり 0.73 ドルのコストでわずか 9.9% しか達成しませんが、Grok 4 (Thinking) はコストが 2 ~ 4 ドルと大幅に高いにもかかわらず、約 16% のパフォーマンスを達成します。
予想どおり、安価なモデルバリアントではパフォーマンスが低下します。GPT-5 Mini は AGI-1 で 54.3%、AGI-2 で 4.4% を達成しますが、GPT-5 Nano はそれぞれ 16.5% と 2.5% しか達成しません。
o3プレビューモデルの秘密は何ですか?
OpenAIのo3-previewモデルは特別なケースです。2024年12月、ARC-AGI-1において、使用された計算能力に応じて75.7%から87.5%という驚異的な数値を達成しました。これは、AIシステムが人間のパフォーマンスの閾値である85%を超えた初めてのケースでした。
しかし、重要な制限が1つあります。o3の公開バージョンは、オリジナルのプレビューバージョンと比べてパフォーマンスが大幅に低下しています。ARC Prizeによると、o3のリリースバージョンはARC-AGI-1において、プレビューバージョンが76~88%の性能を達成したのに対し、低コンピューティングレベルでは41%、中コンピューティングレベルでは53%にとどまります。
OpenAIは、公開されたモデルは異なる、より小規模なアーキテクチャを持ち、チャットや製品アプリケーション向けに最適化されていることを確認しました。この矛盾は、その実際の能力に疑問を投げかけ、未公開モデルのベンチマーク結果を批判的に検証することの重要性を浮き彫りにしています。
ARC 賞のコンテストはどのように行われますか?
ARC Prizeは、オープンソースによるAGI(汎用人工知能)の発展を促進することを目的とした、賞金総額100万ドルを超える年次コンペティションです。2025年のコンペティションは、3月26日から11月3日までKaggleプラットフォームで開催されます。
価格体系には以下が含まれます:
- グランプリ(賞金70万ドル):チームが非公開評価データセットで85%の精度を達成した場合に授与されます。
- トップスコア賞(賞金75,000米ドル):最高得点を獲得したチーム
- 論文賞(5万ドル):最も重要な概念的進歩に対して
- 追加賞金(175,000米ドル):追加カテゴリーは後日発表
重要なのは、すべての受賞者は自身のソリューションをオープンソースとして公開しなければならないことです。これは、AGIの進歩を研究コミュニティ全体に公開するというARC Prize Foundationの使命に沿ったものです。
ARC-AGI ベンチマークの技術的な課題は何ですか?
ARC-AGI のタスクには、人間にとっては自然だが AI システムにとっては非常に難しいいくつかの認知スキルが必要です。
シンボルの解釈
AI は抽象的な記号を理解し、文脈からその意味を導き出す必要があります。
多層的な構成思考
問題はサブステップに分割し、順番に解決する必要があります。
コンテキスト依存のルール適用
同じルールを状況に応じて異なる方法で適用する必要がある場合があります。
いくつかの例からの一般化
通常、変換ルールを導出する必要があるデモンストレーション ペアは 2 ~ 3 組だけです。
ARC-AGI を解決する上で、テスト時のトレーニングはどのような役割を果たすのでしょうか?
テスト時学習(TTT)は、ARC-AGIのパフォーマンスを向上させる有望なアプローチであることが証明されています。この手法は、事前学習済みの知識のみに頼るのではなく、推論中にモデルのパラメータを現在の入力データに合わせて動的に調整します。
MITの研究者たちは、TTTがARC-AGIにおける言語モデルの性能を大幅に向上させることを実証しました。この手法により、モデルはタスク解決中に適応し、具体的な例から学習することができます。これは、難しい問題に多くの時間を費やすという人間の問題解決行動を模倣しています。
EU/DEデータセキュリティ | あらゆるビジネスニーズに対応する独立したクロスデータソースAIプラットフォームの統合
Ki-Gamechanger:最も柔軟なAIプラットフォーム – コストを削減し、意思決定を改善し、効率を高めるテーラーメイドのソリューション
独立したAIプラットフォーム:関連するすべての企業データソースを統合します
- 高速AI統合:数ヶ月ではなく数時間または数日で企業向けのテーラーメイドのAIソリューション
- 柔軟なインフラストラクチャ:クラウドベースまたは独自のデータセンター(ドイツ、ヨーロッパ、場所の自由な選択)でのホスティング)
- 最高のデータセキュリティ:法律事務所での使用は安全な証拠です
- さまざまな企業データソースにわたって使用します
- 独自またはさまざまなAIモデルの選択(DE、EU、米国、CN)
詳細については、こちらをご覧ください:
スケールを超えた人工知能:ARC-AGIテストからの洞察
この結果は AGI の開発にとって何を意味するのでしょうか?
結果は、人間と人工知能の間に明確なギャップがあることを明らかにしました。人間はARC-AGIのタスクを直感的に解決しますが、最先端のAIシステムでさえ基本的な推論タスクには失敗します。
フランソワ・ショレ氏は、AI開発における現在のパラダイム – すなわち、より多くの – を用いてますます大きなモデルを訓練するというパラダイムは限界に達していると主張している。モデルサイズが指数関数的に増大しているにもかかわらず、ARC-AGIの結果が芳しくないことは、彼の見解によれば、「流動性知能は事前訓練のスケーリングから生じるものではない」ことを証明している。
将来は、モデルが実行時に自身の状態を変更して新しい状況に適応できる、テスト時の適応などの新しいアプローチにある可能性があります。
ARC-AGI ベンチマークの将来はどうなるでしょうか?
ARC Prize Foundationは、このベンチマークを継続的に開発していく予定です。インタラクティブな要素を備えたARC-AGI-3は、2026年に完全リリースが予定されており、約100の独自の環境が含まれる予定です。
財団の目標は、AGI開発の「北極星」となるベンチマークを開発することです。これは、進歩を測定するだけでなく、真の汎用知能につながる方向性へと研究を導くことを目的としています。
ベンチマークのパフォーマンスの経済的影響は何ですか?
ARC-AGI タスクを解決するコストはモデルによって大きく異なり、実際の適用性に直接影響します。
単純なタスクであればAPIコストは数セント程度で解決できますが、複雑な推論タスクとなるとコストは急激に上昇します。例えば、O3モデルでは、高い計算能力を必要とする場合、タスクあたり最大1,000ドルかかることもあります。
このコスト構造は、たとえ技術的な進歩が達成されたとしても、AGI テクノロジーが広く採用されるためには経済的な実現可能性が依然として重要な要素であることを示しています。
ARC-AGI の結果の哲学的な意味は何でしょうか?
この結果は、知性の本質について根本的な疑問を提起する。このベンチマークは、パターンの記憶と真の理解の間には根本的な違いがあることを示す。
AIシステムが失敗する一方で、人間がこれらのタスクを難なく解決するという事実は、人間の知能が現在のAIのアプローチとは質的に異なることを示唆しています。これは、AGIには単に大規模なモデルとより多くのデータ以上のものが必要だというCholletの主張を裏付けています。
ARC-AGI は AI 研究にどのような影響を与えますか?
このベンチマークは既にAI研究の見直しを促しています。主要な研究室は、スケーリングモデルのみに焦点を当てるのではなく、テストタイムコンピューティングや適応型システムといった代替アプローチを模索しています。
この変化は投資にも反映されており、企業はこれまで以上に大規模なトレーニングの実行ではなく、より効率的な推論と問題解決の研究に投資するようになっています。
オープンソースコミュニティはどのような役割を果たしていますか?
ARC Prize Foundationは、AGIの発展におけるオープンソース開発の重要性を強調しています。すべての受賞者は、自らのソリューションを公開することが義務付けられています。
この理念は、AGIは閉鎖的な研究室だけで開発するにはあまりにも重要すぎるという確信に基づいています。財団は、協力的で透明性のある研究コミュニティの触媒となることを自らに求めています。
ARC-AGI ベンチマークの制限は何ですか?
ARC-AGIは重要な一方で、限界も抱えています。ショレ氏自身も、このテストに合格したからといってAGIが達成されたわけではないと強調しています。このベンチマークは、知能の一側面 – 抽象的な問題を解決する能力のみを測定するものです。
創造性、感情知能、長期計画といった他の重要な側面は測定されません。さらに、ARC-AGI向けに最適化されたシステムが開発され、テストに合格しても、全体として真の知性を備えていないというリスクもあります。
ARC-AGI のコンテキストにおける AI モデル開発のコストはどうなっているでしょうか?
コストの動向は興味深い傾向を示しています。パフォーマンスの向上は緩やかである一方、わずかな改善にかかるコストは爆発的に増加しています。
このコストのダイナミクスは、重要な洞察へと繋がります。効率性が重要な差別化要因になりつつあるのです。ARC Prize Foundationは、精度だけでなく、解決されたタスクあたりのコストも重要な基準であると強調しています。
ARC-AGI は仕事の未来にとって何を意味するのでしょうか?
この結果は多くの職業にとって安心材料となる。AIシステムが基本的な推論課題を解決できないという事実は、人間の認知能力が代替されるには程遠いことを示している。
同時に、専門的なタスクの進歩は、AI が人間の仕事を完全に置き換えるのではなく、人間の仕事をサポートするツールとして機能し続けることを示唆しています。
ARC-AGI を通じてどのような新しい研究アプローチが生まれているのでしょうか?
このベンチマークは、いくつかの革新的な研究方向に影響を与えました。
プログラム合成
問題を解決するためのプログラムを生成するシステム。
神経象徴的アプローチ
ニューラル ネットワークと記号推論の組み合わせ。
マルチエージェントシステム
複数の専門エージェントが連携して作業します。
進化アルゴリズム
進化的にソリューションを開発するシステム。
ARC Prize Foundation の将来のビジョンは何ですか?
財団の使命は明確です。それは、オープンAGI開発の「北極星」となることです。これは単に技術的なベンチマークを設定するだけでなく、AGIの進歩が全人類に恩恵をもたらすようにしながら、イノベーションを促進するエコシステムを構築することです。
新しいベンチマークバージョンの継続的な開発は、研究の停滞を防ぎ、常に基準を引き上げることを目的としています。ARC-AGI-3および将来のバージョンを通じて、財団はAIの限界と、AIにまだ欠けているものについて、さらなる探求を目指しています。
私たちはあなたのためにそこにいます – アドバイス – 計画 – 実装 – プロジェクト管理
☑️ 戦略、コンサルティング、計画、実行における中小企業のサポート
AI戦略の作成または再編成
☑️ 先駆的な事業開発
あなたの個人的なアドバイザーとして喜んでお手伝いさせていただきます。
以下のお問い合わせフォームにご記入いただくか、 +49 89 89 674 804 (ミュンヘン)。
私たちの共同プロジェクトを楽しみにしています。
Xpert.Digital – Wolfenstein
Xpert.Digital は、デジタル化、機械工学、物流/イントラロジスティクス、太陽光発電に重点を置いた産業のハブです。
360°の事業開発ソリューションで、新規事業からアフターセールスまで有名企業をサポートします。
マーケット インテリジェンス、マーケティング、マーケティング オートメーション、コンテンツ開発、PR、メール キャンペーン、パーソナライズされたソーシャル メディア、リード ナーチャリングは、当社のデジタル ツールの一部です。
www.xpert.digital – – をご覧ください。