AIモデルのARCベンチマークにおけるAI対決：GPT-5 vs. Grok vs. o3

Konrad Wolfenstein

12か月前

AIモデルのARCベンチマークにおけるAI対決：GPT-5 vs. Grok vs. o3 – 画像：Xpert.Digital

大いなる幻滅：ますます大規模化するAIモデルが重要な知能テストに失敗する理由

ARC-AGI ベンチマークとは何ですか? また、なぜ開発されたのですか?

ARC-AGIベンチマークは、AIシステムの汎用知能を測定するためのテストシリーズであり、2019年にフランソワ・ショレによって開発されました。ARCは「Abstraction and Reasoning Corpus for Artificial General Intelligence（汎用人工知能のための抽象化および推論コーパス）」の略です。このベンチマークは、AIシステムが明示的に訓練されていない新しいタスクを理解し解決する能力を評価するために作成されました。.

このベンチマークの開発は、ショレの代表作「知能の測定について」における知能の定義に基づいている。ショレは、真の知能とは特定のタスクを習得することではなく、新しいスキルを効率的に習得することにあると主張している。このテストは、色付きのグリッドを用いた視覚パズルで構成されており、AIシステムは、その根底にある変換ルールを特定し、それを新しい例に適用する必要がある。.

ARC-AGI は他の AI ベンチマークとどう違うのでしょうか?

従来のAIテストは、事前の知識や記憶されたパターンに依存することが多いのに対し、ARC-AGIは、いわゆる「コア知識の事前知識」、つまり対象物の永続性、計数、空間推論といった基本的な認知能力に焦点を当てています。これらの能力は、人間が通常4歳頃に習得するものです。.

決定的な違いは、ARC-AGIが単なる記憶やデータ補間では解けないように特別に設計されている点にあります。ベンチマークの各タスクはそれぞれ独自のものであり、テスト用に特別に開発されているため、オンライン上にサンプルが存在することはありません。そのため、このテストは、大規模なトレーニングデータセットに依存するAIシステムの典型的な戦略に対して耐性があります。.

ARC-AGI ベンチマークにはどのようなバージョンがありますか?

現在、ベンチマークには主に 3 つのバージョンがあります。

ARC-AGI-1

2019年のオリジナル版は静的なビジュアルパズルで構成されています。このゲームでは、人間の平均スコアは95%ですが、ほとんどのAIシステムは長年5%未満のスコアしか出せていません。.

ARC-AGI-2

この改良版は2025年にリリースされ、現代の推論システムにとっても困難な課題となるよう特別に設計されています。人間はほぼ100%の成功率を維持していますが、高度なAIモデルでさえ、タスクの10～20%しか処理できません。.

ARC-AGI-3

まだ開発中の最新バージョンでは、インタラクティブな要素が導入されています。静的なパズルではなく、AIエージェントは人間が新しい環境を探索するのと同じように、グリッドワールドでの探索と試行錯誤を通して学習する必要があります。.

ARC-AGI テストでは、さまざまな AI モデルのパフォーマンスはどのようになりますか?

さまざまな AI モデル間のパフォーマンスの違いは顕著です。

ARC-AGI-1の場合、Grok 4は約68%の精度を達成しましたが、GPT-5は65.7%に達しました。タスクあたりのコストは、Grok 4で約1米ドル、GPT-5で約0.51米ドルでした。.

より難しいテストである ARC-AGI-2 では、パフォーマンスが大幅に低下します。GPT-5 はタスクあたり 0.73 ドルのコストでわずか 9.9% しか達成しませんが、Grok 4 (Thinking) は約 16% でパフォーマンスは向上しますが、コストは 2 ～ 4 ドルと大幅に高くなります。.

予想どおり、安価なモデルバリアントのパフォーマンスは低下しています。GPT-5 Mini は AGI-1 で 54.3%、AGI-2 で 4.4% を達成していますが、GPT-5 Nano はそれぞれ 16.5% と 2.5% にしか達していません。.

o3 プレビューモデルの秘密は何ですか?

OpenAIのo3プレビューモデルは特別なケースです。2024年12月、ARC-AGI-1において、使用された計算能力に応じて75.7%から87.5%という驚異的なパフォーマンススコアを達成しました。これは、AIシステムが人間のパフォーマンス限界である85%を超えた初めてのケースでした。.

しかし、重要な制限が1つあります。o3の公開バージョンは、オリジナルのプレビューバージョンと比べてパフォーマンスが大幅に低下しています。ARC Prizeによると、リリースされたo3はARC-AGI-1において、プレビューバージョンが76～88%を達成したのに対し、低コンピューティングレベルでは41%、中コンピューティングレベルでは53%しか達成していません。.

OpenAIは、公開されたモデルは異なる、より小規模なアーキテクチャを持ち、チャットや製品アプリケーション向けに最適化されていることを確認しました。この矛盾は、その実際の能力に疑問を投げかけ、未公開モデルのベンチマーク結果を批判的に評価することの重要性を浮き彫りにしています。.

ARC 賞コンテストはどのように行われますか?

ARC Prizeは、賞金総額100万ドルを超える年次コンペティションで、AGI（Actively Generic Architecture）に向けたオープンソースの進歩を促進することを目的としています。2025年のコンペティションは、3月26日から11月3日までKaggleプラットフォームで開催されます。.

料金体系には以下が含まれます:

グランプリ（70万米ドル）：チームが非公開評価データセットで85％の精度を達成すると獲得できます。
トップスコア賞（賞金75,000米ドル）：最高得点を獲得したチーム
論文賞（5万ドル）：最も重要な概念的進歩に対して
その他の賞品（賞金17万5000米ドル）：追加カテゴリーは後日発表

すべての受賞者がソリューションをオープンソースとして公開することが重要です。これは、AGIの進歩を研究コミュニティ全体に公開するというARC Prize Foundationの使命と一致しています。.

ARC-AGI ベンチマークの技術的な課題は何ですか?

ARC-AGI のタスクには、人間にとっては自明だが AI システムにとっては非常に難しいいくつかの認知能力が必要です。

シンボルの解釈

AI は抽象的な記号を理解し、文脈からその意味を導き出す必要があります。.

多段階構成思考

問題はサブステップに分割し、順番に解決する必要があります。.

コンテキスト依存のルール適用

同じルールでも、状況に応じて異なる適用をする必要がある場合もあります。.

いくつかの例からの一般化

通常、変換ルールを導出する必要があるデモンストレーションペアは 2 ～ 3 組のみ利用可能です。.

ARC-AGI を解決する上で、テスト時のトレーニングはどのような役割を果たすのでしょうか?

テストタイムトレーニング（TTT）は、ARC-AGIのパフォーマンスを向上させる有望なアプローチであることが証明されています。この手法は、事前学習済みの知識のみに頼るのではなく、推論中に現在の入力データに合わせてモデルパラメータを動的に調整します。.

MITの研究者たちは、TTTがARC-AGIにおける言語モデルの性能を大幅に向上させることを示しました。この手法により、モデルはタスク解決中に適応し、具体的な例から学習することができます。これは、難しい問題に多くの時間を費やすという人間の問題解決行動を模倣しています。.

EU/DEデータセキュリティ | あらゆるビジネスニーズに対応する独立したクロスデータソースAIプラットフォームの統合

欧州企業にとっての戦略的選択肢としての独立系AIプラットフォーム - 画像: Xpert.Digital

AIゲームチェンジャー：最も柔軟なAIプラットフォーム - コストを削減し、意思決定を改善し、効率を高めるカスタムメイドのソリューション

独立したAIプラットフォーム：関連するすべての企業データソースを統合

迅速な AI 統合: 数か月ではなく、数時間または数日で企業向けのカスタマイズされた AI ソリューションを実現します。
柔軟なインフラストラクチャ: クラウドベースまたは独自のデータセンターでのホスティング (ドイツ、ヨーロッパ、場所は自由に選択可能)

最大限のデータセキュリティ: 法律事務所での使用は反駁できない証拠となります。
さまざまなエンタープライズデータソースにわたる展開
独自の AI モデルまたは異なる AI モデルの選択 (DE、EU、USA、CN)

詳細はこちら:

独立系 AI プラットフォームとハイパースケーラー: どちらのソリューションが適していますか?

スケーリングを超えた人工知能：ARC-AGIテストからの洞察

この結果は AGI の開発にとって何を意味するのでしょうか?

結果は、人間と人工知能の間に大きな隔たりがあることを明らかにしました。人間はARC-AGIのタスクを直感的に解決できる一方で、最先端のAIシステムでさえ基本的な認知タスクをこなすことができません。.

フランソワ・ショレは、AI開発の現在のパラダイム、すなわちより多くのデータを用いてより大規模なモデルを訓練するという手法は限界に達していると主張する。モデルサイズが指数関数的に増加しているにもかかわらず、ARC-AGIで芳しくない結果が得られたことは、「流動的な知能は事前学習の規模拡大からは生まれない」という彼の見解を裏付けている。.

将来は、モデルが実行時に独自の状態を変更して新しい状況に適応できる、テスト時の適応などの新しいアプローチにある可能性があります。.

ARC-AGI ベンチマークの将来はどうなるのでしょうか?

ARC Prize Foundationは、ベンチマークの継続的な開発を計画しています。インタラクティブな要素を備えたARC-AGI-3は、2026年に完全リリースされる予定で、約100の独自の環境が含まれる予定です。.

当財団は、汎用人工知能（AGI）開発における「羅針盤」となるようなベンチマークを開発することを目指しています。これには、進捗状況を測定するだけでなく、真の汎用知能につながる可能性のある方向へ研究を導くことも含まれます。.

ベンチマークのパフォーマンスの経済的影響は何ですか?

ARC-AGI の問題を解決するコストはモデルによって大きく異なり、実際の適用性に直接影響します。.

単純なタスクであればAPIコストは数セント程度で解決できますが、複雑な推論タスクとなるとコストは急激に上昇します。例えば、O3モデルでは、高い計算能力を必要とするタスク1件あたり最大1,000ドルのコストがかかる場合があります。.

このコスト構造は、たとえ技術的な進歩が達成されたとしても、AGI 技術の広範な応用には経済的な実現可能性が依然として重要な要素であることを示しています。.

ARC-AGI の結果の哲学的な意味は何でしょうか?

この結果は、知性の本質について根本的な疑問を提起する。このベンチマークは、パターンの記憶と真の理解の間には根本的な違いがあることを示す。.

AIシステムが失敗する一方で、人間がこれらのタスクを難なく解決するという事実は、人間の知能が現在のAIのアプローチとは質的に異なることを示唆しています。これは、AGIには大規模なモデルとより多くのデータだけでは不十分であるというCholletの主張を裏付けています。.

ARC-AGI は AI 研究の方向にどのような影響を与えますか?

このベンチマークは既にAI研究の見直しを促しています。主要な研究室は、スケーリングモデルのみに焦点を当てるのではなく、テストタイムコンピューティングや適応型システムといった代替アプローチを模索しています。.

この変化は投資にも反映されており、企業はこれまで以上に大規模なトレーニングの実行ではなく、より効率的な推論と問題解決の研究に投資するようになっています。.

オープンソースコミュニティはどのような役割を果たしていますか?

ARC Prize Foundationは、AGIの進歩におけるオープンソース開発の重要性を強調しています。すべての受賞者は、自らのソリューションを公開する必要があります。.

この理念は、AGIは閉鎖的な研究室だけで開発するにはあまりにも重要すぎるという確信に基づいています。財団は、協力的で透明性のある研究コミュニティの触媒となることを自らに求めています。.

ARC-AGI ベンチマークの制限は何ですか?

ARC-AGIは重要な一方で、限界も抱えています。ショレ氏自身も、試験に合格することとAGIを達成することは同義ではないと強調しています。このベンチマークは、知能の一側面、つまり抽象的な問題を解決する能力のみを測定するものです。.

創造性、感情知能、長期計画といった他の重要な側面は評価されません。さらに、ARC-AGI向けに最適化されたシステムが開発され、実際には汎用的な知能を備えていないにもかかわらず、テストに合格してしまうリスクもあります。.

ARC-AGI のコンテキストにおける AI モデルの開発コストはどうなっていますか?

コストの推移は興味深い傾向を示しています。パフォーマンスの向上は緩やかである一方、限界的な改善にかかるコストは爆発的に増加しています。.

このコストのダイナミクスは、重要な洞察へと繋がります。効率性が決定的な差別化要因になりつつあるのです。ARC Prize Foundationは、精度だけでなく、解決された問題1件あたりのコストも重要な基準であると強調しています。.

ARC-AGI は仕事の未来にとって何を意味するのでしょうか?

この結果は多くの職業にとって安心材料となる。AIシステムが基本的な思考課題を解決できないことは、人間の認知能力が代替されるには程遠いことを示している。.

同時に、専門分野の業務の進歩は、AI が人間の仕事を完全に置き換えるのではなく、人間の仕事をサポートするツールとして機能し続けることを示唆しています。.

ARC-AGI からどのような新しい研究アプローチが生まれますか?

このベンチマークは、いくつかの革新的な研究方向に影響を与えました。

プログラム合成

問題を解決するためのプログラムを生成するシステム。.

神経象徴的アプローチ

ニューラルネットワークと記号推論の組み合わせ。.

マルチエージェントシステム

複数の専門エージェントが連携して働いています。.

進化アルゴリズム

進化を通じてソリューションを開発するシステム。.

ARC 賞財団の将来のビジョンは何ですか?

当財団は明確な使命を掲げています。それは、オープンな汎用人工知能（AGI）開発における「北極星」となることです。これには、技術的なベンチマークを設定するだけでなく、イノベーションを促進し、AGIの進歩が全人類に恩恵をもたらすことを保証するエコシステムの構築も含まれます。.

新しいベンチマークバージョンを継続的に開発することで、研究の水準を常に引き上げ、研究が停滞しないようにしています。ARC-AGI-3および将来のバージョンを通じて、財団はAIの限界と、AIにまだ欠けているものについて、さらなる探求を目指しています。.

コンサルティング、計画、実装、プロジェクト管理など、あらゆる面でサポートいたします。

☑️ 戦略、コンサルティング、計画、実装における中小企業のサポート

☑️ AI戦略の策定または再調整

☑️ パイオニア事業開発