ウェブサイトアイコン Xpert.Digital

AIモデルのARCベンチマークにおけるAI対決:GPT-5 vs. Grok vs. o3

AIモデルのARCベンチマークにおけるAI対決:GPT-5 vs. Grok vs. o3

AIモデルのARCベンチマークにおけるAI対決:GPT-5 vs. Grok vs. o3 – 画像:Xpert.Digital

大いなる幻滅:ますます大規模化するAIモデルが重要な知能テストに失敗する理由

ARC-AGI ベンチマークとは何ですか? また、なぜ開発されたのですか?

ARC-AGIベンチマークは、AIシステムの汎用知能を測定するためのテストシリーズで、2019年にフランソワ・ショレ氏によって開発されました。ARCは「Abstruction and Reasoning Corpus for Artificial General Intelligence(汎用人工知能のための抽象化および推論コーパス)」の略です。このベンチマークは、AIシステムが明示的に訓練されていない新しいタスクを理解し、解決する能力を評価するために作成されました。.

このベンチマークは、ショレの画期的な論文「知能の尺度について」における知能の定義に基づいて開発されました。彼は、真の知能は特定のタスクを習得することではなく、新しいスキルを効率的に習得することにあると主張しています。このテストは、色付きのグリッドを使った視覚的なパズルで構成されており、AIシステムは根底にある変換ルールを識別し、それを新しい例に適用する必要があります。.

ARC-AGI は他の AI ベンチマークとどう違うのでしょうか?

従来のAIテストは、多くの場合、事前知識や記憶されたパターンに依存しますが、ARC-AGIは、いわゆる「コア知識の事前知識」、つまり物体の永続性、計数、空間推論といった基礎的な認知スキルに焦点を当てています。これらのスキルは、人間が通常4歳前後で習得するものです。.

決定的な違いは、ARC-AGIが単なる記憶やデータ補間では解けないように特別に設計されている点にあります。ベンチマークの各タスクはそれぞれ独自のものであり、テスト用に特別に開発されているため、オンライン上にサンプルが存在することはありません。そのため、このテストは、大規模なトレーニングデータセットに依存するAIシステムの典型的な戦略に対して耐性があります。.

ARC-AGI ベンチマークにはどのようなバージョンがありますか?

現在、ベンチマークには主に 3 つのバージョンがあります。

ARC-AGI-1

2019年のオリジナル版は静的なビジュアルパズルで構成されています。このゲームでは、人間の平均スコアは95%ですが、ほとんどのAIシステムは長年5%未満のスコアしか出せていません。.

ARC-AGI-2

この強化版は2025年にリリースされ、現代の推論システムにも挑戦できるよう特別に設計されています。人間はほぼ100%の成功率を達成し続けていますが、高度なAIモデルでさえ、タスクの10~20%しか処理できません。.

ARC-AGI-3

まだ開発中の最新バージョンでは、インタラクティブな要素が導入されています。静的なパズルではなく、AIエージェントは人間が新しい環境を探索するのと同じように、グリッドワールドでの探索と試行錯誤を通して学習する必要があります。.

ARC-AGI テストでは、さまざまな AI モデルのパフォーマンスはどのようになりますか?

さまざまな AI モデル間のパフォーマンスの違いは顕著です。

ARC-AGI-1の場合、Grok 4は約68%の精度を達成しましたが、GPT-5は65.7%に達しました。タスクあたりのコストは、Grok 4で約1米ドル、GPT-5で約0.51米ドルでした。.

より難しいテストである ARC-AGI-2 では、パフォーマンスが大幅に低下します。GPT-5 はタスクあたり 0.73 ドルのコストでわずか 9.9% しか達成しませんが、Grok 4 (Thinking) は約 16% でパフォーマンスは向上しますが、コストは 2 ~ 4 ドルと大幅に高くなります。.

予想どおり、安価なモデルバリアントのパフォーマンスは低下しています。GPT-5 Mini は AGI-1 で 54.3%、AGI-2 で 4.4% を達成していますが、GPT-5 Nano はそれぞれ 16.5% と 2.5% にしか達していません。.

o3 プレビュー モデルの秘密は何ですか?

OpenAIのo3プレビューモデルは特別なケースです。2024年12月、ARC-AGI-1において、使用された計算能力に応じて75.7%から87.5%という驚異的なパフォーマンススコアを達成しました。これは、AIシステムが人間のパフォーマンス限界である85%を超えた初めてのケースでした。.

しかし、重要な制限が1つあります。o3の公開バージョンは、オリジナルのプレビューバージョンと比べてパフォーマンスが大幅に低下しています。ARC Prizeによると、リリースされたo3はARC-AGI-1において、プレビューバージョンが76~88%を達成したのに対し、低コンピューティングレベルでは41%、中コンピューティングレベルでは53%しか達成していません。.

OpenAIは、公開されたモデルは異なる、より小規模なアーキテクチャを持ち、チャットや製品アプリケーション向けに最適化されていることを確認しました。この矛盾は、その実際の能力に疑問を投げかけ、未公開モデルのベンチマーク結果を批判的に評価することの重要性を浮き彫りにしています。.

ARC 賞コンテストはどのように行われますか?

ARC Prizeは、賞金総額100万ドルを超える年次コンペティションで、AGI(Actively Generic Architecture)に向けたオープンソースの進歩を促進することを目的としています。2025年のコンペティションは、3月26日から11月3日までKaggleプラットフォームで開催されます。.

料金体系には以下が含まれます:

  • グランプリ(70万米ドル):チームが非公開評価データセットで85%の精度を達成すると獲得できます。
  • トップスコア賞(賞金75,000米ドル):最高得点を獲得したチーム
  • 論文賞(5万ドル):最も重要な概念的進歩に対して
  • その他の賞品(賞金17万5000米ドル):追加カテゴリーは後日発表

すべての受賞者がソリューションをオープンソースとして公開することが重要です。これは、AGIの進歩を研究コミュニティ全体に公開するというARC Prize Foundationの使命と一致しています。.

ARC-AGI ベンチマークの技術的な課題は何ですか?

ARC-AGI のタスクには、人間にとっては自明だが AI システムにとっては非常に難しいいくつかの認知能力が必要です。

シンボルの解釈

AI は抽象的な記号を理解し、文脈からその意味を導き出す必要があります。.

多段階構成思考

問題はサブステップに分割し、順番に解決する必要があります。.

コンテキスト依存のルール適用

同じルールでも、状況に応じて異なる適用をする必要がある場合もあります。.

いくつかの例からの一般化

通常、変換ルールを導出する必要があるデモンストレーション ペアは 2 ~ 3 組のみ利用可能です。.

ARC-AGI を解決する上で、テスト時のトレーニングはどのような役割を果たすのでしょうか?

テストタイムトレーニング(TTT)は、ARC-AGIのパフォーマンスを向上させる有望なアプローチであることが証明されています。この手法は、事前学習済みの知識のみに頼るのではなく、推論中に現在の入力データに合わせてモデルパラメータを動的に調整します。.

MITの研究者たちは、TTTがARC-AGIにおける言語モデルの性能を大幅に向上させることを示しました。この手法により、モデルはタスク解決中に適応し、具体的な例から学習することができます。これは、難しい問題に多くの時間を費やすという人間の問題解決行動を模倣しています。.

 

EU/DEデータセキュリティ | あらゆるビジネスニーズに対応する独立したクロスデータソースAIプラットフォームの統合

欧州企業にとっての戦略的選択肢としての独立系AIプラットフォーム - 画像: Xpert.Digital

AIゲームチェンジャー:最も柔軟なAIプラットフォーム - コストを削減し、意思決定を改善し、効率を高めるカスタムメイドのソリューション

独立したAIプラットフォーム:関連するすべての企業データソースを統合

  • 迅速な AI 統合: 数か月ではなく、数時間または数日で企業向けのカスタマイズされた AI ソリューションを実現します。
  • 柔軟なインフラストラクチャ: クラウドベースまたは独自のデータセンターでのホスティング (ドイツ、ヨーロッパ、場所は自由に選択可能)
  • 最大限のデータセキュリティ: 法律事務所での使用は反駁できない証拠となります。
  • さまざまなエンタープライズデータソースにわたる展開
  • 独自の AI モデルまたは異なる AI モデルの選択 (DE、EU、USA、CN)

詳細はこちら:

 

スケーリングを超えた人工知能:ARC-AGIテストからの洞察

この結果は AGI の開発にとって何を意味するのでしょうか?

結果は、人間と人工知能の間に大きな隔たりがあることを明らかにしました。人間はARC-AGIのタスクを直感的に解決できる一方で、最先端のAIシステムでさえ基本的な認知タスクをこなすことができません。.

フランソワ・ショレ氏は、AI開発における現在のパラダイム、すなわちより多くのデータを用いてより大きなモデルを学習させるという手法は限界に達していると主張している。モデルサイズが指数関数的に増大しているにもかかわらず、ARC-AGIの結果が芳しくないことは、彼の見解によれば、「流動性知能は事前学習のスケーリングから生じるものではない」ことを証明している。.

将来は、モデルが実行時に独自の状態を変更して新しい状況に適応できる、テスト時の適応などの新しいアプローチにある可能性があります。.

ARC-AGI ベンチマークの将来はどうなるのでしょうか?

ARC Prize Foundationは、ベンチマークの継続的な開発を計画しています。インタラクティブな要素を備えたARC-AGI-3は、2026年に完全リリースされる予定で、約100の独自の環境が含まれる予定です。.

財団は、AGI開発の「北極星」となるベンチマークの開発を目指しています。これは、進歩を測定するだけでなく、真の汎用知能につながる方向性に向けて研究を導くことも含まれます。.

ベンチマークのパフォーマンスの経済的影響は何ですか?

ARC-AGI の問題を解決するコストはモデルによって大きく異なり、実際の適用性に直接影響します。.

単純なタスクであればAPIコストは数セント程度で解決できますが、複雑な推論タスクとなるとコストは急激に上昇します。例えば、O3モデルでは、高い計算能力を必要とするタスク1件あたり最大1,000ドルのコストがかかる場合があります。.

このコスト構造は、たとえ技術的な進歩が達成されたとしても、AGI 技術の広範な応用には経済的な実現可能性が依然として重要な要素であることを示しています。.

ARC-AGI の結果の哲学的な意味は何でしょうか?

この結果は、知性の本質について根本的な疑問を提起する。このベンチマークは、パターンの記憶と真の理解の間には根本的な違いがあることを示す。.

AIシステムが失敗する一方で、人間がこれらのタスクを難なく解決するという事実は、人間の知能が現在のAIのアプローチとは質的に異なることを示唆しています。これは、AGIには大規模なモデルとより多くのデータだけでは不十分であるというCholletの主張を裏付けています。.

ARC-AGI は AI 研究の方向にどのような影響を与えますか?

このベンチマークは既にAI研究の見直しを促しています。主要な研究室は、スケーリングモデルのみに焦点を当てるのではなく、テストタイムコンピューティングや適応型システムといった代替アプローチを模索しています。.

この変化は投資にも反映されており、企業はこれまで以上に大規模なトレーニングの実行ではなく、より効率的な推論と問題解決の研究に投資するようになっています。.

オープンソースコミュニティはどのような役割を果たしていますか?

ARC Prize Foundationは、AGIの進歩におけるオープンソース開発の重要性を強調しています。すべての受賞者は、自らのソリューションを公開する必要があります。.

この理念は、AGIは閉鎖的な研究室だけで開発するにはあまりにも重要すぎるという確信に基づいています。財団は、協力的で透明性のある研究コミュニティの触媒となることを自らに求めています。.

ARC-AGI ベンチマークの制限は何ですか?

ARC-AGIは重要な一方で、限界も抱えています。ショレ氏自身も、試験に合格することとAGIを達成することは同義ではないと強調しています。このベンチマークは、知能の一側面、つまり抽象的な問題を解決する能力のみを測定するものです。.

創造性、感情知能、長期計画といった他の重要な側面は評価されません。さらに、ARC-AGI向けに最適化されたシステムが開発され、実際には汎用的な知能を備えていないにもかかわらず、テストに合格してしまうリスクもあります。.

ARC-AGI のコンテキストにおける AI モデルの開発コストはどうなっていますか?

コストの推移は興味深い傾向を示しています。パフォーマンスの向上は緩やかである一方、限界的な改善にかかるコストは爆発的に増加しています。.

このコストのダイナミクスは、重要な洞察へと繋がります。効率性が決定的な差別化要因になりつつあるのです。ARC Prize Foundationは、精度だけでなく、解決された問題1件あたりのコストも重要な基準であると強調しています。.

ARC-AGI は仕事の未来にとって何を意味するのでしょうか?

この結果は多くの職業にとって安心材料となる。AIシステムが基本的な思考課題を解決できないことは、人間の認知能力が代替されるには程遠いことを示している。.

同時に、専門分野の業務の進歩は、AI が人間の仕事を完全に置き換えるのではなく、人間の仕事をサポートするツールとして機能し続けることを示唆しています。.

ARC-AGI からどのような新しい研究アプローチが生まれますか?

このベンチマークは、いくつかの革新的な研究方向に影響を与えました。

プログラム合成

問題を解決するためのプログラムを生成するシステム。.

神経象徴的アプローチ

ニューラル ネットワークと記号推論の組み合わせ。.

マルチエージェントシステム

複数の専門エージェントが連携して働いています。.

進化アルゴリズム

進化を通じてソリューションを開発するシステム。.

ARC 賞財団の将来のビジョンは何ですか?

財団は明確な使命を掲げています。それは、オープンAGI開発の「北極星」となることです。これは、技術的なベンチマークだけでなく、AGIの進歩が全人類に利益をもたらすようにしながら、イノベーションを促進するエコシステムの構築も含みます。.

新しいベンチマークバージョンを継続的に開発することで、研究の水準を常に引き上げ、研究が停滞しないようにしています。ARC-AGI-3および将来のバージョンを通じて、財団はAIの限界と、AIにまだ欠けているものについて、さらなる探求を目指しています。.

 

コンサルティング、計画、実装、プロジェクト管理など、あらゆる面でサポートいたします。

☑️ 戦略、コンサルティング、計画、実装における中小企業のサポート

☑️ AI戦略の策定または再調整

☑️ パイオニア事業開発

 

Konrad Wolfenstein

喜んであなたの個人アドバイザーを務めさせていただきます。.

下記の連絡フォームにご記入いただくか、 +49 7348 4088 965

私たちの共同プロジェクトを楽しみにしています。.

 

 

私に手紙を書いてください

 
Xpert.Digital - Konrad Wolfenstein

Xpert.Digital は、デジタル化、機械工学、物流/イントラロジスティクス、太陽光発電に重点を置いた業界のハブです。.

当社の 360° ビジネス開発ソリューションでは、新規事業からアフターセールスまで有名企業をサポートします。.

市場情報、マーケティング、マーケティング自動化、コンテンツ開発、PR、メールキャンペーン、パーソナライズされたソーシャルメディア、リード育成は、当社のデジタルツールの一部です。.

詳細については、 www.xpert.digitalwww.xpert.solarwww.xpert.plus

連絡を取り合う

モバイル版を離れる