AI 模型在 ARC 基准测试中的巅峰对决：GPT-5 vs. Grok vs. o3

Konrad Wolfenstein

10个月前

AI 模型在 ARC 基准测试中的巅峰对决：GPT-5 vs. Grok vs. o3 – 图片来源：Xpert.Digital

巨大的幻灭：为什么规模越来越大的AI模型无法通过关键的智能测试

ARC-AGI基准是什么？它为何被开发？

ARC-AGI基准测试是一套用于衡量人工智能系统通用智能的测试数据集，由François Chollet于2019年开发。ARC代表“通用人工智能抽象与推理语料库”（Abstraction and Reasoning Corpus for Artificial General Intelligence）。该基准测试旨在评估人工智能系统理解和解决未经明确训练的新任务的能力。.

该基准测试的开发基于肖莱在其开创性论文《论智力的测量》中对智力的定义。他认为，真正的智力不在于掌握特定任务，而在于高效地习得新技能。测试包含彩色网格的视觉谜题，人工智能系统必须识别其中的潜在转换规则并将其应用于新的例子。.

ARC-AGI 与其他 AI 基准测试有何不同？

与通常依赖于先验知识或记忆模式的传统人工智能测试不同，ARC-AGI 侧重于所谓的“核心知识先验”——诸如物体恒存性、计数和空间推理等基本认知技能。这些技能通常在人类四岁左右习得。.

关键区别在于，ARC-AGI 的设计初衷就是使其无法通过简单的记忆或数据插值来解决。基准测试中的每个任务都是独一无二的，并且是专门为该测试开发的，因此网上不应该存在任何示例。这使得该测试能够有效抵御依赖大型训练数据集的典型人工智能系统策略。.

ARC-AGI 基准测试有哪些不同版本？

目前该基准测试主要有三个版本：

ARC-AGI-1

2019 年的原始版本由静态视觉谜题组成。人类玩家在该游戏中平均得分高达 95%，而大多数人工智能系统的得分长期以来都低于 5%。.

ARC-AGI-2

这个增强版于2025年发布，其设计旨在对现代推理系统构成挑战。尽管人类仍然能够取得近乎100%的成功率，但即使是先进的人工智能模型也只能完成10-20%的任务。.

ARC-AGI-3

最新版本仍在开发中，引入了交互元素。人工智能体不再需要解静态谜题，而是像人类探索新环境一样，在网格世界中通过探索和反复试验来学习。.

不同的AI模型在ARC-AGI测试中的表现如何？

不同人工智能模型之间的性能差异显著：

对于 ARC-AGI-1 数据集，Grok 4 的准确率约为 68%，而 GPT-5 的准确率约为 65.7%。Grok 4 的单项任务成本约为 1 美元，GPT-5 的单项任务成本约为 0.51 美元。.

在更难的 ARC-AGI-2 测试中，性能急剧下降：GPT-5 仅达到 9.9%，每项任务的成本为 0.73 美元，而 Grok 4（思考）表现更好，达到约 16%，但成本明显更高，为 2-4 美元。.

正如预期的那样，价格较低的型号性能较弱：GPT-5 Mini 在 AGI-1 上的准确率为 54.3%，在 AGI-2 上的准确率为 4.4%，而 GPT-5 Nano 分别仅达到 16.5% 和 2.5%。.

o3预览模型背后的秘密是什么？

OpenAI 的 o3 预览模型是一个特例。2024 年 12 月，它在 ARC-AGI-1 测试中取得了令人瞩目的性能得分，根据计算能力的不同，得分范围在 75.7% 到 87.5% 之间。这是人工智能系统首次突破人类 85% 的性能极限。.

然而，存在一个重要的局限性：公开发布的 o3 版本性能远逊于最初的预览版。根据 ARC Prize 的数据，正式发布的 o3 在 ARC-AGI-1 数据集上仅达到 41%（低计算量）和 53%（中等计算量），而预览版则达到了 76%-88%。.

OpenAI 证实，已发布的模型架构不同，体积更小，并且针对聊天和产品应用进行了优化。这种差异引发了人们对其实际能力的质疑，并凸显了严格评估未发布模型基准测试结果的重要性。.

ARC奖的评选流程是怎样的？

ARC Prize 是一项年度竞赛，总奖金超过一百万美元，旨在促进开源软件在通用架构（AGI）领域的发展。2025 年的竞赛于 3 月 26 日至 11 月 3 日在 Kaggle 平台上举行。.

定价结构包括：

大奖（700,000 美元）：当团队在私有评估数据集上达到 85% 的准确率时解锁。
最高分奖（75,000 美元）：颁发给得分最高的队伍
论文奖（50,000 美元）：奖励最具意义的概念性进展
其他奖项（175,000 美元）：其他奖项类别待公布

所有获奖者都必须以开源形式发布他们的解决方案，这一点至关重要。这与ARC奖基金会的使命相符，即让整个研究界都能获取通用人工智能（AGI）领域的进展。.

ARC-AGI 基准测试面临哪些技术挑战？

ARC-AGI中的任务需要一些对人类来说不言而喻但对人工智能系统来说却极其困难的认知能力：

符号解读

人工智能必须理解抽象符号，并从上下文中推导出其含义。.

多阶段组合思维

问题必须分解成若干子步骤，然后按顺序解决。.

上下文相关的规则应用

同一规则在不同情况下可能需要采用不同的应用方式。.

从几个例子中得出概括

通常只有 2-3 个示范对可供使用，必须从中推导出转换规则。.

测试时间训练在解决 ARC-AGI 问题中起什么作用？

测试时训练 (TTT) 已被证明是提高 ARC-AGI 性能的一种很有前景的方法。该方法在推理过程中根据当前输入数据动态调整模型参数，而不是仅仅依赖预训练的知识。.

麻省理工学院的研究人员已经证明，TTT（时间转换理论）能够显著提升语言模型在ARC-AGI（通用人工智能）上的性能。该方法允许模型在任务解决过程中进行调整，并从特定示例中学习。这模拟了人类解决问题的行为，即我们会花费更多时间在难题上。.

欧盟/德国数据安全 | 集成独立且跨数据源的人工智能平台，满足所有业务需求

独立人工智能平台：欧洲企业的战略选择——图片来源：Xpert.Digital

AI颠覆者：最灵活的AI平台——量身定制的解决方案，降低成本、优化决策、提升效率

独立人工智能平台：整合所有相关的公司数据源

快速集成人工智能：在数小时或数天内为企业量身定制人工智能解决方案，而不是数月。
灵活的基础设施：基于云或托管在您自己的数据中心（德国、欧洲，地点可自由选择）

最高级别的数据安全保障：律师事务所的使用就是无可辩驳的证明。
可部署于各种企业数据源
选择使用我们自己的或不同的AI模型（DE、EU、USA、CN）

更多信息请点击这里：

独立人工智能平台 vs. 超大规模数据中心：哪种解决方案更合适？

超越规模化的人工智能：来自 ARC-AGI 测试的启示

这些结果对AGI的发展意味着什么？

研究结果揭示了人类智能与人工智能之间存在显著差距。人类能够凭直觉解决 ARC-AGI 任务，而即使是最先进的人工智能系统也无法完成基本的认知任务。.

弗朗索瓦·肖莱认为，当前人工智能发展的范式——用更多的数据训练越来越大的模型——已经达到了极限。尽管模型规模呈指数级增长，但在ARC-AGI上却表现不佳，这在他看来证明了“流体智能并非源于预训练规模的扩大”。.

未来可能在于测试时自适应等新方法，在这种方法中，模型可以在运行时改变自身的状态以适应新的情况。.

ARC-AGI基准测试的未来发展趋势如何？

ARC Prize基金会计划持续开发该基准测试。包含交互式元素的ARC-AGI-3计划于2026年全面发布，并将包含约100个独特的环境。.

该基金会的目标是制定基准，作为通用人工智能（AGI）发展的“北极星”。这不仅包括衡量进展，还包括引导研究朝着能够最终实现真正通用智能的方向发展。.

基准表现会带来哪些经济影响？

解决 ARC-AGI 问题的成本因模型而异，并且对实际应用有直接影响。.

简单的任务只需花费几美分就能通过 API 完成，但复杂的推理任务成本会迅速上升。例如，o3 模型在高计算能力下，每个任务的成本可能高达 1000 美元。.

这种成本结构表明，即使取得了技术突破，经济可行性仍然是通用人工智能技术广泛应用的关键因素。.

ARC-AGI 研究结果有哪些哲学意义？

研究结果引发了关于智能本质的根本性问题。该基准测试表明，记忆模式和真正理解之间存在着本质区别。.

人类能够毫不费力地完成这些任务，而人工智能系统却会失败，这一事实表明人类智能的运作方式与当前的人工智能方法存在本质区别。这印证了肖莱的观点，即通用人工智能需要的不仅仅是更大的模型和更多的数据。.

ARC-AGI如何影响人工智能研究方向？

这一基准测试已经促使人工智能研究领域重新思考。领先的实验室不再仅仅关注模型的扩展，而是开始探索其他方法，例如测试时计算和自适应系统。.

这种转变也体现在投资上：公司越来越多地投资于更高效的推理和问题解决的研究，而不是进行更大规模的训练。.

开源社区扮演着怎样的角色？

ARC奖基金会强调开源开发对通用人工智能（AGI）发展的重要性。所有获奖者都必须公开其解决方案。.

这一理念基于这样的信念：通用人工智能（AGI）至关重要，不应仅仅在封闭的实验室中发展。该基金会将自身定位为促进协作、透明的研究共同体的催化剂。.

ARC-AGI基准测试的局限性是什么？

尽管ARC-AGI非常重要，但它也存在局限性。肖莱本人强调，通过测试并不等同于达到通用人工智能（AGI）的水平。该基准测试仅衡量智能的一个方面——解决抽象问题的能力。.

其他重要方面，例如创造力、情商或长期规划能力，并未得到评估。此外，还存在这样一种风险：一些专门针对ARC-AGI测试优化的系统，虽然能够通过测试，但实际上并不具备通用智能。.

在 ARC-AGI 的背景下，人工智能模型开发的成本如何？

成本变化揭示了一些有趣的趋势。虽然性能提升缓慢，但边际性能提升所需的成本却在爆炸式增长。.

这种成本动态引出一个重要的洞见：效率正成为决定性的差异化因素。ARC奖基金会强调，不仅准确性，而且解决每个问题的成本也是至关重要的评判标准。.

ARC-AGI对未来工作意味着什么？

研究结果对许多行业具有令人安心的意义。人工智能系统无法解决基本的思维任务表明，人类的认知能力远未被取代。.

与此同时，专业任务方面的进展表明，人工智能将继续作为辅助人类工作的工具，而不是完全取代人类工作。.

ARC-AGI 催生了哪些新的研究方法？

该基准测试启发了多个创新研究方向：

程序合成

能够生成程序来解决问题的系统。.

神经符号方法

神经网络与符号推理的结合。.

多智能体系统

多位专业特工正在共同合作。.

进化算法

通过演化发展解决方案的系统。.

ARC奖基金会对未来有何愿景？

该基金会秉持着明确的使命：成为开放式通用人工智能（AGI）发展的“北极星”。这不仅包括制定技术基准，还包括创建一个能够促进创新并确保AGI进步造福全人类的生态系统。.

持续开发新的基准版本旨在确保标准不断提高，研究不停滞不前。通过 ARC-AGI-3 及未来版本，基金会旨在进一步探索人工智能的极限及其仍存在的不足。.

我们为您提供以下服务：咨询、规划、实施、项目管理

☑️ 为中小企业提供战略、咨询、规划和实施方面的支持

☑️ 人工智能战略的制定或调整

☑️ 先锋业务发展