ARC AI 模型基准测试中的 AI 对决:GPT-5 vs. Grok vs o3
Xpert 预发布
语言选择 📢
发布日期:2025 年 8 月 8 日 / 更新日期:2025 年 8 月 8 日 – 作者: Konrad Wolfenstein
大幻灭:为何越来越大的人工智能模型无法通过关键的智力测试
什么是 ARC-AGI 基准?为什么要开发它?
ARC-AGI 基准测试是 François Chollet 于 2019 年开发的一系列用于衡量人工智能系统通用智能的测试。ARC 的全称是“通用人工智能抽象与推理语料库”。该基准测试旨在评估人工智能系统理解和解决未经明确训练的新任务的能力。
该基准的制定基于 Chollet 在其开创性论文《论智力的测量》中对智力的定义。他认为,真正的智力不在于对特定任务的掌握,而在于获取新技能的效率。测试由带有彩色网格的视觉谜题组成,其中人工智能系统必须识别底层的转换规则并将其应用于新示例。
ARC-AGI 与其他 AI 基准有何不同?
与通常依赖先验知识或记忆模式的传统人工智能测试不同,ARC-AGI 侧重于所谓的“核心知识先验” – 例如物体永久性、计数和空间理解等基本认知技能。这些技能通常在四岁前习得。
关键区别在于,ARC-AGI 专门设计为可通过纯记忆或数据插值来解决。基准测试中的每个任务都是独一无二的,并且是专门为测试开发的,因此网络上不应该存在类似的示例。这使得该测试能够抵御基于大量训练数据的 AI 系统常用策略。
ARC-AGI 基准有哪些不同版本?
目前该基准有三个主要版本:
ARC-AGI-1
2019 年的原始版本由静态视觉谜题组成,人类的平均得分为 95%,而大多数人工智能系统的得分早已低于 5%。
ARC-AGI-2
这个增强版将于2025年发布,其设计初衷是挑战现代推理系统。尽管人类的表现已接近100%,但即使是先进的人工智能模型也只能完成10%到20%的任务。
ARC-AGI-3
最新版本仍在开发中,引入了互动元素。与静态谜题不同,AI 代理必须在网格世界中通过探索和反复试验来学习,类似于人类探索新环境的方式。
不同的AI模型在ARC-AGI测试中的表现如何?
不同AI模型之间的性能差异显著:
在 ARC-AGI-1 上,Grok 4 的准确率约为 68%,而 GPT-5 的准确率约为 65.7%。Grok 4 的每项任务成本约为 1 美元,GPT-5 的每项任务成本约为 0.51 美元。
在难度更高的测试 ARC-AGI-2 上,性能急剧下降:GPT-5 仅达到 9.9%,每个任务的成本为 0.73 美元,而 Grok 4(思考)的表现更好,约为 16%,尽管成本明显高出 2-4 美元。
正如预期的那样,更便宜的模型变体表现出较弱的性能:GPT-5 Mini 在 AGI-1 上达到 54.3%,在 AGI-2 上达到 4.4%,而 GPT-5 Nano 分别仅达到 16.5% 和 2.5%。
o3预览模型的秘密是什么?
OpenAI 的 o3 预览模型是一个特例。2024 年 12 月,该模型在 ARC-AGI-1 上取得了令人印象深刻的 75.7% 至 87.5% 的准确率(具体取决于所使用的计算能力)。这是人工智能系统首次超越人类 85% 的性能阈值。
然而,有一个重要的限制:o3 的公开版本性能明显逊于最初的预览版。根据 ARC 奖的评测,o3 的正式版本在 ARC-AGI-1 测试中仅达到了 41%(低计算性能)和 53%(中等计算性能),而预览版的性能则达到了 76% 至 88%。
OpenAI 确认,已发布的模型具有不同的、更小的架构,并针对聊天和产品应用进行了优化。这种差异引发了人们对其实际能力的质疑,并凸显了严格审查未发布模型的基准测试结果的重要性。
ARC 奖竞赛如何进行?
ARC 奖是一项年度竞赛,总奖金超过一百万美元,旨在促进通用人工智能 (AGI) 的开源进程。目前的 2025 年度竞赛将于 3 月 26 日至 11 月 3 日在 Kaggle 平台上举行。
定价结构包括:
- 大奖(700,000 美元):当团队在私人评估数据集上达到 85% 的准确率时解锁
- 最高分奖(75,000 美元):授予得分最高的团队
- 论文奖(50,000 美元):表彰最具意义的概念性进展
- 额外奖项(175,000 美元):其他奖项类别待公布
重要的是,所有获奖者必须将其解决方案以开源形式发布。这符合 ARC 奖基金会的使命,即让通用人工智能 (AGI) 的进步惠及整个研究界。
ARC-AGI 基准测试面临哪些技术挑战?
ARC-AGI 中的任务需要几种对人类来说很自然但对 AI 系统来说极其困难的认知技能:
符号解释
人工智能必须理解抽象符号并从上下文中得出其含义。
多层次组合思维
必须将问题分解为子步骤并按顺序解决。
上下文相关的规则应用
根据具体情况,可能需要以不同的方式应用相同的规则。
从几个例子进行概括
通常,只有 2-3 个演示对可用,必须从中推导出转换规则。
测试时间训练在解决 ARC-AGI 中起什么作用?
测试时训练 (TTT) 已被证明是提升 ARC-AGI 性能的有效方法。该方法在推理过程中动态地根据当前输入数据调整模型参数,而非仅仅依赖于预先训练的知识。
麻省理工学院的研究人员已经证明,TTT 显著提升了语言模型在 ARC-AGI 上的性能。该方法允许模型在任务解决过程中进行调整,并从具体示例中学习。这模仿了人类解决问题的行为,即我们会在难题上花费更多时间。
欧盟/德国数据安全 | 集成独立、跨数据源的AI平台,满足所有业务需求
Ki-Gamechanger:最灵活的AI平台 – 量身定制的解决方案,降低成本,提高决策并提高效率
独立的AI平台:集成所有相关的公司数据源
- 快速AI集成:在数小时或数月内为公司量身定制的AI解决方案
- 灵活的基础架构:基于云或在您自己的数据中心(德国,欧洲,免费位置选择)的托管
- 最高数据安全:在律师事务所使用是安全的证据
- 在各种公司数据源中使用
- 选择您自己或各种AI模型(DE,欧盟,美国,CN)
更多相关信息请点击这里:
超越规模的人工智能:ARC-AGI 测试的洞察
这些结果对于 AGI 的发展意味着什么?
研究结果揭示了人类与人工智能之间的明显差距。虽然人类能够直观地解决 ARC-AGI 任务,但即使是最先进的人工智能系统也无法完成基本的推理任务。
弗朗索瓦·肖莱(François Chollet)认为,当前的人工智能开发范式 – 用更多数据训练越来越大的模型 – 已经达到了极限。尽管模型规模呈指数级增长,但 ARC-AGI 的结果却很糟糕,在他看来,这证明了“流体智力并非源于预训练的规模化”。
未来可能在于测试时适应等新方法,其中模型可以在运行时改变自身状态以适应新情况。
ARC-AGI 基准的未来会是什么样子?
ARC 奖基金会计划持续开发该基准。ARC-AGI-3 及其交互元素计划于 2026 年全面发布,并将包含约 100 个独特环境。
该基金会的目标是制定基准,作为通用人工智能发展的“北极星”。这不仅旨在衡量进展,也旨在引导研究朝着可能实现真正通用智能的方向发展。
基准绩效的经济含义是什么?
解决 ARC-AGI 任务的成本在不同的模型之间差异很大,并且直接影响实际适用性。
虽然简单任务的 API 成本可以在几美分左右的范围内解决,但复杂推理任务的成本却迅速上升。例如,o3 模型在高计算能力下,每个任务的成本可能高达 1,000 美元。
这种成本结构表明,即使取得技术突破,经济可行性仍然是 AGI 技术广泛应用的关键因素。
ARC-AGI 结果的哲学含义是什么?
研究结果提出了关于智力本质的根本问题。基准测试表明,记忆模式和真正的理解之间存在根本区别。
人类能够轻松解决这些任务,而人工智能系统却失败了,这一事实表明,人类智能的运作方式与当前的人工智能方法在本质上存在差异。这支持了 Chollet 的观点:通用人工智能需要的不仅仅是更大的模型和更多的数据。
ARC-AGI 如何影响人工智能研究?
这项基准测试已经引发了人工智能研究领域的反思。领先的实验室不再仅仅专注于扩展模型,而是开始探索测试时计算和自适应系统等替代方法。
这种转变也反映在投资上:公司越来越多地投资于更有效的推理和解决问题的研究,而不是更大规模的培训。
开源社区扮演什么角色?
ARC 奖基金会强调开源开发对于通用人工智能 (AGI) 发展的重要性。所有竞赛获奖者都必须公开其解决方案。
这一理念基于这样的信念:通用人工智能(AGI)至关重要,不应仅仅在封闭的实验室中开发。基金会将自身视为协作、透明研究社区的催化剂。
ARC-AGI 基准测试的局限性是什么?
尽管 ARC-AGI 非常重要,但它也存在局限性。Chollet 本人强调,通过测试并不等于获得 AGI。该基准仅衡量智力的一个方面 – 解决抽象问题的能力。
其他重要方面,例如创造力、情商或长期规划,则未进行衡量。此外,还存在一个风险:专门针对 ARC-AGI 进行优化的系统虽然能够通过测试,但总体上并不具备真正的智能。
在ARC-AGI背景下,AI模型开发的成本如何?
成本趋势呈现出有趣的趋势。虽然性能提升缓慢,但边际改进的成本却呈爆炸式增长。
这种成本动态带来了一个重要的洞察:效率正成为关键的差异化因素。ARC奖基金会强调,不仅准确性,而且每个任务的解决成本也是一个重要的标准。
ARC-AGI 对于未来的工作意味着什么?
这一结果对许多职业来说具有令人欣慰的意义。人工智能系统无法解决基本的推理任务,这表明人类的认知能力远未被取代。
同时,专业化任务的进步表明人工智能将继续作为支持人类工作的工具,而不是完全取代人类。
通过 ARC-AGI 出现了哪些新的研究方法?
该基准激发了几个创新研究方向:
程序综合
生成程序来解决问题的系统。
神经符号方法
神经网络与符号推理的结合。
多智能体系统
几名专门的特工共同工作。
进化算法
以进化的方式开发解决方案的系统。
ARC 奖基金会对未来的愿景是什么?
基金会的使命清晰明确:成为开放式通用人工智能发展的“北极星”。这不仅在于设定技术基准,更在于创建一个促进创新的生态系统,同时确保通用人工智能的进步造福全人类。
持续开发新的基准版本旨在确保标准不断提高,研究不会停滞不前。通过 ARC-AGI-3 及其未来版本,基金会旨在进一步探索人工智能的极限及其尚待突破的领域。
我们在那里为您服务 – 建议 – 计划 – 实施 – 项目管理
☑️ 为中小企业提供战略、咨询、规划和实施方面的支持
AI策略的创建或重组
☑️ 开拓业务发展
我很乐意担任您的个人顾问。
您可以通过填写下面的联系表与我联系,或者直接致电+49 89 89 674 804 (慕尼黑) 。
我很期待我们的联合项目。
XPERT.Digital – Wolfenstein
Xpert.Digital 是一个专注于数字化、机械工程、物流/内部物流和光伏的工业中心。
凭借我们的360°业务发展解决方案,我们为知名企业提供从新业务到售后的支持。
市场情报、营销、营销自动化、内容开发、公关、邮件活动、个性化社交媒体和潜在客户培育是我们数字工具的一部分。
您可以在以下网址找到更多信息: www.xpert.digital- – –