ChatGPT 成为超级 AI 代理：OpenAI 的新型 AI 模型 o3 和 o4-mini 现在可以独立思考了！

发布日期：2025年4月17日 / 更新日期：2025年4月17日 – 作者：Konrad Wolfenstein

ChatGPT 已成为超级 AI 代理：OpenAI 的全新 AI 模型 o3 和 o4-mini 现在可以独立思考了！—— 图片来源：Xpert.Digital

比以往任何时候都更智能：OpenAI 的 o 系列凭借全新功能令人印象深刻

数学、编程等等：OpenAI 的 o4-mini 是新一代人工智能天才！——OpenAI 的 o3 能够理解图像并以前所未有的方式解决问题！

2025年4月16日，OpenAI发布了其o系列的两款全新人工智能模型——o3和o4-mini。这两款模型被誉为该公司迄今为止最智能、最强大的模型。新系统拥有更强大的推理能力，并且首次能够独立使用和整合ChatGPT中的所有工具。它们经过专门训练，能够在生成答案前进行更长时间的思考，因此在编程、数学和视觉分析等领域的复杂任务中表现尤为出色。.

适合：

ChatGPT 新增了记忆功能，现在几乎能记住所有内容：新记忆功能的详细介绍

新型O系列车型概述

基本特征和能力

OpenAI 的 o 系列代表了人工智能开发领域的一次范式转变。这些模型采用强化学习进行训练，使其能够在生成答案之前进行更长时间的思考。这种方法使模型能够尝试不同的解决方案策略，识别错误，并将复杂问题分解为更简单的子步骤。.

o3 和 o4-mini 的一项关键创新在于能够独立且基于代理地使用所有可用的 ChatGPT 工具。这些工具包括网络搜索、基于 Python 的数据分析、图像处理、图像生成、画布、自动化、文件搜索和存储功能。这些工具直接集成到模型的推理过程中，以扩展其功能并使其能够处理更复杂的任务。.

这些模型可以自行决定何时以及如何最好地使用这些工具，即使对于更复杂的问题，通常也能在一分钟内给出答案。这标志着基于代理的 ChatGPT 向能够自主执行任务的智能体迈出了重要一步。.

视觉理解和多模态技能

这些新模型的一大亮点在于它们能够“思考”图像。据 OpenAI 称，这意味着它们不仅能感知视觉数据，还能将其直接整合到推理过程中。即使图像质量不高，这些模型也能理解和分析上传的图像，例如白板、草图和图表。.

这些多模态能力远不止于图像处理。这些模型可以裁剪或变换图像，将其与其他工具结合使用，并将它们融入推理过程，从而得出合理的结论。这种将视觉数据整合到思维过程中的方法，相比以往的人工智能模型而言，是一项重大进步。.

性能和基准

o3 作为旗舰型号

OpenAI o3 被誉为该公司最强大的推理模型，在编程、数学、科学和视觉感知等领域树立了新的标杆。外部专家的评估表明，在解决复杂的实际问题时，o3 的严重错误率比其前身 o1 降低了约 20%。.

在各项基准测试中，o3 都表现出色：

它在 Codeforces 和 SWE-bench 中取得了新的最佳成绩。
它在多模态理解技能的 MMMU 基准测试中树立了新的标准。
在 GPQA Diamond 等衡量博士水平问题的科学基准测试中，o3 的准确率达到 87.7%，而 o1 的准确率为 78%。

该模型在编程、咨询和创意任务方面展现出卓越的优势。早期测试者强调了其作为思考伙伴的分析严谨性，并着重指出其生成和批判性评估新颖假设的能力——尤其是在生物学、数学和技术领域。.

o4-mini 是一种经济实惠的替代方案

o4-mini 是一款尺寸更小的机型，针对快速高效的处理进行了优化。尽管尺寸较小，但它却能取得卓越的性能，尤其是在数学、编程和图像处理任务方面。.

它是AIME 2024和2025基准测试中性能最高的模型。在AIME 2025测试中，即使使用Python解释器，它也达到了令人瞩目的99.5%的准确率。在专家评估中，它在非STEM领域和数据科学领域也优于其前代产品o3-mini。.

由于其高效性，o4-mini 支持比 o3 高得多的使用限制，使其成为受益于逻辑思维的高容量、高吞吐量应用程序的有力选择。.

应用领域及可用性

可能的用途

新型号凭借其改进的功能，开辟了广泛的应用前景：

在科学技术领域，他们能够将复杂问题分解成若干子步骤，这种能力尤其有价值。
编程任务和软件开发，他们可以协助进行代码生成和调试。
高水平的数学和科学分析
图表、图形和图像的视觉分析
基于代理的应用，其中人工智能独立使用各种工具来解决任务。

用户可用性

新型号将逐步提供给不同的用户群体：

自 2025 年 4 月 16 日起，ChatGPT Plus、Pro 和 Team 用户已可在型号选择器中使用 o3、o4-mini 和 o4-mini-high，取代了之前的型号 o1、o3-mini 和 o3-mini-high。
ChatGPT 企业版和教育版用户将在发布后一周内获得访问权限。
免费用户可以在提交请求之前，通过在 Composer 中选择“Think”来试用 o4-mini。
与之前的模式相比，所有方案的费率上限均保持不变。

适合：

OpenAI 的 ChatGPT 最新进展（2025 年 3 月）

安全方面和进一步发展

安全性和稳健性：深入了解 OpenAI 的新模型

OpenAI强调，这两个模型都经过了广泛的安全测试——该公司声称这是迄今为止最全面的安全计划。这些模型的高级推理能力为提升安全性和鲁棒性提供了新的途径。尤其值得一提的是，这些模型在响应潜在的不安全请求时，可以考虑OpenAI的安全策略——这一概念被称为“审慎对齐”。.

此次发布基于 OpenAI 的“准备框架”第二版。该公司安全咨询小组 (SAG) 审查了准备评估结果，并得出结论：o3 和 o4-mini 在三个监测类别（生物和化学能力、网络安全以及 AI 自我改进）中均未达到“高”阈值。.

对人工智能领域的重要意义

o3 和 o4-mini 的推出标志着人工智能系统发展历程中的一个重要里程碑。凭借其增强的逻辑推理能力和多种工具的集成，这些模型正逐步迈向能够独立解决复杂任务的基于智能体的系统。.

凭借这些模型，OpenAI 继续保持着人工智能发展领域的领先地位，其近期完成的融资使其估值达到 3000 亿美元，也印证了这一点。推理能力的提升、工具集成以及多模态能力的结合，有望显著拓展人工智能的应用范围，并开辟新的应用领域。.

o3 和 o4-mini：应对复杂挑战的强大 AI 模型

OpenAI推出的o3和o4-mini是全新的AI模型，它们凭借更强的推理能力和对多种工具的集成，代表着AI发展领域的重大进步。这些模型的特点在于能够思考复杂问题并利用不同的工具寻找解决方案。o3定位为能够胜任高难度任务的旗舰模型，而o4-mini则提供了一种经济高效的替代方案，尽管体积更小，却能提供令人印象深刻的性能。.

新模型已向多个 ChatGPT 用户组开放，凭借其增强的功能，有望拓展人工智能的应用范围。同时，OpenAI 强调安全性的重要性，并对这些模型进行了广泛的测试，以最大程度地降低潜在风险。o3 和 o4-mini 的开发标志着向基于代理的人工智能系统迈出了重要一步，这些系统能够越来越独立地处理复杂的任务。.

适合：