OpenAI 的 GPT-4.1、mini 和 nano API AI 模型：软件开发的编程利器——GPT-4.5 的终结？

发布日期：2025年4月17日 / 更新日期：2025年4月17日 – 作者：Konrad Wolfenstein

OpenAI 的 GPT-4.1 及 mini 和 nano AI 模型：软件开发的编程利器——GPT-4.5 的终结？—— 图片来源：Xpert.Digital

OpenAI 降低了价格并大幅改进了 GPT-4.1——这才是新一代人工智能的真正实力！

GPT-4.1 详解：所有新功能和改进一览

OpenAI 发布了其人工智能技术的一项重大进展：GPT 4.1 模型系列代表了机器语言处理领域的一次重大飞跃，在显著提升性能的同时，还降低了成本。该系列新模型包含三个不同性能和价位的变体，所有模型的知识库均扩展至 2024 年 6 月。这些模型在编程能力、指令执行准确性和对复杂上下文的理解能力方面均有显著提升。.

GPT 4.1 模型系列仅可通过 API 获取，主要面向开发者。这些模型无法直接在 ChatGPT 用户界面中访问。.

适合：

Chatgpt成为Super-KI代理：Openai的新AI Model Models O3和O4-Mini现在想！

GPT-4.1家族的三种变体

新车型系列包含三种不同的变体，每种变体都针对不同的应用和需求进行了优化：

GPT-4.1：旗舰型号

GPT-4.1 是该系列中最强大的模型，主要面向专业软件开发人员和高要求应用场景。它拥有该系列中最高的智能水平，在 OpenAI 的内部评分体系中获得 4/4 的满分，专为复杂任务而设计。该模型尤其适用于科学研究、复杂数据集分析、复杂软件解决方案开发以及精细创意内容的创作。凭借其卓越的程序代码生成和重写能力，GPT-4.1 已成为编码应用领域的领先模型。.

GPT-4.1 mini：均衡的全能型选手

GPT-4.1 mini 在智能（评分 3/4）、速度（评分 4/5）和成本方面实现了均衡的平衡。它代表了小型化模型的重大进步，甚至在许多基准测试中超越了之前的 GPT-4o。其速度几乎是前代产品的两倍，成本却降低了高达 83%，使其成为一款适用于各种应用的全能型产品。GPT-4.1 mini 的性能与 GPT-4o 相当，但延迟更低，成本也显著降低。.

GPT-4.1纳米：高效轻量化

GPT-4.1 nano 是该系列中速度最快、性价比最高的模型，专为对延迟要求极高或成本特别敏感的应用而开发。它非常适合分类、自动补全和信息提取等较为简单的任务。尽管体积小巧，它仍支持一百万个词元的完整上下文窗口，并在 MMLU (80.1%) 和 GPQA (50.3%) 等特定基准测试中取得了令人瞩目的成绩。.

技术改进和性能提升

GPT-4.1 模型系列相比其前代产品带来了显著的技术改进：

扩展上下文窗口

GPT 4.1 系列的三款模型均支持扩展的上下文窗口，最大可达一百万个词元，比之前的版本提升了八倍。这一增强功能使得模型能够一次性处理非常庞大的文档或代码库——举例来说，整个 React 源代码可以容纳八次这样的上下文。因此，这些模型在单次查询中最多可以处理约 75 万个单词。.

编程和编码技能提升

GPT-4.1 的显著特点是编程和编码能力大幅提升。在 SWE-bench 验证基准测试中，该模型取得了令人瞩目的 54.6% 的分数，比 GPT-40 提高了 21.4 个百分点，比 GPT-4.5 提高了 26.6 个百分点。该模型能够处理更复杂的编程任务，并能用多种编程语言生成更精确的代码。尤其值得一提的是，它能够以极少的后处理完成前端编码，在 80% 的情况下，人类评估者更倾向于 GPT-4.1 的结果。.

优化对指令的遵守情况

GPT-4.1 系列最显著的改进之一是其更精准的指令执行能力。在衡量指令执行能力的 MultiChallenge 基准测试中，GPT-4.1 的得分为 38.3%，比 GPT-40 提高了 10.5 个百分点。在 OpenAI 的内部指令执行测试（困难子集）中，GPT-4.1 的得分高达 49.1%，而 GPT-40 仅为 29.2%。实际应用来看，这意味着 GPT-4.1 在遵循有序步骤、拒绝错误输入以及以期望格式做出响应方面表现显著更佳。.

基准测试环境下的性能比较

可以使用各种基准来量化新模型的性能：

编码基准测试

在包含 500 个人类可解决的编程任务的 SWE-bench 验证基准测试中，GPT-4.1 取得了令人瞩目的 54.6% 的成绩。虽然这一成绩不及谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 Sonnet 等同类模型（二者成绩均约为 63%），但它显著优于其他 OpenAI 模型：GPT-4o（2024 年 11 月发布）的成绩为 33%，GPT-4.5 为 38%，OpenAI o3-mini 为 49%。.

在 Aider 的多语言基准测试中，GPT-4.1 测试了修改各种编程语言代码的能力，在 225 个问题中完成了约 53%，落后于 OpenAI o1 和 o3-mini（均为约 60%），但领先于 GPT-4o（18%）。.

遵循指令的基准测试

GPT-4.1 在指令遵循性方面也取得了显著进步。在评估对明确定义的性能要求的 IFEval 测试中，GPT-4.1 的符合率达到了 87.4%，相比 GPT-40 的 81% 有了显著提升。这些改进涵盖了指令遵循性的各个方面，包括格式要求、否定指令、指令顺序、内容要求和优先级。.

长期背景基准

在多模态长上下文理解基准测试 Video-MME 中，GPT-4.1 在“长文本，无字幕”类别中取得了 72.0% 的成绩，创下新纪录，比 GPT-40 提高了 6.7 个百分点。在测试长上下文多阶段推理能力的 Graphwalks 基准测试中，GPT-4.1 的成绩为 61.7%，相比 GPT-40 的 41.7% 有了显著提升。.