发表于:2025年4月17日 /更新,发表于:2025年4月17日 - 作者: Konrad Wolfenstein
Openai降低了价格,并大大提高了GPT-4.1 - 新的AI代产品确实可以!
GPT-4.1详细:一目了然的所有创新和改进
OpenAAI提出了其AI技术的重大进一步发展:GPT-4.1模型家族代表了机械语言处理的重要进展,并随着成本的同时降低提供了重大改进。新的模型系列包括具有不同性能特征和价格水平的三种变体,所有变体都具有扩展的知识状态,直到2024年6月。这些模型的特征是在编程领域,更详细的后续遵循和对广泛背景的理解的进步。
GPT-4.1模型家族仅通过API提供,主要针对开发人员。这些模型在ChatGPT用户界面中直接无法访问。
适合:
GPT-4.1家族的三个变体
新模型家族由三种不同的变体组成,每个变体都针对不同的应用程序和要求进行了优化:
GPT-4.1:旗舰模型
GPT-4.1是该系列中最强大的模型,主要针对专业的软件开发人员和苛刻的应用程序。它提供了家庭最高的智能,根据OpenAIS内部规模评估4/4,并专门针对复杂的任务量身定制。该模型特别适合科学研究,复杂数据记录的分析,苛刻的软件解决方案的开发以及创建细微的创意内容。由于其出色的生成和修改程序代码的能力,GPT-4.1将自己定位为编码应用程序的主要模型。
GPT-4.1 mini:平衡的全能选手
GPT-4.1 Mini在智能(评级为3/4),速度(4/5)和成本之间提供平衡的平衡。它代表了较小模型的重大进展,甚至超过了许多基准中的GPT-4O。速度几乎是前身的速度的两倍,而成本低至83%,该模型将本身定位为多种应用程序的通用量。 GPT-4.1 Mini的性能与GPT-4O相当,但延迟较小,成本降低。
GPT-4.1纳米:有效的轻量级
GPT-4.1 NANO是该家庭最快,最具成本效益的模型,已针对关键延迟至关重要的应用程序开发。它是更简单的任务,例如分类,自动完成和信息提取的理想选择。尽管它的大小紧凑,但它仍支持一百万个令牌的完整上下文窗口,并在MMLU(80.1%)和GPQA(50.3%)等特定基准中提供了令人印象深刻的结果。
技术改进和性能提高
GPT-4.1模型家族为以前的模型带来了重大的技术改进:
扩展上下文窗口
GPT-4.1家族的所有三个模型都支持高达一百万个令牌的扩展上下文窗口,与以前的版本相比,该窗口相当于八倍。此扩展可以在单个圆形比较中处理非常广泛的文档或代码库:在这种情况下,整个React源代码将适合八次。因此,模型可以在一个请求中处理大约750,000个单词。
提高编程和编码技能
GPT-4.1的特征是显着提高了编码和编码技能。在SWE Bench验证的基准测试中,该模型的得分为54.6%,与GPT-4O相比,与GPT-4.5相比,这一比例为21.4个百分点,而26.6个百分点。这些模型可以掌握更复杂的编程任务,并使用各种编程语言创建更精确的代码。特别值得注意的是,前端编码的能力和最少的后处理能力,在80%的情况下,人类评估者更喜欢GPT-4.1的结果。
优化遵循说明
GPT-4.1家族的杰出改进之一是指令的更精确的依从性。在衡量遵守指令的能力的多骨骼基准上,GPT-4.1的实现38.3%,与GPT-4O相比,该点的增加为10.5个百分点。通过测试后的OpenAIS内部指导(硬子集),GPT-4.1获得了令人印象深刻的49.1%,而GPT-4O仅为29.2%。实际上,这意味着GPT-4.1在符合有序的步骤中要好得多,拒绝不正确的输入并以所需的格式做出响应。
在基准背景下的竞争比较
可以使用各种基准来量化新模型的性能:
编码基准
在SWE-Bench验证的基准中,其中包括500人作为可解决的分类编程任务,GPT-4.1取得了令人印象深刻的结果,其中54.6%。尽管它仍然落后于Google(Gemini 2.5 Pro)和人类(Claude 3.7十四行诗)的可比较模型,这两种模型均为63%,但显然超过了其他OpenAI模型:GPT-4O(2024年11月)达到33%,GPT-4.4.5 38%和OpenAai O3 o3 o3 o3 o3 o3 o3 o3 o3 o3-mini 49%。
在AIDER的Polyglot基准测试,该基准测试了使用各种编程语言修改代码的能力,GPT-4.1实现了225个问题的约53%,这是OpenAAI O1和O3-Mini的背后(每个),但在GPT-4O之前(大约为60%)。
基准之后的说明
GPT-4.1在指导遵守方面还显示出很大的进步。与IFEVAL相比,与GPT-4O相比,IFEVAL检查了符合明确定义的性能要求,GPT-4.1 87.4%取得了显着改善。这些改进包括说明说明的各个方面,包括格式要求,负面说明,有序的说明,内容要求和排名。
长上下文基准
借助视频MM,GPT-4.1是多模式长篇文化理解的基准,为“ lang,无字幕”类别中的72.0%设定了一个新的基准测试,与GPT-4O相比,这是6.7个百分点的提高。在长篇小说中测试多阶段结论的GraphWalks基准中,GPT-4.1达到61.7%-A-a透明跳跃,而GPT-4O则为41.7%。
定价和成本效率
GPT-4.1模型家族的一个重要方面是它们提高的成本效率:
三种变体的价格模型
GPT-4.1家族的定价将输入令牌(发送给API的令牌),输出令牌(由模型生成的答案)和缓存输入令牌(用于重复查询)区分:
- GPT-4.1:每百万美元的投入令牌2.200美元,每百万美元缓存代币,每百万美元的产出代币8,00美元
- GPT-4.1 Mini:每百万美元的投入令牌,每百万美元的0.10美元缓存代币,每百万美元的产出代币1.60美元
- GPT-4.1 NANO:每百万美元的投入令牌0.10美元,每百万$ 0.025个缓存输入令牌,每百万美元的产出令牌0.40美元
与以前的型号相比节省成本
新型模型家族具有显着的成本优势:GPT-4.1比其平均查询的前身便宜26%。 GPT-4.1 Mini甚至比GPT-4O便宜83%,具有相似或更好的性能。 GPT-4.1纳米将自己定位为OpenAI投资组合中最具成本效益的模型。
迅速进行和进一步的优化
对于经常出现的上下文查询,迅速的折扣增加到75%(以前为50%),这可以节省额外的成本。此外,OpenAI提供长上下文请求,而没有超出标准令牌成本的额外费用。
适合:
申请案例和可能的用途
GPT-4.1家族的不同模型适用于不同的应用:
软件开发人员的申请
GPT-4.1主要针对软件开发人员,并在编程方面具有重要优势。它特别适用于前端编码,该编码需要更少的后处理和开发接口,在该界面可以修改单个代码块而无需更换整个文件。这些模型可以掌握更复杂的编程任务,并使用各种编程语言创建更精确的代码。
公司申请
GPT-4.1家族为公司提供了多种用途。旗舰模型GPT-4.1适用于科学研究,复杂数据记录的分析,苛刻的软件解决方案的开发以及创建细微的创意内容。 GPT-4.1 MINI为日常应用提供平衡的平衡,而GPT-4.1 NANO是分类或自动完成等成本敏感任务的理想选择。
模型 - 特定应用程序案例
这个家庭的每个家庭都有特定的优势:
- GPT-4.1:非常适合复杂的编码工作流程,大量文档的处理以及多个步骤要求的任务
- GPT-4.1 mini:适用于需要快速答案的交互式工具,并具有足够的智能,可以遵循详细的说明
- GPT-4.1 NANO:从大量文档中提取自动完成,分类和信息的最佳选择,其中速度和成本效率位于前景中
可用性和未来的前景
API可用性和集成
GPT-4.1模型系列仅通过OpenAI API提供。根据Openaai的说法,不计划在Chatgpt中进行直接集成。但是,GPT-4.1的一些改进已经转移到聊天机器人的GPT 4O版本中,并逐渐添加了其他功能。
微调选项
Openai从市场推出之日起为GPT-4.1和GPT-4.1 Mini提供微调支持,同时计划对GPT-4.1 Nano进行支持。这为将模型调整为特定的业务需求和应用程序打开了其他选项。
对现有模型的影响
随着GPT-4.1的引入,OpenAI宣布对API中GPT-4.5模型的支持已经结束,因为GPT-4.1在廉价条件下提供了类似的功能。这强调了Openai在更强大,更具成本效益的模型上的战略重组。
量身定制的AI功率:GPT-4.1,mini和nano-nano-完美的AI解决方案满足了所有需求
GPT-4.1模型家族代表了OpenAAI AI技术的重大进展。通过结合提高的性能,扩展功能和降低成本,它直接解决了开发人员和公司的实际要求。专注于编程,更精确的说明和扩展的上下文理解,强调了OpenAI,以开发可以在实际场景中更有效使用的AI模型。
三种模型变体的差异化位置使用户可以根据要求和预算选择正确的解决方案。尽管GPT-4.1是为最苛刻的任务而设计的,但GPT-4.1 Mini和GPT-4.1 Nano为特定应用领域提供了具有成本效益的替代方案。该策略可以帮助进一步加速AI技术在不同行业和应用领域的传播。
借助这个模型家族,Openai迈出了迈向开发可以充当“代理软件工程师”的AI系统的愿景 - 也就是说,作为独立的AI代理,可以从开发到质量保证进行复杂的任务。因此,GPT-4.1家族的改进可以被视为下一代AI应用程序的重要组成部分。
您的全球营销和业务发展合作伙伴
☑️我们的业务语言是英语或德语
☑️ 新:用您的国家语言进行通信!
我很乐意作为个人顾问为您和我的团队提供服务。
您可以通过填写此处的联系表,或者直接致电+49 89 89 674 804 (慕尼黑)。我的电子邮件地址是: wolfenstein ∂ xpert.digital
我很期待我们的联合项目。