发表于:2025年3月26日 /更新,发表于:2025年3月26日 - 作者: Konrad Wolfenstein
GPT-4O:图片中的精确文本得益于新的AI技术
Openai设定了多模式AI开发中的里程碑
借助新的GPT 4O模型,OpenAI在AI图像生成中取得了重大突破。模型中最引人注目的技能之一是生成图像中文本的精确表示,这是一个经常提出的AI图像发生器,面临着巨大的挑战。这项创新标志着多模式AI技术的重要进展,并为创意和公司开辟了新的应用程序。
在AI生成的图片中,文本渲染的革命
AI生成图片的长期问题是文本的错误呈现。以前的模型通常会产生绘画或难以辨认的文本段落的奇怪组合,这大大限制了可能的用途。借助GPT-4O,OpenAAI现在提出了一个解决方案,该解决方案以令人印象深刻的精确符号手写笔记来表示复杂的信息图表和徽标的标志。
改进基于GPT-4O的本机多模式结构。与以前的系统负责文本和图像的系统相反,GPT-4O处理单个模型中的所有模式。这种集成消除了以前发生在不同模型之间的信息损失,并可以对图像概念和文本内容进行更连贯的处理。
扩展技能和技术基础
GPT-4O经过了图像和文本的组合培训,这些图像和文本不仅了解了模型与语言相关的模型,还了解了图片如何相互关联。这使人们可以更深入地了解上下文和更精确的图像生成,这与用户需求一致。
一个显着的技术进步是该模型同时处理多达20个不同对象并彼此正确介绍其关系的能力。这导致了更多连贯的场景,并实现了更复杂的视觉叙述。图像一致性显着高于以前的模型,例如Dall-E 3,尽管尚未完美的骨质细节(例如头发生长)可以很容易地改变字符。
文化学习和图像转换
另一个创新的功能是“文化学习”,其中GPT-4O可以分析用户上传的图像,并将其详细信息纳入新的图像一代。例如,这可以根据特定要求对手绘的创造性转换或现有图像的改编。
自然对话中的实际应用
将图像生成集成到GPT-4O的对话模型中,可以改变用户与AI图像生成器的交互方式。现在可以在自然对话中创建和完善图像,而不是孤立的及时条目。
这种面向对话的方法可以在图片上进行迭代工作。用户可以将生成的图像作为起点,然后请求特定的更改,例如“使天空变暗”或“添加红色气球”。该系统在几个对话中保持上下文,这使图像处理和调整更加直观。
完美文本渲染的申请示例
改进的文本演示文稿现在可以创建:
- 正确显示联系方式的名片
- 具有可读标签和图表的信息图表
- 带有精确字母和十六进制颜色的徽标
- 具有透明背景的演示膜
- 带有集成消息的社交媒体图形
在日记中的手写诗的测试中,显示GPT-4O的结果比可比的模型更好。正确复制更长的文本封锁的能力描绘了来自Midjourney或Adobe Firefly等竞争对手的GPT-4O,这些竞争对手在照片真实的表示中很强,但在文本集成时会削弱。
适合:
滚动和可用性
OpenAI已开始逐渐针对不同的用户组推出新的图像生成功能。当前,用户可以使用Chatgpt Plus,Pro,Pro,Team和Free帐户访问该功能,因此免费版本的用户必须期望对生成图像的数量进行限制。企业和EDU客户应稍后关注。
DALL-E可以通过特殊GPT作为单独的选项可用,但将不再是Chatgpt中的标准图像生成器。开发人员的API访问应在未来几周内进行。
安全措施和限制
Openai将用GPT-4O生成的所有图像与C2PA元数据产生,这些图像是其AI起源的特征。这些出处信息是创造与AI产生的内容并防止潜在滥用的透明度的努力的一部分。
OpenAI首席执行官Sam Altman强调,新的图像生成器应为用户提供更多图像生成的自由,而拒绝内容却更少。同时,该公司希望“尊重社会最终为AI设定的漫长限制”。
尽管取得了令人印象深刻的进展,但GPT-4O仍然有一些限制:
- 偶尔切割图片的错误
- 可能类似于文本模型的幻觉
- 同时提出许多陈旧概念的困难
- 非拉丁文著作中文本的不准确表示
具有未来潜力的里程碑
在GPT-4O中使用精确的文本渲染的强大图像生成函数的集成标志着多模式AI系统开发的重要里程碑。在图像中正确介绍文本的能力解决了以前AI图像发生器中最固执的问题之一,并打开了新的创意和商业应用程序。
GPT-4O的本机多模态,其中单个模型负责所有模式,它表明了AI系统将来采取的方式。我们没有在不同系统中发展孤立的技能,而是朝着可以无缝结合不同形式的沟通和演示的集成模型迈进。
尽管GPT-4O在文本图像合成方面已经显示出令人印象深刻的进展,但该技术将如何发展,尤其是在非拉丁蛋白著作和更复杂的视觉概念方面还有待观察。这些技能的持续提高可能会导致更加直观和多功能的AI助手,他们从根本上改变了我们的创造性和交流工作。
适合:
您的全球营销和业务发展合作伙伴
☑️我们的业务语言是英语或德语
☑️ 新:用您的国家语言进行通信!
我很乐意作为个人顾问为您和我的团队提供服务。
您可以通过填写此处的联系表,或者直接致电+49 89 89 674 804 (慕尼黑)。我的电子邮件地址是: wolfenstein ∂ xpert.digital
我很期待我们的联合项目。