Google Gemini扩散:文本一代中的未注意革命
Xpert 预发布
语言选择 📢
发布于:2025年5月30日 /更新,发表于:2025年5月30日 - 作者: Konrad Wolfenstein
AI的下一个阶段:什么使Google Gemini扩散独特
Google Gemini扩散:文本一代中的未注意革命
人工智能的世界一直在不断运动。几乎每天都会提出新的突破和模型,以挑战我们的想象力。但是,在有关GPT-4O,Claude 3或Google自己的Gemini 2.5 Pro等令人印象深刻的语音模型的炒作中,最近有一个宣布令人惊讶的关注,尽管它有可能改变我们对AI文本生成的看法:Google Gemini扩散。这种创新的模型将方法应用于文本生成,到目前为止,我们主要是从图片的获取 - 扩散中知道的。这正是使它如此引人入胜且潜在革命性的原因。
扩散的起源:从数字噪声到视觉光彩
为了真正理解双子座的扩散,我们首先必须查看它得出其名称和功能的技术:图像生成中的扩散模型。近年来,诸如稳定扩散,Midjourney或Flux之类的模型使创意行业和公众感到惊讶。您可以从简单的文本说明中创建令人叹为观止且详细的图像(因此,“提示”)。
其名称的“扩散”是指高度复杂但很容易掌握的。您可以想象它就像一个雕塑家,在这种情况下,他会从原始的非正式块中搅动详细的雕塑 - 在这种情况下,在这种情况下是数字噪音。该过程始于完全随机的噪声,一种不包含任何可识别结构的“视觉雾”或“数字雪”。该噪声是由So称为“种子”(确定输出冲刺分布的随机数)产生的。
在无数的小步骤,所谓的“迭代”中,AI模型开始“噪音”这种噪音。它标识了可以从噪声中结晶并逐渐将它们转换为更清晰的结构的模式。首先,只有模糊的轮廓和粗糙的形状才会出现在背景的背景中。但是,随着每一个步骤,细节变得更加精确,颜色更清晰,线条更加清晰,直到创建了一致且经常令人惊讶的现实图片,与原始文本描述完全相对应。这种迭代的不完整过程是扩散模型的核心,也是他们从无到有创造复杂视觉世界的能力的关键。
双子座扩散:文本发电的革命
双子座扩散的实际感觉是,它不使用这种扩散原理 - 噪声的噪声来生成内容 - 不是对图像,而是在文本上。双子座与代币相反,而不是像素或颜色值。代币是语音模型的基本构建块:它们可以是单个单词,句子零件,编程代码片段甚至标点符号。
该过程还以随机分布的令牌的混乱“扭曲”开始,这是一种完全无法理解的“文本声音”。就像收音机一样,它仅反映静态噪音或难以辨认的字母沙拉。一步一步地,双子座扩散开始“噪音”这种令牌混乱。基于该模型在其庞大的文本数据培训期间所学的模式和关系,它识别统计关系,并将随机令牌形成可读的单词,句子,最后是连贯的文本或功能性编程代码。
这种方法从根本上与我们所知道的大多数既定语音模型的功能有所不同,这些语音模型(例如GPT-4,Gemini系列(双子座扩散本身除外),Llama或DeepSeek除外)。这些工作自动分配。这意味着您严格地将文本生成一个文本,单词的单词,代币的代币。根据已经生成的单词,每个新单词都被选为最有可能延续的最可能的。您可以想象,就像从左到右写一个句子一样,您总是会参考最后一个书面单词。
自动型型号的限制:回顾一下
自动压缩方法无疑带来了令人印象深刻的结果,并显着推动了当前的AI炒作。但是她也带来了固有的缺点:
1。计算强度和缓慢
由于每个令牌都必须按顺序计算并且模型越来越大,因此自动分配的一代通常是非常补偿的 - 密集型,尤其是对于长文本而言,相对较慢。每个步骤都必须重新评估整个上下文。
2。不正确和不灵活性
一旦生成的文本部分无法通过作者压制模型回顾性纠正。如果该模型在一代过程中确定文本的早期部分是不利或错误的,那么它就无法直接更改它。可以这么说,这是他自己文本的未来“盲目”。这通常会导致逻辑上的不一致或风格中断,尤其是对于更长,更复杂的文本。一些较新的模型试图通过所谓的“推理”方法来解决这个问题,例如可以在DeepSeek R1或GPT-4O中找到。该模型在一个阶段几个阶段“思考”,并在产生最终答案之前收集结论。但是,这需要更多的计算能力和时间,因为该模型反复生成和拒绝内容。
3。处理方面的挑战
如果作者 - 重点模型是要编辑已经生成的文本,那么即使只做一个小更改,它通常必须从头开始生成整个文本。这是效率低下且耗时的。
双子扩散的优势:速度,灵活性和精度
扩散方法使用双子座扩散是对这些挑战的答案。它是整体且迭代的,这意味着该模型同时在其输出的整个内容中都与每个单个步骤相同。
1。令人印象深刻的速度
这是最引人注目的优势之一。虽然GPT-4O每秒产生约50至100个令牌,而Claude 3十四行诗约为77,Gemini 2.0闪烁至245个令牌,Gemini扩散的速度达到了500至1,000个令牌的速度。根据X(以前为Twitter)和Reddit等平台上的用户的报告,该模型甚至可以在最佳条件下每秒产生多达3,000个令牌。为了进行比较:1,000个令牌对应于大约650至750个单词,这意味着双子座在一秒钟内的扩散可以创建一个DIN A4页文本的一半到四分之三。在生成编程代码时,这种速度特别令人印象深刻,该代码可以完全发挥其效率。
2。整体和灵活的校正
由于该模型同时令人难以置信,因此它对来自输出窗口中某个地方的潜在噪声形成的每个令牌做出反应。文本末尾形成的单词可以影响开始或中间的下一步中指定的单词。如果该模型在生成过程中发现错误,不准确或模糊,则可以对其进行纠正和优化,无论其在文本中出现在哪里。这是比作者压制模型的决定性优势,该模型具有“盲点”的未来错误。
3。有针对性的处理(文本输入)
与图像扩散模型相似,所谓的“镶嵌”作品(标记图像中的一个区域,让它再生以添加或删除对象),Gemini扩散也可以非常具体地工作。它不必从头到尾重建整个文本。相反,它可以轻松“荒凉”,然后再次“噪音”,然后“噪音”。这使得可以在不影响其余文本的情况下适应,翻译或优化所选段落或段落。在其他语音模型中,这通常仍然是一个挑战,或者花费时间不成比例。这为有效的文本处理和优化打开了全新的机会。
4。自然语音输出
尽管经典文本的产生比使用代码要慢一些,但一些用户报告说,双子座扩散创造出比其他主要语言模型更自然和人性化的文本。这可能是由于整体工作方式,这使该模型能够更好地保持全球连贯性和风格一致性。
🎯🎯🎯 受益于 Xpert.Digital 全面服务包中广泛的五重专业知识 | 研发、XR、PR 和 SEM
Xpert.Digital 对各个行业都有深入的了解。 这使我们能够制定量身定制的策略,专门针对您特定细分市场的要求和挑战。 通过不断分析市场趋势并跟踪行业发展,我们可以前瞻性地采取行动并提供创新的解决方案。 通过经验和知识的结合,我们创造附加值并为客户提供决定性的竞争优势。
更多相关信息请点击这里:
从双子座到梦想7b:AI文本技术的未来
挑战和文本扩散问题
尽管具有有希望的潜力,但文本生成的扩散方法仍然很年轻,并且并非没有自身的挑战:
1。依赖步骤数
输出的质量很大程度上取决于模型执行的噪声步骤的数量。使用映像模型,用户通常可以手动设置这些步骤。这对于基于语音模型的语音模型也可以使用,理想情况下,AI系统应动态地适应提示的复杂性和所需的文本长度。
- 太少的步骤:导致质量较低,未完成或“嘈杂”结果。文字看起来不连贯或分散。
- 太多的步骤:可能导致文字困惑,矛盾甚至崩溃。该模型在实践中“要求”内容。可能会发生如此被称为的脱氧崩溃,其中生成的含量落回嘈杂的状态,因为该模型超过了优化并失去了相干性。这与由于过滤太激进而突然变得抽象且无法识别的图像相当。
2。文本中相当于幻觉:
诸如Flux或Minimax Image-01之类的最大,最先进的AI图像发生器仍然存在无法造成模型弱点的错误问题,但可能是由于扩散技术而引起的。这包括物理异常,例如太多或太少的手指,任意插入元素或扭曲的身体和建筑表示。问题是文本扩散模型在多大程度上可能遭受同等的“幻觉”:
- 逻辑上的矛盾之处:文本是合理的,但后来的部分与先前的陈述相矛盾。
- 风格和音调中断:文本的样式或音调突然在句子或段落的中间毫无根据。
- 混乱的文本结构:段落或句子是不连贯的,在主题之间跳跃或不必要地重复自己。
- 完全错过的主题:尽管文本在语法上是正确的,但它却错过了原始主题或迅速。
- 事实不准确:尽管妓女是主要目标,但该模型可以解释统计模式,从而将不正确的信息收集到文本中。
这些现象是深入研究的主题,因为它们可能会影响对生成内容的信任。
演讲的背景:新的AI公告的风暴
双子座扩散受到相对较少的关注的事实似乎是矛盾的,但是可以从他的演讲的背景下解释。 Google在其年度开发人员会议I/O上介绍了它,这是传统上的新闻烟火。在2024年5月,Google的大量公告确实是压倒性的。除了双子座的扩散外,科技集团还提供了许多其他顶级项目和工具:
双子座2.5 Pro
当时Google自己的双子座模型最聪明的版本,它的多模式和性能已经给人留下了深刻的印象。
阿斯特拉
Google对AI助手的愿景不仅了解语音命令,还可以实时处理和交互视觉信息 - 朝着真正的“ AI代理”迈出一步。
VEO(版本3)
文本到视频KI的第三次迭代现在也能够创建语言和声音,从而大大扩展了生成性AI视频的沉浸式技能。
智能眼镜光环
智能眼镜的原型,应该将数字信息无缝地隐藏到现实世界中。
3D视频聪明的系统梁
一种用于沉浸式视频通话的创新系统,应该模糊物理和数字存在之间的界限。
鉴于这种开创性的创新泛滥,对于“实验”来说,很难有前途,很难引起必要的关注。在某种程度上,较大的,立即适用的公告的喧嚣倒闭了,尽管它有可能在堆上投入备受推崇的语音模型的范式。
新兴的研究方向:双子座扩散的前辈
Google扩散可能是迄今为止文本扩散领域中最大的实验,但远非第一个。将扩散模型用于文本的想法是一个相对较新但经过深入研究的方向。
早在2023年,来自中国索哥大学的一支团队发表了一项开创性的研究。在其中,他们代表了一个论点,即扩散模型可以超过先前的语音模型架构,尤其是在鲁棒性和误差校正方面。同年,第一个基本模型遵循,将文本扩散的概念付诸实践:扩散-LM和最小的文本扩散。这些先驱者表明,令牌的变形通常也适用于文本生成,尽管在很早的阶段。
另一个有趣的模型于今年2月(2024年):Inception Labs的汞编码器。该模型主要集中在编程代码的生成上,并证明在此特殊应用领域中的扩散模型可以达到超过常规语言模型的显着速度。
在2024年4月Google I/O之前不久,香港大学和华为大学 - 到华为介绍了扩散的大语言模型Dream 7b。在呈现双子座扩散之前,Dream 7b是文本最大的可用扩散模型。他的技能和基础建筑引起了领先的AI研究人员的注意。前Openai研究员Andrej Karpathy以对神经网络的深刻见解而闻名,他对Dream 7b发表了评论。他强调,与自回归模型相比,该模型有可能显示出完全不同的“心理学”或独特的优势和劣势。
所有这些项目为双子座的扩散铺平了道路,并表明研究界已经认可了一段时间,现在作者压制模型的边界正在寻找替代方法。在Gemini扩散的想法之后,不想用名字发表评论的AI研究人员确认,该模型现在“方法的相关性”证据和“应进一步研究这个方向”。特别是,他强调了在移动设备和功能较低的服务器上进行语音模型的潜力,在这种情况下,扩散 - lems可能是“总体游戏规则改变者”。其原因是罪名过程的固有并行性,与自动灰色模型的顺序性质相比,可以更好地在某些硬件体系结构上分布。
革命性的含义和展望未来
Gemini扩散的引入即使是其他巨人的阴影,也是人工智能发展的重要一步。它不仅代表了一项技术创新,而且还标志着语音模型架构的潜在范式转变。
这对未来意味着什么?
1。更有效的AI应用程序
巨大的速度和处理精确的能力可以彻底改变许多领域的生成AI应用。考虑视频呼叫中的实时文本制作,开发环境中的快速代码生成或复杂文档的即时摘要。
2。移动设备上的AI
低性能硬件已经提到的优势至关重要。如果扩散模型可以在智能手机或边缘设备上有效运行,这将大大增加AI的可访问性和好处,因为较少的依赖云服务器。
3。创意文字编辑
作者,记者或营销专家可以从镶嵌功能中受益,以在特定文本部分中专门适应风格,声音或内容,而不会破坏整个文档的流程。这使得以前在修订中无与伦比的精度和控制。
4。坚固且一致的内容
如果掌握了“幻觉”和“ denoising崩溃”的挑战,则扩散模型可以生成比当前模型在逻辑上更一致和风格相干的文本。这将是迈向更可靠的AI一代的重要一步。
5。新的AI技能
整体工作方式可以使扩散模型更好地解决其他类型的任务或避免新类型的错误。也许您是针对将全局一致性置于顺序完美的任务,例如创建复杂的叙事结构或编写脚本时。
双子座扩散:AI文本一代中的无声动荡
公众几乎没有注意到,这种潜在的开创性模型像Gemini扩散已经可以通过候补名单本身看到,这一事实反映了AI领域的快速发展。新型号和范式出现的速度令人眼花。但是尤其是在那些在雷达下飞行的实验中,下一次大革命的真正潜力通常被隐藏起来。
观察文本区域中的扩散模型是如何发展的,以及它们是否可以真正挑战甚至取代已建立的作者压制的体系结构,这仍然令人兴奋。 Google从双子座扩散发起的不仅仅是一个实验。它是文本生成可能未来的指南,它更快,更灵活甚至更直观。这是一个呼吁研究以重点追求这个有前途的方向的呼吁,因为AI的世界可能只是采取了其母乳喂养之一,但最重要的步骤。
我们随时为您服务 - 建议 - 规划 - 实施 - 项目管理
☑️ 为中小企业提供战略、咨询、规划和实施方面的支持
AI策略的创建或重组
☑️ 开拓业务发展
我很乐意担任您的个人顾问。
您可以通过填写下面的联系表与我联系,或者直接致电+49 89 89 674 804 (慕尼黑) 。
我很期待我们的联合项目。
Xpert.Digital - 康拉德德军总部
Xpert.Digital 是一个专注于数字化、机械工程、物流/内部物流和光伏的工业中心。
凭借我们的360°业务发展解决方案,我们为知名企业提供从新业务到售后的支持。
市场情报、营销、营销自动化、内容开发、公关、邮件活动、个性化社交媒体和潜在客户培育是我们数字工具的一部分。
您可以通过以下网址了解更多信息: www.xpert.digital - www.xpert.solar - www.xpert.plus