Gemini 3.5 甚至 4.0？代号“雪兔”：据称是谷歌新款车型的泄露基准测试数据

Konrad Wolfenstein

4个月前

Gemini 3.5 甚至 4.0？代号“雪兔”：疑似谷歌新款车型的泄露基准测试数据——图片来源：Xpert.Digital

人工智能的转折点？谷歌重新定义全球竞争力的技术突破？

一场处于认知革命前沿的工程冒险

2026年1月泄露的、据称来自谷歌全新模型“雪兔”（Snow Bunny）的基准测试数据，标志着人工智能领域一个意义深远的转折点，其影响远超简单的数值游戏。这些数据并非模型开发的渐进式进步，而是揭示了一种将人类思维核心架构融入人工智能技术基础的现象。性能差异并非仅仅体现在数值上，而是具有质的变革性，对欧洲和德国的产业政策以及美国、中国和分裂的欧洲这三个科技超级大国之间的未来竞争格局都具有直接影响。.

据报道，Snowbunny 在象形文字基准测试中取得了 80% 的成功率——远超 GPT-5.2 的 55% 和 Gemini 3.0 Pro 的 45%——该测试并非仅仅考察知识或模式识别能力，而是侧重于横向思维。横向思维是指人类能够发现看似无关的概念之间的联系，创造性地绕过既定的思维模式，并从不寻常的角度解决问题的能力。这种机制难以用纯粹的统计方法预测，也正是创造力、创新和真正的解决问题能力并非仅仅依靠规模化就能产生的根本原因。学术研究一致表明，即使是目前最好的模型，在横向思维任务上的成功率也低于 50%。而 Snowbunny 的表现似乎已经显著超越了这一门槛。.

其底层技术创新在于系统架构的深刻性。谷歌显然实现了自2025年以来人工智能研究领域一直致力于探索的方向：将认知思维划分为心理学家丹尼尔·卡尼曼所说的“系统1”和“系统2”思维。系统1是对统计模式的闪电般快速、直觉式的思考。系统2则是缓慢而深思熟虑的思考，它会计算步骤、质疑假设并并行评估多种解决方案。之前的模型，例如GPT-5.2或Gemini 3.0，主要优化的是系统1，即原始的快速模式匹配能力，并通过一些表面上的尝试，例如通过“思维链”提示来模拟较慢的思考速度。而Snowbunny的架构似乎实现了一种真正更深层次的推理框架——一种真正并行探索多种思维路径、检验假设并迭代改进的框架。.

安全重点依然是透明的，不再仅仅是成本因素。

泄露信息中有一个细节对专家来说尤为重要：模型的两个版本——“原始”版本和采用更严格安全过滤器的“改进版”——都达到了相同的80%成功率。这与人工智能研究中一个长期存在的假设相悖，即安全校准（也就是针对问题输出进行训练）必然会损害纯粹的认知性能。如果谷歌真的解决了这个经典的效率-安全性权衡问题，那么这代表着训练后方法论领域的一项重大突破。其意义深远：它表明安全性和能力并非必然相互冲突，而是可以通过重构训练流程来同时最大化两者。.

对比数据本身需要谨慎对待。基准测试截图很容易被篡改，而且虽然 Hieroglyph 测试在学术界广为人知，但它并不像经典的 MMLU（大规模多任务语言理解）测试那样普及和标准化，后者仍然是通用知识的黄金标准。然而，泄露的数据与谷歌的公开声明相符，该公司早在 2025 年 11 月就推出了名为“Gemini Deep Think”的功能——该模式允许 Gemini 模型在做出反应前有更多时间思考，并在 ARC-AGI-2（提升 45.1%）和 GPQA Diamond（提升 93.8%）等既定基准测试中取得了显著的改进。这些公开验证的数据和泄露的 Hieroglyph 测试结果都表明：计算能力已经能够转化为真正的认知深度。.

市场作为真正竞争格局变化的指标

市场动态清晰地支撑着技术层面的论述。OpenAI 在人工智能用户中的市场份额从 2025 年的 87% 下降到 68%。与此同时，谷歌的 Gemini 市场份额从 5.4% 上升到 18.2%。这种转变并非主要由数据歧视或媒体传播驱动，而是由于人工智能融入生产力体系的结构性变化。谷歌已将 Gemini 嵌入到 Chrome、Android 和 Google Workspace 中——它不再是用户主动打开的应用程序，而是操作系统和日常工作工具中固有的一项功能。因此，采用这项功能不再是主动选择，而是一种默认现象。.

与此同时，谷歌正在推行激进的定价策略。GPT-5.2 每百万输入令牌的售价为 1.75 美元，而 Gemini Flash 的定价仅为 0.50 美元——优惠幅度高达 71%。这并非旨在抢占市场份额的促销活动，而是一次结构性战略调整。凭借自主研发的 TPU（张量处理单元）和定制芯片基础设施，谷歌在成本结构上拥有远超 OpenAI 的巨大优势，后者依赖于英伟达的 GPU 和微软的 Azure 基础设施。这种硬件深度难以复制。.

这项策略非常出色，但也令欧洲，尤其是德国的工业企业感到担忧。谷歌的策略是“企业优先”，而非像OpenAI那样“以消费者为先”。谷歌将人工智能集成到企业已使用的工具中。它将Gemini与Google Workspace捆绑销售，创建了超过1500个预构建的人工智能代理，并与Salesforce、SAP和ServiceNow等平台原生集成。其战略信息非常明确：既然人工智能已经集成在生产力套件中，为什么还要单独购买ChatGPT订阅呢？

摩根士丹利估计，如果谷歌将其现有 Workspace 客户群的 30% 转化为 Gemini Enterprise，到 2027 年，其年度经常性收入可达 80 亿至 100 亿美元，营业利润率超过 40%。这并非臆测，而是基于现有客户数据和已验证的 SaaS 升级模式的计算结果。.

🤖🚀 托管式 AI 平台：借助 UNFRAME，实现更快、更安全、更智能的 AI 解决方案

托管式人工智能平台 - 图片来源：Xpert.Digital

在这里，您将了解到您的公司如何快速、安全地实施定制化的人工智能解决方案，且无需承担过高的准入门槛。.

托管式人工智能平台是您实现人工智能的全方位、无忧解决方案。您无需处理复杂的技术、昂贵的基础设施和漫长的开发流程，即可从专业合作伙伴处获得根据您的需求量身定制的现成解决方案——通常只需几天时间。.

主要优势一览：

⚡ 快速实施：从构思到可立即使用的应用，只需几天而非几个月。我们提供切实可行的解决方案，创造即时附加值。.

🔒 最高数据安全保障：您的敏感数据始终由您掌控。我们保证安全合规地处理您的数据，绝不与任何第三方共享。.

💸 无财务风险：您只需为结果付费。完全无需前期投入大量资金用于硬件、软件或人员。.

🎯 专注于您的核心业务：集中精力做好您最擅长的事情。我们将负责您人工智能解决方案的全部技术实施、运营和维护。.

📈面向未来且可扩展：您的AI将与您一同成长。我们确保持续优化和可扩展性，并灵活调整模型以适应新的需求。.

更多信息请点击这里：

托管人工智能平台

不仅仅是规模化？下一代人工智能是否已经开始真正思考？为什么新一代人工智能可能不仅仅是生产力工具？

横向思维作为一种经济因素：创新的基础设施

为什么横向思维在经济上如此重要？因为真正的创新——不仅仅是复制现有模式，而是识别新的可能性空间——恰恰需要这些认知能力。一个只能通过统计模式识别来解决问题的AI系统，只能在狭窄的领域内运行，并且会盲目地遭遇创新飞跃。然而，如果一个AI系统能够构建平行假设，相互验证，并扫描意想不到的联系，那么它就突然具备了真正的泛化能力。它能够处理模糊性，能够评估多值选项。.

对于德国工业，尤其是机械工程、自动化系统和物流等行业的中型企业而言，这构成了一项直接的创新挑战。具备横向思维能力的AI合作伙伴才是真正的创新工具。而仅限于GPT 5.2式推理能力的AI合作伙伴，虽然能够高效地编写文档和生成代码，但却无法成为战略顾问。这正是“生产力工具”与“战略能力”之间的区别。

更进一步说：如果谷歌的“雪兔”检查点真的被整合到即将推出的 Gemini 3.5 中（技术内部人士根据命名规则和时间线逻辑对此有所怀疑），那么人工智能行业的权力平衡将在 2026 年发生根本性转变。不是轻微的转变，而是根本性的转变。.

突破的架构：不仅仅是规模化

关键在于：性能提升并非源于增加参数或提升计算能力。2023年至2025年的研究重点在于：单纯的规模扩展是否足够。如今的研究表明：答案是否定的。我们需要真正的架构创新，即从“统计预测下一个词元”到“分解问题、层级推理、验证”的范式转变。自2024年至2025年以来，关于层级推理模型（HRM）和神经符号人工智能的技术文献已经证明，此类架构是可行的，并且与纯粹的规模扩展方法相比，它们能够以显著更少的参数实现更优的推理性能。.

谷歌显然已经将这种模式投入生产。OpenAI 和 Anthropic（Claude）则更加深入地践行了规模优先的范式。这是一种战略上的差异，而非无关紧要的差别。这也解释了为什么数十亿参数的数量不再是唯一的决定因素。.

风险不容小觑。

数据的真实性仍然不明朗。基准测试数据泄露很容易被操纵，人工智能行业在2024-2025年间屡次遭遇基准测试数据完整性受损的案例。刷分、污染训练数据、选择性报告——这些做法早已屡见不鲜。谨慎的分析师会建议：不要轻信截图，等待正式版发布（GA），并进行独立评估。.

然而，关于“深度思考”模式、并行代码生成（一次提示符下可生成 3000 行代码）以及 SVG 和音乐生成功能等技术内部信息，所有这些都已在 beta 测试人员的报告中有所记录，并通过 Vertex AI Cloud 集成得到了验证。这降低了数据造假的风险。如果这些基准测试结果是伪造的，谷歌将损失惨重。这家公司或许不如其他竞争对手那样透明，但它并不愚蠢。.

对欧洲工业的战略意义

问题就出在这里。欧洲在基金会模式领域缺乏真正的领军者。法国的Mistral正苦苦挣扎，试图在开源软件的竞争中生存下来。德国初创公司Aleph Alpha早已放弃了独立运营。欧洲正在将人才输出到OpenAI、谷歌和Anthropic等公司，而不是留住人才。欧洲大陆虽然发表了大量研究论文，却无法赢得市场。.

新兴的动态令人担忧。谷歌将通过 Snow Bunny/Gemini 3.5 进一步强化其企业级人工智能产品。如果德国的机械制造商、物流公司和中小企业从根本上依赖于谷歌、微软（及其 OpenAI 集成）或 Anthropic，那么它们就陷入了战略依赖。它们付费才能借助这些技术发展，但却无法掌控这些技术。对于像德国这样以技术深度构建竞争力的国家而言，这构成了一个中期风险。.

德国是工业4.0和自动化领域的全球领导者。但如果认知层——即能够思考生产流程的人工智能——来自美国，那么德国就等于在战略层面上拱手让出了主导权。这是一个典型的陷阱：在底层保持技术优势，却失去了对高层决策和创新的控制权。.

是否有回头路或折中方案？这很难。开源模型（例如 Llama、Qwen 和 Mistral）成本更低，但在推理深度方面却落后于前沿模型。“欧洲人工智能”项目需要耗费数年时间和数万亿美元。切实可行的方案可能是：欧洲工业界必须使用前沿模型，但同时也要发展自身独特的专业技术和领域专长，这是通用模型无法简单复制的。这并非不可能，但需要深厚的组织架构和人才投入，而不仅仅是 API 调用。.