“代币最大化”——是亚马逊吗？一家公司为何挥霍了价值五亿美元的代币：人工智能作为一种保护机制

Xpert 预发布版

在线联系方式（Konrad Wolfenstein）

Available in 27 languages 📢

在 Google 上更倾向于选择 Xpert.Digital。ⓘ

发布日期：2026年6月1日 / 更新日期：2026年6月1日 – 作者： Konrad Wolfenstein

“代币最大化”——是亚马逊吗？一家公司为何挥霍了价值五亿美元的代币：人工智能作为一种保护机制——图片来源：Xpert.Digital

“代币最大化”耗资数百万美元：让亚马逊、优步等公司陷入困境的秘密人工智能趋势

5亿美元的陷阱：为什么自主人工智能代理会耗尽企业预算

一个月内无限量使用人工智能模型，却要支付高达5亿美元的巨额账单：最近曝光的一起企业事件揭示了在缺乏明确指导的情况下使用人工智能所带来的巨大财务风险。尽管所谓的“智能体人工智能”越来越多地自主接管复杂任务，但诸如“代币最大化”之类的现象却导致成本在幕后呈指数级增长——而且往往没有为公司带来任何实际的附加价值。即使是亚马逊、优步和Meta这样的科技巨头也已经深刻体会到，不受控制的人工智能部署会在极短时间内吞噬预算。这个案例揭示了企业史上堪称最昂贵的人工智能失败案例，并生动地说明了为什么“受控人工智能”（即对人工智能工作流程进行系统性的控制、管理和限制）不再是可有可无的IT功能，而是每家公司绝对的战略必需品。.

当缺乏治理的代价比人工智能模型本身还要高昂时，问题就出现了。

在一家大型企业的会计部门，某个财务团队仍在处理上个月发生的一系列事件。没有季度报告，也没有年度计划——仅仅一个月，就有大约5亿美元被转移到了Anthropic公司的Claude平台，而没有人能够启动支出冻结程序。这并非因为公司无法设定限额，而是因为根本没人设定过。.

这起案例最早由Axios于2026年5月28日报道，并经一位人工智能顾问证实，目前被认为是企业史上因人工智能成本超支造成的单月最大公开损失。这并非行业边缘的孤立事件，而是众多大型企业目前面临的结构性缺陷的体现：即对智能体人工智能的无节制使用，以及几乎完全缺乏人工智能管理架构。.

案件详情：5亿美元，无上限。

Axios 和引述的顾问均未透露涉事公司的名称。关于亚马逊的猜测在 X 平台上流传，但没有任何证据。已知的是，该公司允许其员工不受限制地访问 Anthropic 的 Claude 平台——没有消费限额、没有使用配额，也没有用于监控代币消耗的实时仪表盘。.

结果是成本呈指数级增长。员工广泛使用人工智能编码代理、具有长上下文窗口的工作流程以及能够自主串联任务的多层智能体人工智能系统。财务部门和IT管理机构均未采取干预措施。账单寄来时，一个月内就花费了5亿美元。.

Anthropic 提供企业级控制机制：管理员控制面板、基于用户的使用限制和合规工具。然而，这些功能需要主动配置。在本案例中，这一配置环节完全被忽略了。结果：Anthropic 从单个客户那里获得的月收入达到了风险投资家通常梦寐以求的水平。.

智能体人工智能：无声的成本倍增器

要理解如何在30天内筹集到5亿美元，就必须了解所谓“智能体人工智能系统”的本质。对语言模型的典型查询——你输入一个问题，然后得到一个答案——消耗的词元数量是可以控制的。而人工智能智能体的运作方式则截然不同。.

智能体人工智能系统能够自主规划、按顺序执行多个任务、评估自身的中间结果、自我纠错、调用外部工具，并在每一步都重新构建之前的对话历史。每个新操作都需要模型处理当前提示以及所有累积的对话历史——这种滚雪球效应导致令牌成本呈指数级增长。斯坦福数字经济实验室最近的一项研究（Erik Brynjolfsson 也参与其中）通过实证表明，智能体人工智能任务平均消耗的令牌数量比简单的代码推理任务或代码聊天任务多出 1000 倍。.

该论文发现了一个尤为关键的结论：模型在结构上无法预测自身的代币消耗。对于相同的任务，同一智能体的实际代币消耗量可能相差30倍。而且，更高的代币消耗量并不一定意味着更高的结果质量——准确率通常在中等代币消耗量时达到最高，并在更高的消耗水平下趋于稳定。.

这种固有的随机性使得按照经典的金融逻辑进行代币预算几乎是不可能的——除非通过受控人工智能系统创建结构框架，从而独立于模型行为控制成本流。.

代币化：当绩效激励机制被扭曲时

5亿代币事件并非孤立事件，而是源于一种更广泛的现象，这种现象如今有了自己的名称：代币最大化。这指的是人为地提高代币消耗量——并非出于实际需要，而是为了达到内部绩效指标、晋升职场，或者仅仅是为了利用人工智能驱动的生产力评估的不准确性。.

亚马逊为其Kiro开发者平台引入了一套名为“KiroRank”的内部排名系统，该系统根据员工对人工智能的使用情况进行评估。最初的目标是值得称赞的：促进人工智能的应用并推广最佳实践。然而，意想不到的后果是：员工开始给人工智能代理分配毫无意义的任务，仅仅是为了增加代币数量并提升排名。亚马逊高级副总裁戴夫·特雷德韦尔随后向员工解释说，虽然排行榜的初衷是好的，但它却造成了不必要的额外成本。他的信息非常明确：“不要为了使用而使用人工智能。” 该系统随后被关闭。作为新的评估标准，亚马逊引入了“规范化部署”——该指标衡量的不是代币数量，而是实际生成的有效代码部署数量。.

几周前，Meta 也推出了类似的员工领导力委员会，名为“Claudeonomics”。这种模式系统性地重复出现：一旦代币消耗成为可衡量的指标，员工就会追求代币消耗最大化，而不是价值创造最大化。.

Uber 进一步证实了问题的严重性。首席技术官 Praveen Neppalli Naga 向 The Information 证实，Uber 2026 年的 AI 预算在 4 月份就已全部用完——而当时距离 2026 年仅仅过去了四个月。这主要是由于 Claude Code 团队迅速扩张至约 5000 名工程师，这种快速增长彻底超出了公司内部的财务模型。Uber 2025 年的研发投入已达 34 亿美元，比上一年增长了 9%。因此，预算危机并非资源问题，而是管理问题。.

Uber首席运营官安德鲁·麦克唐纳公开表示，许多企业领导者在内部讨论过这个问题，但很少如此直白地表达出来：高额代币消耗与客户的实际收益之间没有明显的关联。Uber也曾利用内部排行榜来推广人工智能的应用，结果却和亚马逊一样适得其反。.

面临成本压力的行业：更多引人注目的案例

克劳德的5亿美元案例是最引人注目的个案，但绝非唯一。仅2026年5月就出现了一系列惊人的成本灾难，这些灾难加在一起，勾勒出一幅结构性图景。.

开发者 Peter Steinberger 是爆款 AI 代理工具 OpenClaw 的创建者，他公布了一张 OpenAI API 控制面板的截图：30 天内，OpenAI 的代币消耗额高达 1,305,088.81 美元，这些代币分布在 6030 亿个代币中，通过 760 万次 API 请求产生，而这些请求是由一个三人团队运行的约 100 个 Codex 实例生成的。Steinberger 目前直接就职于 OpenAI，他本人并未支付这笔费用——OpenAI 根据一项资助协议承担了这笔费用。尽管如此，这个案例仍然展现了基于代理的开发环境可能产生的巨额成本。.

2026年4月，一位名叫杰西·戴维斯的澳大利亚人工智能顾问收到了一张高达25,672.86澳元（约合18,391美元）的谷歌云账单——而他的账户预算仅为10澳元。此次攻击利用了一个公开的API密钥，该密钥以明文变量的形式存储在容器环境中。谷歌云的九项安全功能本可以避免此次事件的发生——然而，这些功能默认全部处于禁用状态。更糟糕的是，在戴维斯的消费超过1,000美元的阈值后，谷歌竟然在未通知他的情况下，自动将他的账户升级到了更高的层级，消费限额从20,000美元提高到了100,000美元。.

由于每位工程师的月均成本上涨至 500 至 2000 美元，微软开始减少其内部 Claude 代码许可的使用。该公司正在将其工程师迁移到 GitHub Copilot CLI，作为一种更具成本效益的替代方案。.

OpenAI 首席执行官 Sam Altman 公开承认，他经常听到企业领导人说：“我们的支出不断增加，人们感觉自己很有生产力——但是收入在哪里？实际的生产力提升在哪里？”

🤖🚀 托管式 AI 平台：借助 UNFRAME，实现更快、更安全、更智能的 AI 解决方案

托管式人工智能平台 - 图片来源：Xpert.Digital

在这里，您将了解到您的公司如何快速、安全地实施定制化的人工智能解决方案，且无需承担过高的准入门槛。.

托管式人工智能平台是您实现人工智能的全方位、无忧解决方案。您无需处理复杂的技术、昂贵的基础设施和漫长的开发流程，即可从专业合作伙伴处获得根据您的需求量身定制的现成解决方案——通常只需几天时间。.

主要优势一览：

⚡ 快速实施：从构思到可立即使用的应用，只需几天而非几个月。我们提供切实可行的解决方案，创造即时附加值。.

🔒 最高数据安全保障：您的敏感数据始终由您掌控。我们保证安全合规地处理您的数据，绝不与任何第三方共享。.

💸 无财务风险：您只需为结果付费。完全无需前期投入大量资金用于硬件、软件或人员。.

🎯 专注于您的核心业务：集中精力做好您最擅长的事情。我们将负责您人工智能解决方案的全部技术实施、运营和维护。.

📈面向未来且可扩展：您的AI将与您一同成长。我们确保持续优化和可扩展性，并灵活调整模型以适应新的需求。.

更多信息请点击这里：

托管人工智能平台

将人工智能管理作为企业责任：如何保障预算和合规性

什么是“受管人工智能”——以及它为何能够避免这种损害

在商业语境中，“托管式人工智能”指的是一种结构化的、基于平台的AI管理方法，用于控制、监控和管理组织内的所有AI活动。与不受控制的直接API访问不同，托管式人工智能在员工和底层语言模型之间设置了一个管理控制层。.

在一个完全实施的受管人工智能系统中，5亿美元的损失绝不可能发生——这其中有几个技术和组织方面的原因。.

首先，基于项目、团队或用户级别的支出上限，可以在达到预设预算限制后自动限制或完全停止 API 流量。谷歌云意识到了这一点，并在 2026 年 4 月的 Next 大会上宣布为 Gemini、Cloud Run 和其他服务引入“支出上限”——这些上限不仅会提醒用户，还会主动暂停流量。.

其次，在用户、团队和工作流程层面进行精细化的实时监控，可以在成本上升之前及早发现异常信号。Modal 的首席技术官 Akshat Bubna 估计，企业内部约有 50% 的代币消耗完全无用——目前的问题在于无法区分这部分无用的代币和有效代币。托管式人工智能系统通过详细的使用归因分析，恰恰能够实现这种区分。.

第三，基于角色的访问管理能够区分用户群体：常规任务会被路由到成本较低的模型（例如 Claude Haiku），而计算密集型工作流程则会在功能更强大但成本更高的模型上执行。Anthropic 在其官方定价文档中明确推荐了基于模型的任务分配策略：Haiku 用于简单任务，Sonnet 用于大多数生产工作负载，而 Opus 仅用于最复杂的推理任务。.

第四，提示缓存机制可防止冗余的令牌消耗循环：诸如系统提示或公司策略之类的重复上下文块无需在每次请求时重新加载。对于每天加载相同上下文数百次的 Agentic 工作流而言，这可以降低 60% 到 80% 的令牌成本。.

第五，批量处理能够大幅降低非时间紧迫任务的成本：与同步请求相比，Anthropic 的批量 API 可提供高达 50% 的费用折扣。在托管式 AI 系统中，这些优化会自动应用，无需开发人员手动决策。.

结构性治理缺口：为什么企业准备不足

由此产生的问题不是技术性的，而是组织性的：为什么拥有数千名员工、数十亿美元的 IT 预算和复杂的云治理结构的公司未能实施最简单的 AI 成本控制机制？

答案在于结构性的时间滞后。诸如 FinOps 之类的云治理概念——即管理云支出的规范化、跨职能方法——是在计算成本可预测且可线性扩展的时代发展起来的。而人工智能代币定价模型则截然不同：它们是非线性的、非确定性的，并且由代理驱动的工作流程会产生既不可预测也不直观的成本。.

《2026 年 FinOps 现状报告》证实，人工智能支出已从实验性预算发展成为核心基础设施，几乎所有 FinOps 团队现在都承担着人工智能工作负载的责任。与此同时，缺乏成熟的投资回报率衡量指标：根据 FinOps 基金会峰会上的一项现场调查，企业领导者面临的最大问题并非人工智能成本，而是无法证明其价值。.

Anthropic 的定价结构进一步加剧了问题的复杂性。2026 年 4 月，Anthropic 对其企业模式进行了根本性改革：不再采用固定的、基于席位的订阅费，而是采用更低的席位名义价格（例如，Claude Code 技术用户每月 20 美元），并强制要求预先承诺使用量。此前针对批量购买者的 10% 至 15% 的 API 折扣也被取消。这种结构将使用风险完全转移到了企业身上：企业只需为承诺的使用量付费，无论实际使用量如何；而超出承诺使用量的部分则按全价计费。.

Gartner 预测，到 2027 年底，超过 40% 的智能体人工智能项目将被终止——主要原因是治理结构不足。.

人工智能治理作为一项战略性企业要务

这些案例的后果显而易见：人工智能治理不再是IT部门的额外工作，而是企业的一项战略责任。实施受管人工智能架构的公司相比于不受监管的部署方式，能够获得多项关键优势。.

成本透明度和支出控制是基础。领先的组织已经依赖于严格的支出上限、基于角色的访问管理、实时监控仪表板以及强制执行更具成本效益的日常任务模型的策略。Databricks 在其治理指南中明确建议采用设计时和运行时防护措施：预定义的令牌限制、上下文长度限制、缓存规则以及异常检测系统，以便在工作流失控升级之前进行干预。.

基于价值的衡量标准正在取代基于代币的指标。亚马逊从 KiroRank 转向“规范化部署”（衡量有意义的代码部署而非原始代币数量）指明了未来的发展方向：相关的指标不是消耗量，而是最终产生的结果。这种指标的转变并非技术上的微不足道，而是对人工智能生产力意义的根本性重新评估。.

与通用系统相比，专用工具能够在不牺牲质量的前提下显著降低成本。对于定义明确、重复性高的任务，专门的、针对特定任务优化的解决方案通常比通用前沿模型便宜 10 到 100 倍。FinOps 基金会峰会将此提炼为一项关键原则：首先，确定任务是否真的需要人工智能；其次，确定哪种模型最具成本效益；最后才进行优化。.

AI网关架构实现了集中控制。像Bifrost（Maxim AI）这样的平台充当中央网关，负责路由、监控和强制执行组织所有AI流量的策略控制。这种架构使组织能够在一个中心位置管理支出限额、模型路由、隐私过滤器和合规性要求，并完整记录所有AI活动以用于审计。.

代币时代的经济学：企业融资的新规则

这起5亿美元的案件标志着企业融资和人工智能基础设施的融合方式发生了转折。基于代币的定价模式与传统的软件许可模式截然不同：它没有固定的年费、没有明确的范围界定，也没有天然的消费上限。.

这种根本性的差异使传统的企业预算流程难以应对。首席财务官们习惯于将软件成本建模为固定支出，如今却面临着一个可能呈指数级增长的可变成本模型。预计到2026年，全球人工智能支出将达到2.52万亿美元，同比增长44%。如此庞大的规模使得企业部署不受控制成为一种系统性风险。.

以精准预测市场危机而闻名的迈克尔·伯里（Michael Burry）将代币配额上限描述为“配额、排行榜和管理层驱动的过度消费”以及“疯狂、仓促且短暂的阶段”。他预测这一阶段不可持续。无论他的预测是否准确，结构性调整的压力已经开始显现。.

目前，人工智能作为创新加速器，其不受控制、民主化的普及模式正因巨额成本超支的现实而受到修正。取而代之的是一种更为成熟的模式：广泛普及，但设定明确的边界、可衡量的目标和制度化的控制机制——简而言之，就是真正意义上的“受控人工智能”。.

企业现在需要做什么

所描述的案例可以为大规模使用人工智能的公司提供直接的操作性结论。.

首要任务是立即在用户、团队和项目层面实施严格的支出限额。Anthropic、Google Cloud 和 OpenAI 都提供企业级控制机制，但需要进行配置。几乎所有已知案例的主要问题并非产品组合中缺少这些机制，而是未能进行配置。.

同时，在部署或扩展 Agentic 工作流之前，应测量 30 天的实际代币消耗基线。如果没有这个基线，就无法识别异常情况。异常检测系统会在月度预算达到 25%、50% 和 75% 时自动触发警报，从而提供第二层安全保障。.

人工智能生产力的衡量指标需要从数量级转向结果指标。亚马逊提出的“标准化部署”模型是一个可行的方案。那些无法追踪到实际业务成果的人工智能投资应该重新评估。.

部署智能体人工智能需要明确的分阶段治理：试点小组、清晰定义的用例、每个工作流程的成本限制，以及在更广泛推广之前进行定期审查。智能体人工智能的可扩展性是一项优势，但如果缺乏监管就贸然使用，也会带来成本风险。.

结论：5亿美元买了一堂原本可以免费学到的课

这起涉及5亿美元的案件规模惊人，但其原因却十分普通：没有人真正落实到位。成本控制的技术基础设施已经到位，但配置却存在缺陷。缺失的是一个有效的AI管理战略——一个将AI准入与AI治理相结合的制度框架。.

这给企业领导者传递的信息很明确：在缺乏治理框架的情况下，慷慨地向员工提供人工智能工具并非是对员工的信任，而是财务上的疏忽。优步、亚马逊、微软以及那家匿名投资五亿美元的公司，它们的案例并非仅仅是新技术初期发展阶段的问题，而是系统性地未能将新技术与成熟的公司治理原则有效整合。.

管理型人工智能正是弥合这一差距的答案。它并非创新的限制，而是创新可持续发展的必要条件。.

咨询 - 规划 - 实施

Konrad Wolfenstein

我很乐意担任您的私人顾问。.

我 wolfenstein∂xpert.digital 联系

请拨打 +49 7348 4088 965 。

联系我：

类别