570亿美元的误判——最令人惊讶的是,英伟达公司发出警告:人工智能行业押错了宝。
Xpert 预发布
语言选择 📢
发布日期:2025年11月9日 / 更新日期:2025年11月9日 – 作者:Konrad Wolfenstein
别再迷信人工智能巨头了:未来应该是规模更小、去中心化且成本更低的。
### 小型语言模型:实现真正业务自主的关键 ### 从超大规模数据中心回归用户:人工智能领域的权力转移 ### 570亿美元的错误:为什么真正的AI革命没有发生在云端 ### 无声的AI革命:去中心化而非中心化 ### 科技巨头走错了方向:AI的未来是精简且本地化的 ### 从超大规模数据中心回归用户:人工智能领域的权力转移 ###
数十亿美元的投资付诸东流:为什么小型人工智能模型正在超越大型人工智能模型?
人工智能领域正面临一场堪比互联网泡沫破灭时期的地震。这场剧变的核心在于一个巨大的误判:尽管微软、谷歌和Meta等科技巨头正斥资数千亿美元建设大规模语言模型(LLM)的集中式基础设施,但其实际应用市场却远远滞后。一项由行业领军企业英伟达(NVIDIA)参与的开创性分析量化了这一差距:基础设施投资高达570亿美元,而实际市场规模仅为56亿美元——相差十倍。
这种战略性错误源于一个假设,即人工智能的未来仅仅在于构建规模更大、计算密集度更高、且由中央控制的模型。但如今,这种范式正在瓦解。一场由去中心化、小型语言模型(SLM)驱动的悄然革命,正在颠覆既有秩序。这些模型不仅成本更低、效率更高,还能帮助企业实现更高水平的自主性、数据主权和敏捷性——彻底摆脱对少数超大规模数据中心的高昂依赖。本文深入剖析了这场数十亿美元的错误投资,并阐明了真正的人工智能革命为何并非发生在庞大的数据中心,而是在去中心化、精简的硬件上进行。这是一个关于权力从基础设施提供商回归技术用户的根本性转变的故事。
适合:
英伟达关于人工智能资本错配的研究
您描述的数据来自英伟达于 2025 年 6 月发布的一篇研究论文。完整来源如下:
“小型语言模型是智能体人工智能的未来”
- 作者:Peter Belcak、Greg Heinrich、刁世哲、付永干、董鑫、Saurav Muralidharan、Yingyan Celine Lin、Pavlo Molchanov
- 发布日期:2025年6月2日(版本1),最后修订日期:2025年9月15日(版本2)
- 发布位置:arXiv:2506.02153 [cs.AI]
- DOI:https://doi.org/10.48550/arXiv.2506.02153
- NVIDIA 官方研究院页面: https://research.nvidia.com/labs/lpr/slm-agents/
关于资本错配的关键信息
该研究揭示了基础设施投资与实际市场规模之间存在的根本性差异:2024年,业界在云基础设施方面投资了570亿美元,用于支持大型语言模型(LLM)API服务,而这些服务的实际市场规模仅为56亿美元。研究将这种十比一的巨大差距解读为战略误判的体现,因为业界在大型模型的集中式基础设施上投入巨资,而目前40%至70%的LLM工作负载可以用成本仅为其1/30的小型专用语言模型(SLM)来替代。
研究背景和作者署名
本研究是英伟达研究院深度学习效率研究小组的一份立场文件。第一作者 Peter Belcak 是英伟达的人工智能研究员,专注于基于代理的系统的可靠性和效率。该论文围绕三个支柱展开论述:
SLM是
- 足够强大
- 适合手术且
- 经济上必要的
适用于智能体人工智能系统中的许多应用场景。
研究人员明确强调,本文表达的观点仅代表作者个人观点,并不一定反映英伟达公司的立场。英伟达欢迎批评性讨论,并承诺将所有相关讨论内容发布在配套网站上。
为什么去中心化的小型语言模型会使中心化的基础设施过时?
人工智能正处于一个转折点,其影响令人想起互联网泡沫破裂的动荡。英伟达的一份研究报告揭示了一种根本性的资本错配,动摇了其当前人工智能战略的根基。尽管科技行业在大规模语言模型的集中式基础设施上投资了570亿美元,但其实际市场规模仅为56亿美元。这种十比一的巨大差距不仅表明对需求的过高估计,也暴露了在人工智能未来发展方向上的一个根本性战略错误。
糟糕的投资?数十亿美元投入人工智能基础设施——如何处理过剩产能?
数据本身就足以说明问题。根据多项分析,2024年全球人工智能基础设施支出将达到800亿至870亿美元,其中数据中心和加速器占据了绝大部分。微软宣布将在2025财年投资800亿美元,谷歌将预期投资额上调至910亿至930亿美元,Meta计划投资高达700亿美元。仅这三家超大规模数据中心运营商的投资总额就超过2400亿美元。麦肯锡估计,到2030年,人工智能基础设施总支出可能达到3.7万亿至7.9万亿美元。
相比之下,需求方面的现实却令人担忧。企业级大型语言模型市场规模预计在2024年仅为40亿至67亿美元,2025年的预测范围为48亿至80亿美元。即使是对整个生成式人工智能市场最乐观的估计,到2024年也仅为280亿至440亿美元。根本性的差距显而易见:基础设施是为一种目前并不存在的市场形式和规模而构建的。
这种投资失误源于一个日益被证明是错误的假设:人工智能的未来在于规模越来越大、更加集中的模型。超大规模数据中心运营商奉行大规模扩展战略,其驱动力是坚信参数数量和计算能力是决定性竞争因素。拥有1750亿个参数的GPT-3在2020年被视为一项突破,而拥有超过万亿个参数的GPT-4则树立了新的标杆。整个行业盲目地遵循这一逻辑,投资建设的基础设施旨在满足大多数应用场景下过大的模型需求。
投资结构清晰地展现了资源错配。2025年第二季度,在人工智能基础设施方面投入的820亿美元中,98%流向了服务器,其中91.8%又用于GPU和XPU加速系统。超大规模数据中心和云服务提供商占据了其中86.7%的支出,仅一个季度就高达约710亿美元。这种将大量资金集中于高度专业化、能耗极高的硬件(用于训练和推理大规模模型)的做法,忽略了一个基本的经济现实:大多数企业应用并不需要如此强大的能力。
范式正在被打破:从中心化走向去中心化
作为近期基础设施热潮的主要受益者,NVIDIA 自身也正在提供挑战这一范式的分析。一项关于小型语言模型作为未来基于代理的人工智能发展方向的研究表明,参数少于 100 亿的模型不仅足够,而且在绝大多数人工智能应用中都具有更优的性能。对三个大型开源代理系统的研究表明,40% 到 70% 的大型语言模型调用可以被专门的小型模型替代,而不会造成任何性能损失。
这些发现动摇了现有投资策略的基本假设。如果 MetaGPT 能用 SLM 替代其 60% 的 LLM 调用、Open Operator 替代 40% 的调用以及 Cradle 替代 70% 的调用,那么基础设施容量的建设规模远不足以满足如此庞大的需求。经济效益也随之发生巨大变化:Llama 3.1B 小型语言模型的运行成本比其规模更大的版本 Llama 3.3 405B 低十到三十倍。微调只需几个 GPU 小时即可完成,而不再需要数周时间。许多 SLM 运行在消费级硬件上,彻底摆脱了对云的依赖。
这种战略转变是根本性的。控制权正从基础设施提供商转移到运营商手中。之前的架构迫使企业依赖少数几家超大规模数据中心,而通过服务层级管理(SLM)实现的去中心化则赋予了企业新的自主权。模型可以在本地运行,数据保留在企业内部,API成本得以消除,供应商锁定也被打破。这不仅是一场技术变革,更是一场权力政治的变革。
之前对集中式大规模模型的押注是基于指数级扩展效应的假设。然而,越来越多的实证数据与这一假设相悖。拥有70亿参数的微软Phi-3模型,其代码生成性能可与拥有700亿参数的模型相媲美。拥有90亿参数的NVIDIA Nemotron Nano 2模型,在推理基准测试中,其吞吐量是Qwen3-8B的六倍。模型规模越小,每个参数的效率越高;而大型模型通常只针对给定的输入激活其参数的一小部分——这是一种固有的低效。
小型语言模型的经济优势
成本结构以残酷的现实揭示了经济真相。训练 GPT-4 类模型预计耗资超过 1 亿美元,而 Gemini Ultra 的成本可能高达 1.91 亿美元。即使只是针对特定领域对大型模型进行微调,也可能需要花费数万美元的 GPU 时间。相比之下,SLM 的训练和微调只需几千美元,通常只需一块高端 GPU 即可完成。
推理成本的差异更为显著。GPT-4 每 1000 个输入词元的成本约为 0.03 美元,每 1000 个输出词元的成本约为 0.06 美元,平均每次查询的成本约为 0.09 美元。而以 SLM 为例,Mistral 7B 每 1000 个输入词元的成本约为 0.0001 美元,每 1000 个输出词元的成本约为 0.0003 美元,即每次查询的成本约为 0.0004 美元。这意味着成本降低了 225 倍。在数百万次的查询中,这种成本差异累积起来将产生巨大的影响,直接影响盈利能力。
总拥有成本揭示了更多层面。在配备 L40S GPU 的裸机服务器上自托管一个 70 亿参数的模型,每月成本约为 953 美元。使用 AWS SageMaker 在 g5.2xlarge 实例上进行云端微调,每小时成本为 1.32 美元,而较小模型的潜在训练成本起价为 13 美元。全天候推理部署的成本约为每月 950 美元。与持续使用大型模型的 API 成本(每月很容易达到数万美元)相比,其经济优势显而易见。
实施速度往往被低估,但它却是一个重要的经济因素。大型语言模型 (LLM) 的微调可能需要数周时间,而系统级语言模型 (SLM) 只需数小时或几天即可投入使用。快速响应新需求、添加新功能或调整行为的能力,成为一种竞争优势。在瞬息万变的市场中,这时间上的差异可能决定成败。
规模经济正在发生逆转。传统上,规模经济被视为超大规模数据中心运营商的优势,这些运营商拥有庞大的容量并将其分配给众多客户。然而,借助服务级模型(SLM),即使是规模较小的组织也能高效扩展,因为其硬件要求大幅降低。初创公司可以用有限的预算构建一个专门的SLM,其性能甚至优于大型通用模型,尤其是在特定任务方面。人工智能开发的民主化正在成为现实。
颠覆性技术基础
支持学生学习模型(SLM)的技术创新与其经济影响同样重要。知识蒸馏是一种让较小的学生模型吸收较大教师模型知识的技术,已被证明非常有效。DistilBERT成功地压缩了BERT模型,TinyBERT也遵循类似的原理。现代方法将GPT-3等大型生成模型的能力提炼成规模显著缩小的版本,这些版本在特定任务中展现出相当甚至更优的性能。
该过程同时利用教师模型的软标签(概率分布)和原始数据的硬标签。这种组合使得较小的模型能够捕捉到在简单的输入输出对中会丢失的细微模式。诸如逐步蒸馏之类的高级蒸馏技术表明,即使训练数据较少,小型模型也能比层级模型(LLM)取得更好的结果。这从根本上改变了经济效益:不再需要耗费大量成本在数千个GPU上进行训练,只需进行有针对性的蒸馏过程即可。
量化会降低模型权重数值表示的精度。量化后的模型不再使用 32 位或 16 位浮点数,而是使用 8 位甚至 4 位整数表示。内存需求相应降低,推理速度提高,功耗也随之降低。现代量化技术能够最大限度地减少精度损失,通常几乎不会影响性能。这使得模型能够部署在边缘设备、智能手机和嵌入式系统上,而使用完全精确的大型模型则无法实现这些部署。
剪枝可以从神经网络中移除冗余的连接和参数。这类似于编辑过长的文本,即识别并删除非必要元素。结构化剪枝会移除整个神经元或层,而非结构化剪枝则会移除单个权重。由此产生的网络结构更加高效,所需的内存和处理能力更少,同时保留了其核心功能。结合其他压缩技术,剪枝后的模型可以显著提高效率。
低秩分解将大型权重矩阵分解为较小矩阵的乘积。系统不再需要存储和处理包含数百万个元素的单个矩阵,而是存储和处理两个规模显著缩小的矩阵。数学运算基本保持不变,但计算量却大幅降低。这项技术在Transformer架构中尤为有效,因为在Transformer架构中,注意力机制主导着大量的矩阵乘法运算。节省的内存使得在相同的硬件预算下,可以实现更大的上下文窗口或更大的批处理规模。
这些技术在现代空间语言模型(SLM)中的应用,例如微软的 Phi 系列、谷歌的 Gemma 和 NVIDIA 的 Nemotron,充分展现了其潜力。Phi-2 仅拥有 27 亿个参数,在综合基准测试中性能优于分别拥有 70 亿和 130 亿个参数的 Mistral 和 Llama-2 模型,并且在多步推理任务中表现优于参数量是其 25 倍的 Llama-2-70B 模型。这得益于策略性的数据选择、高质量的合成数据生成以及创新的扩展技术。由此可见,模型大小不再是衡量性能的唯一标准。
市场动态和替代潜力
来自实际应用的实证研究结果支持了这些理论考量。NVIDIA 对多智能体软件开发框架 MetaGPT 的分析发现,大约 60% 的 LLM 请求是可以替代的。这些任务包括样板代码生成、文档创建和结构化输出——在所有这些领域,专用 SLM 的性能都比通用的大规模模型更快、更经济高效。
Open Operator 是一款工作流自动化系统,其 40% 的替代潜力表明,即使在复杂的编排场景中,许多子任务也不需要 LLM 的全部能力。意图解析、基于模板的输出和路由决策可以通过精心调优的小型模型更高效地处理。而剩余的 60% 的任务,即真正需要深度推理或广泛世界知识的任务,则需要使用大型模型。
Cradle 是一款 GUI 自动化系统,其替代潜力最高,可达 70%。重复的 UI 交互、点击序列和表单填写非常适合使用序列生命周期模型 (SLM)。这类任务定义明确,变化有限,对上下文理解的要求也不高。专门针对 GUI 交互训练的模型在速度、可靠性和成本方面均优于通用型生命周期生命周期模型 (LLM)。
这些模式在各个应用领域反复出现。客户服务聊天机器人用于解答常见问题、文档分类、情感分析、命名实体识别、简单翻译、自然语言数据库查询——所有这些任务都能从服务生命周期管理(SLM)中受益。一项研究估计,在典型的企业人工智能部署中,60%到80%的查询都属于SLM足以应对的类别。这对基础设施需求的影响是巨大的。
模型路由的概念正变得日益重要。智能系统分析传入的查询,并将其路由到合适的模型。简单的查询会交给成本效益高的静态模型(SLM),而复杂的任务则由高性能的逻辑模型(LLM)处理。这种混合方法优化了质量和成本之间的平衡。早期实施报告显示,在保持甚至提升整体性能的同时,成本最多可节省 75%。路由逻辑本身可以是一个小的机器学习模型,它会考虑查询的复杂性、上下文和用户偏好。
微调即服务平台的激增正在加速其普及。即使缺乏深厚的机器学习专业知识,公司也能构建集成自身专有数据和领域特性的专用系统生命周期管理 (SLM)。所需时间从数月缩短至数天,成本也从数十万美元降至数千美元。这种便捷性从根本上普及了人工智能创新,并将价值创造从基础设施提供商转移到了应用程序开发人员。
通过“托管人工智能”(人工智能)开启数字化转型的新维度 - 平台和 B2B 解决方案 | Xpert Consulting
在这里您将了解您的公司如何快速、安全且无高门槛地实施定制化的AI解决方案。
托管 AI 平台是您全方位、无忧的人工智能解决方案。您无需处理复杂的技术、昂贵的基础设施和冗长的开发流程,只需几天时间,即可从专业合作伙伴处获得根据您的需求量身定制的交钥匙解决方案。
主要优势一览:
⚡ 快速实施:从构思到实际应用,只需几天,无需数月。我们提供切实可行的解决方案,创造即时价值。
🔒 最高数据安全性:您的敏感数据将由您自行保管。我们保证数据处理安全合规,不会与第三方共享。
💸 无财务风险:您只需为结果付费。完全无需在硬件、软件或人员方面进行高额的前期投资。
🎯 专注于您的核心业务:专注于您最擅长的领域。我们负责您 AI 解决方案的整个技术实施、运营和维护。
📈 面向未来且可扩展:您的 AI 将与您共同成长。我们确保持续优化和可扩展性,并灵活地调整模型以适应新的需求。
更多相关信息请点击这里:
去中心化人工智能如何为企业节省数十亿美元成本
集中式架构的隐性成本
仅仅关注直接计算成本会低估集中式生命周期管理(LLM)架构的总成本。API依赖关系会造成结构性劣势。每次请求都会产生成本,且成本会随着使用量的增加而增长。对于拥有数百万用户的成功应用而言,API费用会成为主要成本因素,从而侵蚀利润。企业陷入了一种成本结构困境,这种成本结构与成功成正比增长,却无法实现相应的规模经济。
API 提供商定价的波动性会带来业务风险。价格上涨、配额限制或服务条款变更都可能在一夜之间摧毁应用程序的盈利能力。近期主要提供商宣布的容量限制迫使用户节约资源,这凸显了这种依赖关系的脆弱性。专用服务级别管理 (SLM) 可以完全消除这种风险。
数据主权和合规性日益重要。欧洲的 GDPR、全球范围内的类似法规以及不断提高的数据本地化要求,正在构建复杂的法律框架。将敏感的企业数据发送到可能在外国司法管辖区运行的外部 API 会带来监管和法律风险。医疗保健、金融和政府部门通常有严格的要求,禁止或严格限制使用外部 API。本地部署的 SLM 解决方案从根本上解决了这些问题。
知识产权问题不容忽视。发送给 API 提供商的每一个请求都可能泄露专有信息。业务逻辑、产品开发、客户信息——所有这些信息理论上都可能被提供商提取和使用。合同条款对防止意外泄露或恶意行为者的行为提供的保护有限。唯一真正安全的解决方案是永远不要将数据外部化。
网络依赖性会导致延迟和可靠性下降。每个云 API 请求都需要经过互联网基础设施,因此会受到网络抖动、丢包和往返时间变化的影响。对于对话式 AI 或控制系统等实时应用而言,这些延迟是不可接受的。本地服务级别管理器 (SLM) 的响应速度以毫秒计,而非秒计,且不受网络状况的影响。用户体验因此得到显著提升。
战略性地依赖少数几家超大规模云服务提供商会造成权力集中,并带来系统性风险。AWS、微软 Azure、谷歌云以及其他几家公司主导着市场。这些服务的中断会对成千上万个依赖的应用程序产生连锁反应。考虑到大多数替代服务最终都依赖于同一批有限的云服务提供商,冗余的假象便不复存在。真正的韧性需要多元化,理想情况下还应包括内部自建容量。
适合:
边缘计算作为战略转折点
空间生命周期管理(SLM)与边缘计算的融合正在创造一种变革性的动态。边缘部署将计算能力带到数据源头——物联网传感器、移动设备、工业控制器和车辆。延迟显著降低:从几秒到几毫秒,从云端往返到本地处理。对于自主系统、增强现实、工业自动化和医疗设备而言,这不仅是理想的,而且是至关重要的。
带宽节省非常显著。数据不再像以前那样持续不断地传输到云端进行处理,而是在本地完成处理。只有相关的、汇总的信息才会被传输。在拥有数千个边缘设备的场景中,这可以大幅减少网络流量。基础设施成本降低,网络拥塞得以避免,可靠性也得到了提高。
隐私得到内在保护。数据不再离开设备。摄像头画面、录音、生物识别信息、位置数据——所有这些都可以在本地处理,无需传输到中央服务器。这解决了基于云的AI解决方案引发的根本性隐私担忧。对于消费级应用而言,这成为一项差异化优势;对于受监管行业而言,这则成为一项必要条件。
能源效率正在多方面得到提升。专为推理小型模型而优化的专用边缘人工智能芯片,其能耗仅为数据中心GPU的几分之一。减少数据传输可以节省网络基础设施的能源。对于电池供电设备而言,这正逐渐成为一项核心功能。智能手机、可穿戴设备、无人机和物联网传感器都可以执行人工智能功能,而不会显著影响电池续航时间。
离线能力增强了系统的稳健性。边缘人工智能无需网络连接即可运行,即使在偏远地区、关键基础设施或灾难场景下也能保持功能正常。这种对网络可用性的独立性对于许多应用至关重要。自动驾驶汽车不能依赖云连接,医疗设备也不能因为Wi-Fi不稳定而出现故障。
成本模式正从运营支出转向资本支出。企业不再需要持续支付云费用,而是一次性投资于边缘硬件。这对于长期运行、高流量的应用而言,在经济上更具吸引力。可预测的成本有助于预算规划,降低财务风险。企业也因此重新掌控了其人工智能基础设施支出。
例如,NVIDIA ChatRTX 能够在消费级 GPU 上实现本地 LLM 推理。苹果将设备端 AI 集成到 iPhone 和 iPad 中,使较小的模型能够直接在设备上运行。高通正在开发专为智能手机打造的边缘 AI 专用 NPU。谷歌 Coral 和类似平台则面向物联网和工业应用。市场动态清晰地展现出去中心化的趋势。
异构人工智能架构作为未来模型
未来不在于绝对的去中心化,而在于智能混合架构。异构系统将边缘服务层级模型(SLM)与云端层级模型(LLM)相结合,前者用于处理常规的、对延迟敏感的任务,后者用于应对复杂的推理需求。这种互补性在最大限度提高效率的同时,也保持了灵活性和强大的功能。
该系统架构由多个层级构成。在边缘层,高度优化的服务级别管理器 (SLM) 提供即时响应,预计可自主处理 60% 到 80% 的请求。对于未达到本地置信度阈值的模糊或复杂查询,请求将升级到雾计算层——即配备中端模型的区域服务器。只有真正棘手的案例才会提交到配备大型通用模型的中央云基础设施。
模型路由正成为网络架构的关键组成部分。基于机器学习的路由器会分析请求特征,例如文本长度、复杂度指标、域名信号和用户历史记录。基于这些特征,请求会被分配给合适的模型。现代路由器在复杂度估计方面能够达到 95% 以上的准确率。它们会根据实际性能和性价比进行持续优化。
高级路由系统中的交叉注意力机制能够显式地对查询模型交互进行建模。这使得系统能够做出更细致的决策:Mistral-7B 是否足够,还是需要 GPT-4?Phi-3 能否处理此查询,还是需要 Claude?这些精细的决策,乘以数百万次的查询,能够在保持甚至提升用户满意度的同时,显著降低成本。
工作负载特征分析至关重要。智能体人工智能系统由编排、推理、工具调用、内存操作和输出生成组成。并非所有组件都需要相同的计算能力。编排和工具调用通常基于规则或只需要极少的智能——非常适合使用静态逻辑模型(SLM)。推理可以是混合的:在静态逻辑模型上进行简单的推理,在逻辑逻辑模型(LLM)上进行复杂的多步骤推理。模板的输出生成使用静态逻辑模型,而创意文本的生成则使用逻辑逻辑模型。
总体拥有成本 (TCO) 优化考虑了硬件异构性。高端 H100 GPU 用于关键的 LLM 工作负载,中端 A100 或 L40S 用于中端模型,而经济高效的 T4 或推理优化芯片则用于 SLM。这种精细化的配置方式能够将工作负载需求与硬件性能精确匹配。初步研究表明,与同构的高端部署相比,TCO 可降低 40% 至 60%。
编排需要复杂的软件栈。基于 Kubernetes 的集群管理系统,以及能够理解模型特性的 AI 专用调度器,至关重要。负载均衡不仅考虑每秒请求数,还考虑令牌长度、模型内存占用和延迟目标。自动扩缩容功能可根据需求模式做出响应,在利用率较低时提供额外的容量或缩减容量。
可持续性和能源效率
人工智能基础设施对环境的影响正日益成为一个核心问题。训练一个大型语言模型所消耗的能源可能相当于一个小镇一年的能源消耗。到2028年,运行人工智能工作负载的数据中心可能占全球数据中心能源需求的20%至27%。据预测,到2030年,人工智能数据中心单次训练运行可能需要8吉瓦的电力。其碳足迹将与航空业相当。
大型模型的能耗正以惊人的速度增长。GPU的功耗在三年内翻了一番,从400瓦增至1000瓦以上。NVIDIA GB300 NVL72系统虽然采用了创新的功率平滑技术,可将峰值负载降低30%,但仍然需要消耗大量能源。冷却基础设施又会使能耗增加30%到40%。即使对电网脱碳持乐观态度,到2030年,人工智能基础设施的二氧化碳排放总量仍可能增加2.2亿吨。
小型语言模型 (SLM) 可带来显著的效率提升。其训练所需的计算能力仅为同类大型语言模型 (LLM) 的 30% 到 40%。BERT 的训练成本约为 1 万欧元,而 GPT-4 类模型的训练成本则高达数亿欧元。推理能耗也相应降低。SLM 查询的能耗比 LLM 查询低 100 到 1000 倍。数百万次的查询累积起来,这将带来巨大的节能效益。
边缘计算放大了这些优势。本地处理省去了通过网络和骨干基础设施传输数据所需的能源。专用的边缘AI芯片的能效比数据中心GPU高出几个数量级。智能手机和物联网设备配备毫瓦级NPU,而非数百瓦的服务器,这充分体现了规模上的巨大差异。
使用可再生能源正日益成为优先事项。谷歌承诺到2030年实现100%无碳能源,微软则致力于实现碳负排放。然而,巨大的能源需求规模带来了诸多挑战。即使使用可再生能源,电网容量、储能和间歇性等问题依然存在。可持续负荷管理(SLM)技术可以降低绝对需求,使向绿色人工智能的转型更具可行性。
碳感知计算根据电网碳排放强度优化工作负载调度。训练运行在电网中可再生能源占比最高时启动。推理请求则路由至能源更清洁的区域。这种时间和地域上的灵活性,结合服务生命周期管理(SLM)的高效性,有望减少50%至70%的二氧化碳排放。
监管环境日趋严格。欧盟人工智能法案规定,某些人工智能系统必须进行环境影响评估。碳排放报告正逐渐成为标准做法。基础设施效率低下、能源密集型的企业将面临合规问题和声誉损害的风险。共享生命周期管理(SLM)和边缘计算的应用正从“锦上添花”转变为“必不可少”。
民主化与集中化
过去的科技发展已将人工智能的强大力量集中在少数几家关键企业手中。“七巨头”——微软、谷歌、Meta、亚马逊、苹果、英伟达和特斯拉——占据主导地位。这些超大规模企业控制着基础设施、模型,并且日益掌控着整个价值链。它们的总市值超过15万亿美元,占标普500指数市值的近35%,这种集中风险在历史上前所未有。
这种集中具有系统性影响。少数公司制定标准、定义应用程序接口(API)并控制访问权限。规模较小的企业和发展中国家被迫依赖这些公司。各国的数字主权受到挑战。欧洲、亚洲和拉丁美洲正在制定国家人工智能战略以应对,但总部位于美国的超大规模数据中心运营商的主导地位仍然压倒性。
小型语言模型 (SLM) 和去中心化正在改变这种格局。像 Phi-3、Gemma、Mistral 和 Llama 这样的开源 SLM 正在普及尖端技术。大学、初创公司和中型企业无需超大规模数据中心资源即可开发出具有竞争力的应用。创新门槛大幅降低。一个小型团队就能创建出在其细分领域超越谷歌或微软的专业 SLM。
经济效益正向小型企业倾斜。大型机器学习模型(LLM)的开发需要数亿美元的预算,而小型机器学习模型(SLM)只需五位数到六位数的资金即可实现。云计算的普及使得按需访问训练基础设施成为可能。微调服务则简化了复杂性。人工智能创新的准入门槛正从高不可攀降至可控范围。
数据主权成为现实。企业和政府可以托管完全不访问外部服务器的模型。敏感数据始终处于自身掌控之中。GDPR合规性得以简化。欧盟人工智能法案对透明度和问责制提出了严格的要求,而使用专有模型而非黑盒API则使该法案的执行变得更加容易。
创新多样性正在增强。过去那种由类似GPT的模型构成的单一生态系统正在形成,取而代之的是针对特定领域、语言和任务的数千种专业化语言学习模型(SLM)。这种多样性能够有效抵御系统性误差,加剧竞争,并加速发展。创新格局正从层级式转变为多中心式。
集中化带来的风险日益凸显。对少数供应商的依赖会造成单点故障。AWS 或 Azure 的宕机会导致全球服务瘫痪。超大规模云服务商的决策,例如使用限制或区域封锁,会产生连锁反应。通过服务级别管理 (SLM) 实现去中心化可以从根本上降低这些系统性风险。
战略调整
对企业而言,这项分析意味着需要进行根本性的战略调整。投资重点正从集中式云基础设施转向异构分布式架构。企业不再过度依赖超大规模云服务提供商的API,而是通过内部服务生命周期管理(SLM)实现自主性。技能发展重点在于模型微调、边缘部署和混合编排。
自建还是购买的决策正在发生转变。过去购买API访问权限被认为是合理的,但如今开发内部专用的服务生命周期管理(SLM)系统正变得越来越有吸引力。从三到五年的总体拥有成本来看,内部开发模式显然更具优势。战略控制、数据安全性和适应性也进一步增强了其质量优势。
对投资者而言,这种资产配置错配预示着对纯粹的基础设施投资应谨慎。如果需求未能如预期般实现,数据中心房地产投资信托基金(REITs)、GPU制造商和超大规模数据中心运营商可能会面临产能过剩和利用率下降的问题。价值正在向SLM技术、边缘AI芯片、编排软件和专用AI应用提供商转移。
地缘政治层面意义重大。优先考虑国家人工智能主权的国家将从战略主导地位的转变中受益。中国正在投资1380亿美元发展国内技术,欧洲则在人工智能投资领域投入2000亿美元。当绝对规模不再是决定性因素,而智能、高效和专业化的解决方案才是关键时,这些投资将更加有效。多极化的人工智能世界正在成为现实。
监管框架也在同步演进。数据保护、算法问责制、环境标准——所有这些都有利于去中心化、透明化和高效的系统。尽早采用服务级别管理(SLM)和边缘计算的公司,将为未来合规做好准备。
人才格局正在发生转变。过去只有顶尖大学和科技公司才有资源开展LLM(法学硕士)研究,而现在几乎任何组织都可以开发SLM(技能学习硕士)。技能短缺曾阻碍87%的组织聘用人工智能人才,但如今,技能的降低和工具的改进正在缓解这一问题。人工智能支持开发带来的生产力提升进一步增强了这种效应。
我们衡量人工智能投资回报率的方式正在发生转变。过去关注原始计算能力,如今任务效率正成为核心指标。企业报告的人工智能项目平均投资回报率仅为 5.9%,远低于预期。其原因往往在于为简单问题使用规模过大、成本过高的解决方案。转向任务优化的软件生命周期管理 (SLM) 可以显著提高投资回报率。
分析揭示了人工智能行业正处于转折点。570亿美元的错误投资不仅仅是对需求的过高估计,更代表着对人工智能架构的根本性战略误判。未来不属于中心化的巨头,而属于去中心化、专业化、高效的系统。小型语言模型并不逊色于大型语言模型——在绝大多数实际应用中,小型语言模型甚至更胜一筹。经济、技术、环境和战略方面的论证都指向一个明确的结论:人工智能革命将是去中心化的。
权力从提供商转移到运营商,从超大规模数据中心转移到应用开发商,从集中式架构转移到分布式架构,标志着人工智能演进进入了一个新阶段。那些及早认识到并接受这一转变的人将成为赢家。而那些固守旧逻辑的人,其昂贵的基础设施则可能沦为搁浅资产,被更灵活、更高效的替代方案所取代。这570亿美元的投入不仅白白浪费,更标志着一个早已过时的范式走向终结的开始。
您的全球营销和业务发展合作伙伴
☑️我们的业务语言是英语或德语
☑️ 新:用您的国家语言进行通信!
我很乐意作为个人顾问为您和我的团队提供服务。
您可以通过填写此处的联系表,或者直接致电+49 89 89 674 804 (慕尼黑)。我的电子邮件地址是: wolfenstein ∂ xpert.digital
我很期待我们的联合项目。
☑️ 为中小企业提供战略、咨询、规划和实施方面的支持
☑️ 创建或调整数字战略和数字化
☑️国际销售流程的扩展和优化
☑️ 全球数字 B2B 交易平台
☑️ 先锋业务发展/营销/公关/贸易展览会
🎯🎯🎯 受益于 Xpert.Digital 全面的五重专业知识和全面的服务包 | BD、研发、XR、PR 和数字可视性优化
Xpert.Digital 对各个行业都有深入的了解。 这使我们能够制定量身定制的策略,专门针对您特定细分市场的要求和挑战。 通过不断分析市场趋势并跟踪行业发展,我们可以前瞻性地采取行动并提供创新的解决方案。 通过经验和知识的结合,我们创造附加值并为客户提供决定性的竞争优势。
更多相关信息请点击这里:




























