人工智能芯片炒作与现实:数据中心的未来——内部开发与市场饱和
Xpert 预发布
语言选择 📢
发布日期:2025 年 10 月 7 日 / 更新日期:2025 年 10 月 7 日 – 作者: Konrad Wolfenstein
英伟达的垄断地位岌岌可危:科技巨头开启芯片战争新阶段——数十亿美元的AI芯片博弈
数据中心的大决战:内部开发遭遇即将到来的市场饱和
人工智能领域正经历着前所未有的繁荣,其驱动力在于对计算能力似乎永无止境的需求。这场炒作的核心是人工智能芯片,尤其是市场领导者英伟达的GPU,它们已成为数字时代的黄金。然而,在幕后,一场战略转变正在发生,这可能会重塑整个科技行业的权力结构。这些芯片的最大买家——微软、谷歌和亚马逊等超大规模企业——不再只想成为客户。他们投入了数十亿美元的资金,开发自己的定制半导体,例如微软的Maia、谷歌的TPU和亚马逊的Trainium。
其动机显而易见:削减成本,减少对单个供应商的依赖,并将从芯片到冷却系统的整个基础设施与公司自身的AI模型完美整合。这项最初旨在优化性能的务实商业决策,如今却引发了根本性的竞争,并首次对英伟达的主导地位构成了严峻挑战。然而,随着争夺最强大AI基础设施的“军备竞赛”愈演愈烈,数千亿美元的投资也随之而来,关于AI过热的警告也日益高涨。专家们将其与之前的投机泡沫进行比较,并警告未来几年市场即将饱和,产能过剩。
本文深入探讨了人工智能芯片的炒作,并揭示了其背后的现实:科技巨头为何专注于内部研发?他们在这方面究竟进展如何?当指数级需求突然崩盘,人工智能无限增长的梦想与经济调整的残酷现实发生碰撞时,会发生什么?
适合:
是什么促使超大规模企业开发自己的芯片?
大型云服务提供商(也称为超大规模提供商)正面临一个根本性的战略决策:是继续依赖 Nvidia 和 AMD 等老牌厂商的芯片,还是逐渐转向自主研发的半导体?微软首席技术官 Kevin Scott 最近就此问题进行了探讨,他解释说,微软打算长期主要依赖自家的 Maia 芯片。这一策略并非新鲜事物——谷歌的 TPU 和亚马逊的 Trainium 芯片都已在推行类似的策略。
这一发展的主要原因是成本优化。对于超大规模数据中心运营商来说,性价比才是决定性因素,正如 Scott 所强调的那样:“我们对所使用的芯片并不固执己见。这意味着多年来,Nvidia 一直是性价比最高的解决方案。我们对所有能够确保我们拥有足够产能满足需求的方案都持开放态度。” 这句话明确表明,这并不是对现有供应商的根本拒绝,而是一个务实的商业决策。
开发自己的芯片还能让超大规模数据中心运营商优化其整个系统架构。例如,微软可以使用其 Maia 芯片不仅定制计算能力,还可以根据其特定需求定制冷却、网络和其他基础设施元素。Scott 解释说:“这关乎整个系统的设计。它涉及网络和冷却,你需要拥有自由做出所需决策的自由,从而真正优化工作负载的计算能力。”
各个超大规模企业自身的发展进展如何?
三大云服务提供商正处于开发定制芯片战略的不同阶段。亚马逊网络服务 (AWS) 是该领域的先驱,早在 2018 年就已凭借首款 Graviton 芯片奠定了基础。AWS 目前已推出第四代 Graviton 处理器,专为通用计算工作负载而设计。与此同时,亚马逊也开发了专用的 AI 芯片:用于训练的 Trainium 和用于推断机器学习模型的 Inferentia。
数据证明了这一战略的成功:在过去两年中,Graviton 处理器占据了 AWS 数据中心所有 CPU 容量的 50% 以上。AWS 还报告称,超过 5 万名客户正在使用基于 Graviton 的服务。实际应用尤其令人印象深刻:在 2024 年 Prime Day 期间,亚马逊部署了 25 万块 Graviton 芯片和 8 万块定制 AI 芯片。
谷歌在其张量处理单元(TPU)方面采取了不同的发展路径,早期专注于AI专用硬件。TPU目前已发展到第七代,并由谷歌云独家提供。谷歌最近还推出了其首款基于Arm的通用处理器Axion,据该公司称,该处理器的性能比其他云提供商基于Arm的同类产品高出30%。
微软在这场竞赛中起步较晚。该公司直到 2023 年底才发布首款自主研发的芯片:Azure Maia AI Accelerator 和 Azure Cobalt CPU。Cobalt CPU 自 2024 年 10 月起正式上市,基于 64 位架构,拥有 128 个内核,采用台积电 5 纳米工艺制造。微软声称,Cobalt 的性能比 Azure 中之前基于 Arm 的产品提升高达 40%。
为什么我们自己的芯片不能满足全部需求?
尽管内部开发取得了进展,但所有超大规模计算厂商仍然远未完全依靠自主研发的芯片满足其需求。主要原因是市场规模庞大且需求快速增长。微软的 Kevin Scott 总结道:“说计算能力严重短缺或许是轻描淡写。自 ChatGPT 推出以来,几乎不可能快速扩展计算能力。”
这些数字彰显了挑战的规模:受人工智能需求的推动,到2027年,全球数据中心容量预计将增长50%。仅大型科技公司就计划到2025年在人工智能基础设施上投资超过3000亿美元。以这样的增长速度,仅靠内部芯片开发来满足所有需求几乎是不可能的。
此外,制造方面也存在技术限制。最先进的芯片仅由台积电等少数几家代工厂生产,产能有限。微软、谷歌和亚马逊必须与其他客户共享产能,这限制了他们自有芯片的供应量。另一个因素是开发时间:尽管需求激增,但开发一款新芯片需要数年时间。
因此,超大规模数据中心运营商正在推行一种混合策略。他们针对特定工作负载开发自有芯片,并针对其他用例,搭配英伟达、AMD 和英特尔的芯片进行补充。斯科特解释说:“我们对芯片的名称并不固执己见。我们只追求最佳的性价比。”
定制硅片解决方案具有哪些经济优势?
开发自主芯片的经济效益十分显著。研究表明,对于大型语言模型而言,AWS Trainium 和 Google TPU v5e 的单位令牌成本比高端 NVIDIA H100 集群低 50% 到 70%。一些分析表明,TPU 实现在训练大型语言模型方面的成本效益比 GPU 解决方案高出四到十倍。
这些成本节省源于多种因素。首先,芯片可以根据工作负载的具体需求进行精确定制,从而提高效率。其次,芯片制造商的利润空间被消除,考虑到超大规模数据中心的规模巨大,这可以带来显著的成本节省。第三,垂直整合可以更好地控制整个供应链。
例如,亚马逊报告称,SAP 使用基于 Graviton 的 EC2 实例,将分析工作负载的性能提升了 35%。谷歌声称,通过连续批处理,其 TPU v5e 的单位成本推理吞吐量是上一代 TPU 的三倍。微软声称,其 Cobalt CPU 在 Java 工作负载中的性能提升高达 1.5 倍,在 Web 服务器中的性能提升两倍。
其长期财务影响巨大。数千亿美元的投资,即使是微小的效率提升也能带来巨大的成本节约。专家估计,到2035年,云环境中定制硅片的市场规模可能达到600亿美元。
适合:
芯片市场的竞争形势如何发展?
超大规模厂商日益增长的内部开发正在从根本上改变传统的芯片行业。长期以来一直是AI加速器领域无可争议的市场领导者的英伟达,首次面临着严峻的竞争。科尔尼分析师预测,谷歌的TPU、AWS Trainium和微软的Maia等超大规模厂商开发的芯片解决方案,如果作为内部实现,可能会占据高达15%至20%的市场份额。
这一发展趋势迫使传统芯片制造商重新定位。例如,AMD 正试图凭借其 MI300 系列直接挑战英伟达,同时加强与云服务提供商的合作。英特尔虽然在 AI 芯片领域的地位不那么强,但仍然受益于为超大规模企业定制的至强处理器,AWS 最近发布的 R8i 实例就证明了这一点。
超大规模厂商的不同策略进一步加剧了竞争态势。虽然谷歌的 TPU 仅在内部使用,并通过谷歌云提供,但其他供应商未来也可能将其芯片对外销售。供应商的多元化带来了更良性的竞争,并可以加速创新周期。
地缘政治因素也是一个重要因素。鉴于中美关系紧张,美国超大规模数据中心运营商正加大对自身芯片能力的投资,以减少对亚洲供应商的依赖。与此同时,中国本土的领军企业正在崛起,例如百度及其昆仑芯片。
通过“托管人工智能”(人工智能)开启数字化转型的新维度 - 平台和 B2B 解决方案 | Xpert Consulting
在这里您将了解您的公司如何快速、安全且无高门槛地实施定制化的AI解决方案。
托管 AI 平台是您全方位、无忧的人工智能解决方案。您无需处理复杂的技术、昂贵的基础设施和冗长的开发流程,只需几天时间,即可从专业合作伙伴处获得根据您的需求量身定制的交钥匙解决方案。
主要优势一览:
⚡ 快速实施:从构思到实际应用,只需几天,无需数月。我们提供切实可行的解决方案,创造即时价值。
🔒 最高数据安全性:您的敏感数据将由您自行保管。我们保证数据处理安全合规,不会与第三方共享。
💸 无财务风险:您只需为结果付费。完全无需在硬件、软件或人员方面进行高额的前期投资。
🎯 专注于您的核心业务:专注于您最擅长的领域。我们负责您 AI 解决方案的整个技术实施、运营和维护。
📈 面向未来且可扩展:您的 AI 将与您共同成长。我们确保持续优化和可扩展性,并灵活地调整模型以适应新的需求。
更多相关信息请点击这里:
人工智能热潮与芯片短缺:数据中心泡沫何时到来?
当前的需求趋势对市场意味着什么?
目前,对计算能力的需求,尤其是人工智能应用的需求,正呈指数级增长。英伟达估计,推理模型的响应所需的计算资源比前几代产品高出100多倍。这种发展趋势导致先进芯片和数据中心容量出现结构性短缺。
麦肯锡的分析显示,到2030年,全球对数据中心容量的需求可能增长两倍,年增长率约为22%。在美国,需求甚至可能每年增长20%至25%。预计2030年约70%的需求将来自超大规模企业。
需求的增长正在引发行业范式转变。Synergy Research Group 预测,到 2030 年,超大规模数据中心将控制全球 61% 的数据中心容量,高于目前的 44%。与此同时,本地数据中心的份额将从目前的 34% 下降到 2030 年预计的 22%。
高需求也导致整个供应链出现瓶颈。高带宽内存、CoWoS 等先进封装技术以及专用基板的订单已经提前数月被预订一空。例如,Nvidia 报告称,下一代 Blackwell GPU 的库存已经售罄一年甚至更久。
适合:
产能过剩何时可能发生?
数据中心产能过剩的问题备受争议。许多专家已经发出警告,人工智能泡沫可能比上世纪90年代的互联网泡沫还要大。独立研究公司MacroStrategy Partnership声称,当前的人工智能泡沫比互联网泡沫大17倍,比2008年的房地产泡沫大4倍。
高盛首席执行官大卫·所罗门警告称,由于巨额资金涌入人工智能项目,未来几年股市将出现下跌。他解释说:“我认为,大量投入的资金最终将无利可图,当这种情况发生时,人们的心情会很不好。” 亚马逊首席执行官杰夫·贝佐斯在同一次会议上证实,人工智能行业存在泡沫。
警告信号越来越多:宏观战略合作组织的朱利安·加兰指出,企业对大型语言模型的采用已经开始下降。他还认为,ChatGPT 可能已经“碰壁”,因为最新版本的成本高出十倍,但性能并没有明显优于之前的版本。
另一方面,当前的市场数据显示,需求持续超过供应。世邦魏理仕报告称,2024年初,北美一级数据中心市场的空置率降至2.8%的历史低点。尽管数据中心供应量创下年度最大增幅,但空置率仍保持高位,表明市场基本面依然强劲。
对于可能的市场整合来说,什么时间框架是现实的?
准确预测潜在市场整合的时机极其困难,因为它取决于许多未知因素。然而,分析师们指出了几个市场动态可能发生变化的关键时期。
第一个关键时期是2026年至2027年。多种因素表明,在此期间增长率可能会放缓。超大规模企业已经计划在2026年将投资放缓20%至30%,这表明投资将达到一定饱和状态或需要重新评估。
半导体行业预计,人工智能芯片的需求可能在2026年至2027年间达到第一个平台期。晶圆的年增长率可能从目前的14%至17%正常化至4%左右。这将是产能规划的一个重要转折点。
第二个关键时期是2028年至2030年左右。届时,第一代大规模人工智能基础设施投资可能必须达到回报点。如果到那时还没有开发出足够多的盈利用例,那么市场可能会出现回调。麦肯锡预测,到2030年,数据中心容量的需求将增长两倍,但这些预测是基于对人工智能应用的假设,而这些假设可能会被证明过于乐观。
决定性因素在于人工智能应用能否证明其能够持续盈利。TS Lombard 的 Dario Perkins 警告称,科技公司正在为建设人工智能数据中心而背负巨额债务,而没有考虑回报,因为他们正在争夺资本。这种情况令人想起以往的泡沫,如果回报达不到预期,可能会导致市场回调。
产能过剩会带来什么影响?
数据中心产能过剩将对整个科技行业产生深远的影响。首先,它将导致云服务价格大幅下降。虽然短期内这对客户有利,但可能会严重影响超大规模数据中心运营商的盈利能力,并导致市场整合。
这对就业的影响将是巨大的。到2025年,科技行业已有超过25万名员工受到裁员的影响,而市场调整将加剧这一趋势。数据中心运营、芯片开发及相关行业将受到特别大的影响。
产能过剩对半导体行业来说尤其痛苦。对先进芯片产能的巨额投资可能会被证明是过度的。由于人工智能芯片需求疲软,三星已报告其2025年第二季度利润下降了39%,这可能是未来情况的预兆。
市场整合可能会导致向实力最强的供应商集中。规模较小的云服务提供商和数据中心运营商可能会被规模较大的公司收购,或被迫退出市场。从长远来看,这可能会导致竞争减少,价格上涨。
另一方面,调整也可能带来积极影响。它可以淘汰低效产能,并将资源重新分配到更具生产力的用途。幸存下来的公司可能会更加强大,更具可持续性。此外,整合可以促进标准和互操作性的发展。
公司如何为不同的情况做准备?
鉴于未来市场发展的不确定性,超大规模数据中心运营商和其他公司正在采取各种策略来降低风险。其中最重要的是实现芯片战略的多元化。正如微软首席技术官凯文·斯科特所强调的那样,他们仍然“对所有选项持开放态度”,以确保拥有足够的产能。
微软不仅自主研发芯片,还持续投资与英伟达、AMD 等供应商的合作。这种多供应商战略降低了依赖单一供应商的风险,并使其能够快速响应市场变化。亚马逊和谷歌也采取了类似的策略,尽管它们各自侧重点不同。
另一个重要方面是地域多元化。鉴于北弗吉尼亚等成熟市场存在“邻避效应”,超大规模企业正越来越多地将投资转向二级市场和海外。这不仅降低了成本,也降低了监管风险。
超大规模数据中心运营商也正在加大对能源效率和可持续技术的投资。到2028年,数据中心的能耗预计将翻一番,这既是经济上的需要,也是监管上的当务之急。液体冷却、更高效的芯片和可再生能源正成为数据中心的标准配置。
最后,许多公司正在开发更灵活的商业模式。他们不再仅仅依赖自有资源,而是越来越多地采用与主机托管服务提供商和其他合作伙伴的混合模式。这使得他们能够根据市场情况更快地扩展或缩减容量。
调节因素发挥什么作用?
监管发展可能对数据中心市场的未来发展起到决定性作用。在美国,要求对数据中心能耗进行更严格监管的呼声日益高涨。一些州已开始考虑暂停新建大型数据中心,或实施更严格的测试程序。
环境影响日益受到关注。到2028年,数据中心可能占全球能源消耗的20%,这可能导致更严格的环境法规出台。欧盟已经推出了《气候中和数据中心公约》,已有40多家数据中心运营商加入。
地缘政治紧张局势也对该行业产生了影响。潜在的半导体关税可能会推高芯片成本,并扰乱供应链。这可能会迫使超大规模数据中心运营商重新考虑其采购策略,并更多地依赖区域供应商。
数据保护和数据主权也正成为重要因素。各国要求某些数据在本地处理,这限制了数据中心的全球扩展。这可能导致市场碎片化,并降低规模经济带来的效率提升。
监管也能带来积极的推动作用。可持续技术和可再生能源的投资通常得到政府的支持。此外,监管要求可以促进标准的制定,从而长期提高整个行业的效率。
适合:
在增长与风险之间寻找平衡
数据中心行业正处于一个关键的转折点。微软、谷歌和亚马逊等超大规模企业开发专有芯片,是对标准解决方案成本激增和供应有限的合理应对。这一策略提供了显著的经济优势,并能够更好地控制整个基础设施。
与此同时,产能过剩的风险切实存在,并可能导致2026年至2030年间市场出现大幅调整。从人工智能技术应用放缓,到知名业内人士对泡沫的警告,各种警示信号日益增多。潜在的整合将带来机遇与挑战并存。
行业未来的决定性因素在于,对人工智能基础设施的巨额投资能否实现可持续盈利。超大规模企业正在通过多元化布局、地域扩张和灵活的商业模式,为各种场景做好准备。监管法规的发展,尤其是在环境和能源领域的发展,将进一步加剧复杂性。
对于企业和投资者而言,这意味着他们必须密切关注巨大的增长机遇和巨大的风险。那些能够灵活应对市场变化并持续提升运营效率的企业才能最终胜出。未来几年将证明,当前的扩张是建立在坚实的基础之上,还是泡沫的警告最终应验。
您的全球营销和业务发展合作伙伴
☑️我们的业务语言是英语或德语
☑️ 新:用您的国家语言进行通信!
我很乐意作为个人顾问为您和我的团队提供服务。
您可以通过填写此处的联系表,或者直接致电+49 89 89 674 804 (慕尼黑)。我的电子邮件地址是: wolfenstein ∂ xpert.digital
我很期待我们的联合项目。
☑️ 为中小企业提供战略、咨询、规划和实施方面的支持
☑️ 创建或调整数字战略和数字化
☑️国际销售流程的扩展和优化
☑️ 全球数字 B2B 交易平台
☑️ 先锋业务发展/营销/公关/贸易展览会
我们在业务开发、销售和营销方面的全球行业和经济专业知识
行业重点:B2B、数字化(从AI到XR)、机械工程、物流、可再生能源和工业
更多相关信息请点击这里:
具有见解和专业知识的主题中心:
- 全球和区域经济、创新和行业特定趋势的知识平台
- 收集我们重点领域的分析、推动力和背景信息
- 提供有关当前商业和技术发展的专业知识和信息的地方
- 为想要了解市场、数字化和行业创新的公司提供主题中心