网站图标 Xpert.Digital

中国与DeepSee | 人工智能:一种新架构如何颠覆芯片市场

中国与DeepSeek | 人工智能:数十亿美元的投资毫无用处?一种新的架构如何颠覆芯片市场

中国与DeepSeek | 人工智能:数十亿美元的投资毫无用处?一种新的架构如何颠覆芯片市场——图片来源:Xpert.Digital

反噬效应:美国制裁如何促成中国人工智能突破

29.4万美元而非1亿美元:DeepSeek价格战的真相

中国人工智能公司DeepSeek的最新成果引发了人们对人工智能未来走向的根本性思考。该公司于2025年12月底发布了一种名为“流形约束超连接”(Manifold-Constrained Hyper-Connections)的全新训练方法,该方法有望重塑整个行业格局。当西方科技巨头斥资数千亿美元建设庞大的数据中心和专用芯片时,DeepSeek却展示了一条基于架构复杂性而非单纯资本投入的替代路径。这一进展可能会动摇人工智能行业的经济基础,并开启一场变革:成败不再取决于资源的多少,而是取决于工程技术的专业水平。.

中国的做法并非出于选择,而是出于无奈。美国的出口限制使得中国企业无法获得英伟达最强大的AI芯片。起初看似战略劣势的局面,最终却加速了替代性发展路径的出现。DeepSeek必须在硬件资源有限的情况下实现最佳性能,由此创造出的方法如今挑战着整个行业的成本结构。2025年1月发布的R1型号,其性能足以媲美美国顶级产品,但开发成本却低得多,这在股市引起了巨大震动,并迫使全球分析师重新审视他们的估值模型。.

与此相关:

从超连接到数学稳定性

DeepSeek 新技术的技术基础在于人工智能网络技术的进一步发展。传统神经网络使用所谓的残差连接——一种信息在网络层之间传递的“捷径”。这些连接能够防止学习信号在传递过程中衰减,从而实现更深层次网络的训练。DeepSeek 的“超连接”扩展了这一概念,拓宽了层间的信息流,并允许更灵活的模式。这带来了性能的提升,但也存在一个关键缺陷:额外的复杂性会降低稳定性,因为信息传递的可靠性不如传统连接。.

传统的捷径机制使得信息在网络中传输时基本保持不变,从而保证了训练的稳定性。而新型的超连接虽然牺牲了这一特性以换取更强大的学习能力,但却导致大型模型训练时出现显著波动。DeepSeek 在实验中观察到,大约经过 12,000 次训练后,错误率意外上升——这是模型不稳定的明显迹象。学习过程的控制信号呈现混沌状态,使得模型扩展到更强大的版本几乎不可能。与此同时,由于需要在内存和处理器之间传输更多信息,更宽的连接也增加了数据流量。.

DeepSeek 的解决方案将这些复杂的连接投影到一个受控的数学空间(“流形”)中,该空间具有固定的规则。这种数学技巧在恢复稳定性的同时,也保留了更丰富的信息交换带来的优势。该空间由特殊的矩阵定义,矩阵中的值相互平衡以维持整体稳定性。虽然这种约束听起来很技术性,但它具有深远的实际意义:它保证了信号在网络中传输时既不会丢失也不会不受控制地增长。.

使用包含 270 亿个参数的模型进行的实践试验证实了其有效性。标准超连接和稳定超连接的性能均优于基线模型,但稳定超连接始终取得最佳结果。训练稳定性显著提高。标准模型在 12000 步后出现明显的 dropout,而新方法的训练过程平稳,且与稳定基线模型的行为高度一致。整个过程中学习信号始终保持在正常范围内,表明稳定性问题已得到根本解决。.

性能提升并非没有代价,但代价却出乎意料地适中。与标准方法相比,该方法仅增加了约 6.7% 的计算量。与巨大的性能提升相比,这点额外的计算量微不足道,使得该方法成为当前研究中最有效的策略之一。DeepSeek 还实施了严格的基础设施优化,以降低数据传输路径的负载。这些优化至关重要,因为对于大型模型而言,瓶颈往往并非计算能力本身,而是内存和处理器之间的数据传输速度。.

与此相关:

新闻标题背后的经济现实

从一开始,围绕DeepSeek成本的公开讨论就充满了误解。2025年1月,该公司发布R1模型时,流传的数据显示,V3基础模型的训练成本不到600万美元。这经常被拿来与OpenAI的GPT-4的预计一亿美元成本进行比较,给人一种DeepSeek成本优势高达25倍的错觉。2025年9月,DeepSeek在《自然》杂志上发表文章称,R1的训练成本仅为29.4万美元。这一数字再次成为媒体报道的焦点,并强化了人们对DeepSeek成本优势巨大的认知。.

然而,更深入的分析揭示了更为复杂的情况。这29.4万美元仅指所谓的训练后阶段,即通过实践和反馈对已具备智能的模型进行完善。仅计算时间一项,实际总成本就超过587万美元,此外还有约5100万美元的硬件投资。这些数字还不包括研究、数据准备、人员和失败实验的成本。考虑到这些因素,实际开发成本虽然低于西方同类项目,但远未达到人们常说的惊人数字。.

人工智能开发的成本结构本身就难以把握。OpenAI从未公布过GPT-4的具体成本数据。人们经常引用的1亿美元估算值来自Sam Altman,他在2023年曾表示,基础模型的训练成本要高得多。而对于GPT-4o等较新的模型,类似的估算表明,由于专业专家网络、更高效的方法和优化的基础设施等现代技术的应用,成本已大幅下降。一些分析认为,GPT-4o的训练成本在500万至1600万美元之间,这意味着它与DeepSeek的成本差距远小于公众的认知。.

尽管如此,DeepSeek 的成就依然令人瞩目。该公司在两个月的时间里,使用 2048 颗 H800 芯片,累计近 280 万 GPU 小时的训练时间,成功训练了其 V3 模型。H800 是英伟达 H100 的中国市场限速版本,其数据传输速率大幅降低,以符合美国出口管制条例。这些芯片的性能远逊于西方数据中心使用的原版芯片,甚至比更新的 Blackwell 处理器还要弱。DeepSeek 能够利用如此有限的硬件资源开发出具有竞争力的模型,这才是真正的突破所在。.

“专家混合”架构发挥着核心作用。DeepSeek V3 总共拥有 6710 亿个参数,但每次单词计算仅激活 370 亿个参数。这意味着每次查询实际只有模型的一小部分在运行。该模型由众多专业化的“专家”和一个共享知识库组成,每个步骤仅选择少数专家参与。这种设计使得在不成比例增加计算成本的情况下,大幅提升模型的知识量成为可能。每位专家都可以专注于特定领域,从而带来更佳的性能和更高的效率。.

这种专家方法的挑战在于负载均衡。如果某些专家始终处于高需求状态,而其他专家则处于闲置状态,就会出现效率问题。传统方法使用所谓的“惩罚函数”来强制模型平等地利用所有专家。然而,这种方法通常会导致答案质量下降,因为最佳专家并非总是被选中。DeepSeek 实现了一种巧妙的负载均衡策略,无需此类人为惩罚,即可确保专家资源的均衡利用,同时又不影响答案质量。这项创新对于模型的成功扩展至关重要。.

中国创新的战略要务

DeepSeek 的发展离不开地缘政治背景。2022 年 10 月,美国大幅收紧了对中国人工智能芯片和制造设备的出口管制。这些措施旨在限制中国开发先进人工智能系统及其军事应用的能力。英伟达被迫开发专门针对中国市场定制的芯片。A800 和 H800 应运而生,它们是顶级型号的缩减版,速度略有降低,刚好符合美国的出口限制。.

2023年,美国再次收紧管控,甚至连这些临时解决方案也未能通过。与此同时,高性能内存(现代人工智能芯片的关键组件)的出口也受到限制。这些措施迫使中国企业开发替代方案,或转而使用老旧、效率较低的硬件。华为这家曾经的全球电信巨头,实际上被切断了获取西方芯片技术的渠道,被迫自主研发解决方案。虽然华为昇腾处理器的单芯片性能远不及英伟达,但其庞大的产量可以部分弥补这一不足。.

生产数据凸显了这一挑战。华为预计到2025年将生产约20万颗AI芯片,而同期中国已合法进口了约100万颗经过改造的英伟达芯片。此外,性能差距还在不断扩大。分析显示,目前美国最好的芯片性能约为华为最佳产品的五倍,预计到2027年,这一差距将显著扩大。即使华为大幅提高产量,到2027年,其计算能力仍远不及英伟达在全球范围内提供的水平。.

这些限制迫使中国开发者大幅提升效率。DeepSeek创始人梁文峰很早就意识到了这一点,早在2021年,也就是管控措施收紧之前,就购入了一万块英伟达A100 GPU。这项具有前瞻性的投资使DeepSeek相对于后来只能使用性能较差硬件的竞争对手获得了至关重要的优势。这位前对冲基金经理运用了他在金融领域取得成功的战略远见。他旗下的High-Flyer基金管理着数十亿美元的资产,是当时中国技术最先进的金融公司之一。.

2023年7月,DeepSeek的创立不仅仅是一次实验。梁志强将通用人工智能的发展视为本世纪的关键技术项目,并希望让中国走在时代前沿。他在一次采访中解释说,由于市场正在经历根本性的变革,年轻的人工智能创业公司更有能力与老牌企业竞争。他认为,决定性因素不在于墨守成规,而在于灵活适应和应对变化的能力。.

这种理念体现在DeepSeek的开发方法中。从一开始,公司就致力于在资源有限的情况下取得最佳成果。当OpenAI和Anthropic等西方公司斥资数十亿美元打造规模越来越大的模型和庞大的数据中心时,DeepSeek则专注于优化架构、训练和应用,以提高效率。R1模型出色地展现了这一策略。它在数学任务上取得了与美国顶尖模型相媲美的成果,但其架构所需的计算能力却显著降低。.

 

借助“托管人工智能”(人工智能)实现数字化转型的新维度——平台及B2B解决方案 | Xpert咨询

“托管式人工智能”开启数字化转型新篇章——平台及B2B解决方案 | Xpert Consulting - 图片来源:Xpert.Digital

在这里,您将了解到您的公司如何快速、安全地实施定制化的人工智能解决方案,且无需承担过高的准入门槛。.

托管式人工智能平台是您实现人工智能的全方位、无忧解决方案。您无需处理复杂的技术、昂贵的基础设施和漫长的开发流程,即可从专业合作伙伴处获得根据您的需求量身定制的现成解决方案——通常只需几天时间。.

主要优势一览:

⚡ 快速实施:从构思到可立即使用的应用,只需几天而非几个月。我们提供切实可行的解决方案,创造即时附加值。.

🔒 最高数据安全保障:您的敏感数据始终由您掌控。我们保证安全合规地处理您的数据,绝不与任何第三方共享。.

💸 无财务风险:您只需为结果付费。完全无需前期投入大量资金用于硬件、软件或人员。.

🎯 专注于您的核心业务:集中精力做好您最擅长的事情。我们将负责您人工智能解决方案的全部技术实施、运营和维护。.

📈面向未来且可扩展:您的AI将与您一同成长。我们确保持续优化和可扩展性,并灵活调整模型以适应新的需求。.

更多信息请点击这里:

 

人工智能主导地位的终结:一家初创公司如何挫败英伟达和OpenAI的计划

系统性混乱和市场反应

DeepSeek R1于2025年1月发布,其带来的冲击远远超出了技术圈。股市对此反应强烈,那些在人工智能基础设施领域投入巨资的公司纷纷遭受损失。英伟达的估值很大程度上基于对其昂贵芯片需求将持续爆炸式增长的预期,其股价在短短几天内便大幅下跌。投资者质疑,如果一家中国初创公司能够以远低于英伟达的投入取得类似的成果,那么英伟达宣布的数千亿美元巨额投资是否真的必要。.

中国科技巨头的反应迅速而果断。字节跳动、腾讯、百度和阿里巴巴大幅降低了人工智能服务的价格。字节跳动的豆宝模式同比降价近99%。这些降价措施导致使用量激增。短短几个月内,日查询量就从1200亿次飙升至超过5000亿次。鉴于中国人工智能服务市场的整体规模相对较小,考虑到其巨大的使用量,利润空间可能非常有限。.

这些数据揭示了一个问题:竞争的焦点正从人工智能的质量转向基础设施的效率和价格。尽管如此,中国市场领导者阿里云仍宣布将在人工智能基础设施方面投资数十亿美元。字节跳动也计划大规模采购芯片。腾讯在芯片采购方面稍显落后,但它正通过租赁计算能力和使用DeepSeek的高效技术来弥补这一不足。.

市场整合正在加速。专家预测,中国人工智能供应商领域最终将缩减至少数几家主要企业。能够将性能与实际应用相结合,使自身技术成为行业标准的企业将成为赢家。这一过程与其他技术领域的发展类似,即在经历一段快速创新期后,市场将进入整合期,只有那些在技术、规模和市场力量方面拥有最佳组合的企业才能生存下来。.

类似的趋势正在西方上演。OpenAI 的主导地位正在明显减弱。ChatGPT 的市场份额大幅下降,而 Google Gemini 则不断蚕食市场份额。这种变化不仅仅是统计上的波动,它表明“先发优势”正在减弱,而拥有成熟平台的竞争对手正在迎头赶上。谷歌可以将人工智能直接集成到搜索和安卓系统中,这使其相对于纯粹的人工智能提供商而言具有结构性优势。.

定价也反映了这种动态。像Anthropic和OpenAI这样的西方供应商也降低了价格,并推出了更高效的模型变体。过去两年,每百万字的处理价格大幅下降。这一发展表明,人工智能正在成为大众市场商品。一旦多家供应商提供类似的质量,价格将成为决定性因素,这将降低利润,并使规模变得更加重要。.

与此相关:

推理革命的局限性

与效率提升同步,一项看似下一个重大突破的进展也随之出现。所谓的“推理模型”需要更多时间思考问题,并逐步推演解题过程,最终取得了令人瞩目的成果。OpenAI 的 o1、DeepSeek 的 R1 以及类似的模型在数学和编程方面展现了强大的能力。其理念很简单:如果给予模型更多时间“思考”,并允许它构建解决方案,那么答案的质量就会有所提升。.

然而,2025年6月,苹果公司发布的一项研究揭示了这些模型的局限性。研究人员用难度可精确控制的逻辑谜题测试了最先进的模型。结果令人担忧:这些模型表现出矛盾的行为。它们的处理能力最初会随着谜题复杂度的增加而增加,但到了某个阶段,即使有足够的时间,处理能力也会下降——而且最终给出的答案也变得错误。.

该研究确定了三个阶段。对于简单问题,常规语言模型通常比“思考”模型更好、更经济。对于中等难度的问题,思考过程展现出明显的优势。然而,对于高度复杂的问题,两种模型都彻底失效。它们不仅勉强失败,而且根本无法找到哪怕是勉强正确的解决方案。.

尤其令人担忧的是,即使提供了正确的解题公式也几乎无济于事。这些模型在难度相近的题目上仍然会失败。这表明问题根源更深:这些模型难以严格执行逻辑步骤,也难以检验自身的推理过程。.

对“思维协议”的分析揭示了一些模式。对于简单的问题,模型能够很快找到解决方案,但随后却会继续深入不必要的细节。面对高度复杂的问题,它们常常会迷失方向。超过一定难度后,它们就完全无法生成正确的解决方案。它们常常固守早期错误的想法,浪费计算时间来证明这些想法的合理性,而不是纠正错误。.

另一项研究警告说,这些模型的改进可能很快就会停滞不前。虽然它们由于大量的计算资源而在测试中取得了更好的成绩,但这同时也导致它们运行缓慢且成本高昂。其经济后果十分显著:“思考型”模型的运行成本是标准版本的数倍。如果这些模型未能带来预期的突破并达到其极限,那么高额投资是否合理就成了问题。研究发现,更简单的模型往往效率更高,这表明未来需要更精准地选择最适合特定任务的工具。.

与此相关:

基础设施建设竞赛和能源需求

尽管软件效率不断提高,但数据中心行业的资源消耗却在持续增长。预测显示,到本十年末,数据中心的电力需求将大幅上升。人工智能应用在全球数据中心电力消耗中所占的份额可能会翻一番。为了满足这一需求,全球范围内正投入巨资——数万亿美元。OpenAI 的“星门”(Stargate)及其合作伙伴,以及欧洲的投资项目等举措,都体现了这一挑战的严峻性。.

区域分布格局正在发生变化。虽然亚洲和北美目前处于领先地位,但大部分新增产能将建在美国。欧洲也计划进行大规模扩建,这可能会显著增加欧洲大陆的电力需求。.

与此同时,数据中心的功率密度也在不断提高。由于人工智能芯片在狭小的空间内会产生大量的热量,冷却正成为一项日益严峻的挑战。传统的空调系统往往已无法满足需求,因此需要采用复杂的液冷系统,而这些系统本身也价格昂贵且结构复杂。.

市场已显露出过热迹象。数据中心利用率不断提高,推高了价格。预计在更多建设项目竣工或人工智能需求增长放缓之前,这种情况不会缓解。然而,如果像DeepSeek这样的高效方法得到广泛应用,对新建数据中心的需求可能会低于预期。这将使计划中的大规模投资受到质疑,并导致产能过剩——这对任何押注硬件需求持续增长的人来说都是一个风险。.

国家战略与技术主权

DeepSeek的发展与中国追求自主的战略密切相关。五年规划将半导体产业列为优先发展领域,中国正全力以赴地推进芯片自给自足。新的监管政策迫使中国芯片制造商更多地使用国产设备。一家国有基金正在向中国本土芯片产业投资近500亿美元,以减少对西方的依赖。.

这项政策正在产生影响,尽管在某些情况下并未达到预期效果。此前,中国工厂倾向于使用美国设备。然而,由于美国的制裁,他们别无选择,只能与国内供应商合作,这加速了国内设备的发展。中国可能很快就能控制全球汽车和家用电器等简单芯片生产的大部分份额。.

然而,在顶级人工智能领域,差距依然显著。华为的芯片在性能上无法与英伟达的芯片匹敌,而且产量也远远不够。即使大幅提高产量,也需要数年时间才能弥补这一差距。由于计算能力的需求增长速度超过了中国产能的增长速度,这种短缺状况只会愈演愈烈。.

这就需要创造性的解决方案。DeepSeek的成功也得益于其及时收购英伟达芯片。其他公司则诉诸走私渠道或间接手段。政府正在采取应对措施,例如限制稀土元素出口和对西方科技公司展开调查。中国企业面临的压力越来越大,即使国产芯片在技术上不如国际芯片,也必须购买国产芯片。.

监管环境和全球治理

当中美两国在科技领域展开激烈竞争时,欧盟则将重点放在监管上。《人工智能法》是全球首部全面的人工智能法律。该法禁止高风险应用,并对功能强大的人工智能模型制定了严格的规则。违规者将面临巨额罚款。.

欧洲模式力求在不扼杀创新的前提下制定道德标准。批评者担心这会对欧洲企业造成不利影响,而支持者则认为这在信任和安全方面具有长远优势。然而,在全球范围内,监管仍然呈现出碎片化的特点。美国依赖自愿承诺,而中国则优先考虑国家控制。这种碎片化使得建立共同标准变得困难。.

人工智能安全问题日益受到关注。专家警告称,超人类智能会带来风险。实现“通用人工智能”(AGI)的时间已经缩短。领先的开发人员不再谈论数十年,而是几年。这究竟是现实还是仅仅是营销炒作,还有待观察,但整个行业正在为此做准备。.

失败的模式和战略调整

DeepSeek的后续模型R2的延迟发布表明,成功并非唾手可得。该模型原计划更早发布,但却遭遇了诸多问题。尽管华为工程师提供了协助,但尝试在华为芯片上训练该模型的尝试显然以失败告终。.

因此,该公司继续使用其现有的英伟达股票进行训练,但在模型应用方面却越来越依赖华为——这是一种出于政治考量的妥协。由于竞争对手并未袖手旁观,这些延迟导致用户兴趣一度暴跌。.

另一个问题是数据。要达到更高水平,需要更多更好的训练数据。在英语国家,这些数据很容易在网上找到。但在中国,获取高质量数据则更加困难,部分原因是审查制度,部分原因是很多内容不公开。再加上硬件条件落后,这会减缓开发速度。如果训练时间更长、难度更大,成本优势就会降低。.

人工智能行业的结构性变革

行业正面临变革。以往“越多越好”的信条——更多的数据、更多的芯片、更多的资金——正接近极限,或变得过于昂贵。DeepSeek 已经证明,智能架构比原始性能更为重要。.

这对投资者来说意义重大。那些在硬件上投入数十亿美元的投资者可能会面临困境,因为更高效的软件会降低市场需求。与此同时,新进入者也获得了机会,因为参与其中不再需要巨额资金。.

随着人工智能性能变得越来越便宜且越来越接近,模型本身不再是唯一因素;关键在于它与产品的集成程度。谷歌和微软在这方面具有优势,因为它们已经拥有庞大的用户群。纯粹的人工智能初创公司则面临着更大的挑战。开源软件,或者说免费软件,正在发挥着越来越重要的作用。像DeepSeek或Meta这样的模型对所有人开放,这加速了创新。.

与此同时,投资者们也在关注资金何时才能回流。ChatGPT拥有众多用户,但价格昂贵,距离实现巨额利润还很遥远。人工智能专家的新工作岗位正在劳动力市场涌现,而一些简单的办公任务也正在被自动化——这是一个社会挑战,目前尚无简单的解决方案。.

人工智能热潮过后:真正的盈利之战才刚刚开始。

DeepSeek的创新标志着一个转折点。它们证明,即使资源有限,也能打造世界一流的技术。这挑战了只有最富有的美国公司才能获胜的假设。它将竞争的焦点从“谁最有钱?”转移到了“谁拥有最优秀的工程师?”.

从地缘政治角度来看,制裁显然会减缓发展进程,但也能推动创新。中国正在压力下打造自己的人工智能产业。从经济角度来看,我们才刚刚起步。价格正在下降,人工智能模型正逐渐成为日常用品。未来想要取得成功,不仅要开发出优秀的人工智能,还要能够利用人工智能盈利。.

技术难题依然存在。现有方法已接近极限,我们能否在短期内真正见到类人智能尚不明朗。未来几年将见证该行业能否克服这些障碍,还是热度最终会消退。或许DeepSeek最重要的教训并非技术层面,而是战略层面:即使被迫另寻他路,也总能找到其他方法。.

 

您的全球营销和业务拓展合作伙伴

☑️ 我们的业务语言是英语或德语。

☑️ 新增:用您的母语进行通信!

 

Konrad Wolfenstein

我和我的团队很乐意为您提供私人顾问服务。.

您可以通过填写此处的联系表格联系我wolfenstein@xpert.digital,或者直接致电+49 7348 4088 965。我的邮箱地址是

我期待着我们的合作项目。.

 

 

☑️ 为中小企业提供战略、咨询、规划和实施方面的支持

☑️ 制定或调整数字化战略和数字化

☑️ 拓展和优化国际销售流程

☑️ 全球及数字化 B2B 交易平台

☑️ 先锋业务拓展/市场营销/公关/展会

 

🎯🎯🎯 Xpert.Digital 提供五大领域的综合服务,助您轻松实现目标 | 业务拓展、研发、体验式研究、公关及数字曝光优化

利用 Xpert.Digital 五大领域的专业知识,享受全面的服务套餐 | 研发、XR、公关和数字曝光优化 - 图片:Xpert.Digital

Xpert.Digital 拥有跨行业的深厚知识。这使我们能够制定量身定制的策略,精准契合您特定细分市场的需求和挑战。通过持续分析市场趋势和监测行业发展动态,我们能够积极主动地提供创新解决方案。丰富的经验和专业的知识相结合,能够创造附加值,并为我们的客户带来决定性的竞争优势。.

更多信息请点击这里:

离开移动版