人工智能并不需要完美数据:这个误解会让企业损失数年时间——终结数据迁移神话
语言选择 📢
发布日期:2026年2月20日 / 更新日期:2026年2月20日 – 作者:Konrad Wolfenstein
IT领域一个致命的误解:为什么仅仅依靠数据仓库会阻碍人工智能的突破
无休止的准备工作终于结束了:人工智能如何最终带来真正的附加值
人工智能蕴藏着巨大的潜力,但在商业实践中,它往往沦为昂贵的幻象。原因既简单又致命:企业在不知不觉中将雄心勃勃的人工智能计划变成了耗资巨大的数据迁移项目。最初旨在快速实现可衡量的业务成果的目标,最终演变成一场旷日持久的、对完美数据基础设施和中央数据仓库无缝整合的争夺。数十亿美元投入前期准备,三分之二的企业却仍然停留在试点阶段——真正的价值创造被抛诸脑后。.
本文揭示了为何僵化地坚持“基础设施优先”策略往往会导致失败,以及为何人工智能的成功并不一定需要完整的数据迁移。文章概述了一种亟需的范式转变:那些从具体的业务成果出发进行反向规划并依赖联邦数据访问的人,无需等待耗时数年的大型IT项目完成。本文将介绍如何将数据保留在原地,仅向人工智能提供其所需的特定上下文,并通过有针对性的“快速见效”措施在短时间内取得可衡量的成功。现在是时候将关注点从追求纯粹的数据完美转向务实的人工智能价值创造了。.
与此相关:
摆脱数据陷阱:从结果的角度思考人工智能。
人工智能最大的杀手是数据迁移。
人工智能项目失败的原因通常并非技术本身,而是它们沦为单纯的IT基础设施项目。人们错误地认为整合所有数据是强制性要求。.
从结果出发思考(逆向工程)
与其问如何为人工智能准备所有数据,不如问:人工智能在当下需要哪些具体的数据背景才能带来具体的业务成果?
上下文而非副本(联合访问)
人工智能并不需要整个数据仓库。诸如联邦数据访问、数据虚拟化和检索增强生成(RAG)等技术,使得将数据保留在源系统中,仅在查询时才构建上下文成为可能。这节省了大量时间和成本。.
并行运行而非停滞
长期数据迁移(例如用于报告、历史记录等的 ETL 流程)可以而且可能会继续进行。然而,人工智能项目无需等待这些迁移完成,而是可以并行访问现有的分布式数据。.
敏捷胜过完美主义
试图构建一个全面的数据模式效率低下。面向领域、特定用例的上下文模型(类似于数据网格方法)更有前景。.
“快速取胜”的力量
为了重新赢得利益相关者的信任(这种信任往往已被削弱),人工智能项目必须迅速展现投资回报率 (ROI)。理想的初始用例(高频次、可衡量、现有数据)应在几周内产生切实可见的成果,从而证明后续投资的合理性。.
为什么企业要投入数十亿美元用于基础设施建设,而不是最终创造附加值?
近年来,数字化转型产生了一种贯穿各行各业的悖论模式。企业在人工智能领域投入巨资,但在大多数情况下,实际创造的价值却远低于预期。原因很少在于技术本身,而在于企业采用人工智能的方式。人工智能项目并非着眼于可衡量的业务成果,而是逐渐演变成庞大的数据基础设施项目,这些项目脱离了自身,最终偏离了最初的目标。最初旨在利用人工智能的战略举措,最终往往沦为耗时数年却看不到任何投资回报的数据迁移。.
根据 Gartner 2025 年 12 月的预测,2025 年全球人工智能支出将达到约 1.8 万亿美元,预计到 2029 年将增长至 4.7 万亿美元。与此同时,麦肯锡 2025 年全球人工智能现状调查显示,88% 的受访公司已在至少一项业务职能中使用人工智能,但近三分之二的公司仍处于实验或试点阶段。只有约 6% 的公司被评为所谓的“人工智能高绩效企业”,即其息税前利润 (EBIT) 中超过 5% 的贡献来自人工智能。这些数据表明,流入人工智能领域的资金与最终创造的价值之间存在根本性的差距。分析这种差距揭示了一个远超技术问题的结构性难题。.
基础设施项目如何吞噬了人工智能计划
乍看之下,导致企业陷入这种困境的逻辑链条似乎合情合理。人工智能需要数据。数据分散在众多系统中。因此,需要进行整合。整合需要迁移。迁移需要转型。转型需要治理。治理需要数据质量计划。这条链条上的每一个决策单独来看都合情合理。但综合起来,它们却将人工智能项目变成了一个数据基础设施项目,需要数年时间才能看到任何人工智能成果。.
这一现象在数据中体现得尤为明显。根据 Caylent 发布的《2025 年数据迁移报告》,仅有 6% 的受访公司表示按时完成了最复杂的迁移项目。近一半的受访者在关键迁移过程中经历了超过 5 小时的停机时间,导致客户体验问题、收入损失和运营延误。对 500 多家公司评价的分析显示,约 73% 的数据迁移项目失败的原因是规划不足、管理漏洞以及缺乏平台相关的专业知识。平均延误 150% 并非个例,而是常态。.
这些迁移项目会形成自身独特的动态。它们会吸引专门的团队,制定自身的关键绩效指标 (KPI),并获得董事会层面的支持,这些支持者将自身声誉押注于项目的完成。最初的 AI 应用案例被推迟到下一阶段,然后推迟到迁移后的时期,最终悄然从规划讨论中消失。没有人预料到会出现这种情况。它源于无数个看似合理的小决策,但这些决策加在一起,却导致了资源和注意力的战略性错配。.
一个典型的场景说明了问题所在。季度业务回顾会议像过去两年一样开始。数据转型团队汇报了进展情况。迁移工作已完成73%。六个领域的数据质量指标均有所提升。数据仓库架构通过了最近一次的审计。执行发起人对里程碑图表表示赞许。这时,有人问出了大家一直回避的问题:人工智能何时上线?一片沉默。有人提到了第二阶段。有人指出了各种依赖关系。原本承诺在18个月内实现人工智能驱动的洞察的时间表,如今却成了数据基础设施项目的一个脚注,这个项目仿佛有了自己的生命。.
耗资十亿美元却尚未完成的准备工作
这个问题的经济影响不容忽视。Gartner预测,到2026年底,缺乏人工智能就绪数据的组织将面临超过60%的人工智能项目失败或被放弃的局面。《哈佛商业评论》指出,人工智能项目的总体失败率高达80%,几乎是未涉及人工智能的IT项目失败率的两倍。标普全球市场情报公司2025年的一项调查显示,42%的公司已经放弃了大部分人工智能项目,这一比例较前一年的17%大幅上升。平均而言,各组织在人工智能概念验证项目投入生产之前,就放弃了其中46%。.
Gartner预测,至少30%的生成式人工智能项目会在概念验证阶段后因数据质量差、风险控制不足、成本不断攀升或商业价值不明确而被放弃。Informatica发布的《2025年首席数据官洞察调查》明确指出,人工智能成功面临的最大障碍是:数据质量和成熟度不足(43%)、技术成熟度不足(同样为43%)以及熟练人才短缺(35%)。.
这些数据凸显了许多组织普遍存在的一个根本性误解。问题不在于人工智能应用案例失败,而在于数据迁移本身已成为任务,而非实现目标的手段。将所有数据整合到中央数据仓库本身已成为最终目的,而最初的业务价值却被忽略了。与此同时,对人工智能就绪数据的投资却呈爆炸式增长。Gartner 预测,人工智能数据市场将从 2024 年的 1.34 亿美元增长到 2029 年的 146 亿美元,复合年增长率高达 155%。资金正源源不断地涌入,但如果将数据供应视为一个整体式的准备项目,而不是一个迭代过程,那么资金的流向就完全错误了。.
要从结果的角度思考,而不是从基础设施的角度进行规划。
另一种方法从一个截然不同的问题入手。与其问如何为人工智能准备数据,不如问人工智能需要什么样的环境才能实现特定的业务成果。这种视角上的转变改变了整个项目架构。.
大多数人工智能应用场景只需要来自三到五个系统的上下文信息,而不是完全迁移的数据组合。上下文需求各不相同。例如,用于合同分析的人工智能需要合同、修订、当事方和义务信息,但不需要整个数据仓库。用于客户服务的人工智能需要交互历史记录、产品数据和案例管理记录,但不需要每个源系统中的所有表。.
所需的最小数据路径几乎总是比迁移项目的范围更窄。迁移针对所有可以预见的未来查询进行了优化。而人工智能则需要在当下针对特定用例提供合适的上下文。这两种需求本质上截然不同,而将它们混为一谈正是基础设施项目吞噬人工智能计划的根本原因。.
从人工智能的运行结果反向推导,我们常常会发现所需的数据其实已经存在,无需迁移。关键在于将数据连接起来,根据具体用例进行组织,并在运行时使其可用。高效的人工智能数据管理始于这一认识:首先定义结果,然后找到通往实现该结果的上下文的最简路径。.
🤖🚀 托管式 AI 平台:借助 UNFRAME,实现更快、更安全、更智能的 AI 解决方案
在这里,您将了解到您的公司如何快速、安全地实施定制化的人工智能解决方案,且无需承担过高的准入门槛。.
托管式人工智能平台是您实现人工智能的全方位、无忧解决方案。您无需处理复杂的技术、昂贵的基础设施和漫长的开发流程,即可从专业合作伙伴处获得根据您的需求量身定制的现成解决方案——通常只需几天时间。.
主要优势一览:
⚡ 快速实施:从构思到可立即使用的应用,只需几天而非几个月。我们提供切实可行的解决方案,创造即时附加值。.
🔒 最高数据安全保障:您的敏感数据始终由您掌控。我们保证安全合规地处理您的数据,绝不与任何第三方共享。.
💸 无财务风险:您只需为结果付费。完全无需前期投入大量资金用于硬件、软件或人员。.
🎯 专注于您的核心业务:集中精力做好您最擅长的事情。我们将负责您人工智能解决方案的全部技术实施、运营和维护。.
📈面向未来且可扩展:您的AI将与您一同成长。我们确保持续优化和可扩展性,并灵活调整模型以适应新的需求。.
更多信息请点击这里:
从数据完美主义到人工智能实用主义:阻碍你投资回报率的认知偏差
联邦数据访问作为一种架构替代模型
无需数据迁移的AI并非捷径。它是一种不同的架构,反映了AI在生产环境中实际运行的方式。这种方法有三个基本原则。.
首先,联合访问将人工智能与数据所在的源系统连接起来,无需事先集中存储。CRM 数据保留在 CRM 系统中,文档保留在文档库中,运营数据保留在 ERP 系统中。人工智能层无需等待同步即可访问所有这些数据。联合数据访问将数据保留在其原始位置,利用虚拟化技术提供统一的视图,并支持按需实时洞察。与数据仓库(数据需要物理移动到中心位置)不同,联合访问消除了数据重复带来的风险和成本,并提高了运营效率。.
其次,针对特定用例的上下文模型定义了每个人工智能应用的具体需求。系统并非构建试图涵盖所有情况的通用模式,而是定义与每个具体用例相关的实体、关系和信号。这一原则与数据网格架构的概念相契合,在数据网格架构中,面向领域的团队独立管理各自的数据,并维护反映特定业务需求的定制化治理标准。.
第三,运行时组装是在决策时刻而非通过批处理管道预先组装上下文。当人工智能需要回答问题时,它会从所有来源(无论上下文位于何处)编译相关上下文。没有同步延迟,没有过时的快照,数据始终保持最新,按需组装。随着检索增强生成(RAG)技术的普及,这一原则已臻于成熟。RAG架构使人工智能系统能够在查询时刻检索相关的外部信息并将其嵌入上下文,而不是仅仅依赖预训练知识。到2026年中期,超过66%的企业生成式人工智能实现将采用RAG架构。.
这种架构的实际应用已在真实的企业环境中得到充分体现。例如,SAP 的联邦机器学习库利用 SAP Datasphere 的数据联邦架构,无需复制或移动数据,即可智能地将 SAP 和非 SAP 数据用于机器学习。像 Downer 这样的公司(澳大利亚最大的综合服务提供商之一)已经部署了一个联邦数据和人工智能平台,该平台将去中心化的敏捷性与集中化的治理相结合,使业务部门能够在无缝、安全地共享企业数据的同时,独立地进行创新。.
数据虚拟化和批处理比较
通过数据虚拟化实现联合访问和传统的基于 ETL 的整合并非非此即彼的选择,而是取决于具体工作负载的需求。数据虚拟化在查询较小规模的分布式数据集时响应速度更快。然而,随着数据量的增长和转换需求的日益复杂,ETL 能够利用预定义的转换规则处理大型数据集,因此效率更高。.
数据虚拟化的根本权衡在于,它以逻辑集成取代了物理整合。由于查询直接访问源系统,您可以获得更新鲜的数据,并且避免了将所有数据复制到单个数据仓库的成本和复杂性。与此同时,您也依赖于每个底层系统的可用性和性能。对于PB级的大型分析查询,预计算聚合和列式存储的数据仓库的性能比跨网络联合查询高出十倍甚至更多。.
明智的解决方案是将这两种方法互补结合使用。ETL 负责处理用于生成报表的结构化历史数据,并确保数据的一致性。数据虚拟化则支持对实时或分布式数据的敏捷访问,以满足时间紧迫的查询需求。集成新的数据源时,修改 ETL 工作流可能需要数天甚至数周的时间。而数据虚拟化则允许立即集成临时或实验性数据源。这种混合方法能够同时优化性能、成本和灵活性。.
通往可衡量人工智能成果的最短路径
以结果为导向的方法背后的经济逻辑令人信服。人工智能项目的平均周期遵循一个常见的模式:三个月的规划、六个月的开发、六个月的测试、三个月的部署,总共需要十八个月才能实现投资回报。根据 Gartner 的数据,平均只有 48% 的人工智能项目能够最终投入生产,而从人工智能原型到生产部署的整个过程需要八个月。只有 35% 的人工智能项目能够达到生产就绪状态。.
但还有另一种方法。IDC 的一项研究表明,92% 的成功人工智能应用案例都能在 12 个月内带来正的投资回报。40% 的公司表示,他们在 6 个月内就获得了正回报。关键在于选择合适的初始应用场景,并避免过于雄心勃勃的基础设施建设。.
快速实现人工智能投资回报的框架基于四项原则。理想的首个应用案例应具备高频率的特点;相关任务需每日或每周执行。它应有清晰的基准线,且当前性能可衡量。数据已存在,且该应用案例对其他系统的依赖性有限。如果满足这些条件,即可在几周内取得可衡量的成果。.
这种快速见效的成效远不止于眼前的经济回报。一家电信运营商针对客户最常咨询的五大账单问题部署了人工智能聊天机器人。短短60天内,该方案无需人工干预便解决了35%的咨询,将平均解决时间从24小时缩短至10分钟,客户满意度也提升了22%。一家中型制造商在其关键生产线上实施了人工智能驱动的预测性维护。这项为期45天的试点项目使计划外停机时间减少了62%,避免了15.7万美元的生产损失,并将维护成本降低了28%。Klarna的人工智能助手在第一个月就解决了三分之二的客户聊天咨询,并将平均解决时间从11分钟缩短至不到2分钟。.
为什么利益相关者的信任是最难获得的货币
这些快速见效的成果不仅仅具有节约成本的作用。它们能够重建利益相关者的信任,而这种信任在多年来基础设施项目缺乏明显成效的情况下已经逐渐瓦解。迅速取得的成功能够提供切实可见的证据,证明人工智能能够创造商业价值。这有助于增强决策者的信心,降低采用人工智能的阻力,并为更大规模的人工智能投资铺平道路。.
成功的快速见效能够形成积极的反馈循环,加速人工智能的普及应用。初步的成功能够激发热情,并带来更多资源,从而推动更广泛的实施。扩大实施范围能够创造更多价值,并促进组织学习。这种学习能够催生更复杂的应用,并带来更大的效益。而更大的效益则证明了加大对人工智能能力投入的合理性。.
麦肯锡的数据印证了这一机制。人工智能表现优异的公司——即人工智能对息税前利润(EBIT)贡献可衡量的那6%的公司——比其他公司更有可能表示其组织计划利用人工智能进行变革性调整,可能性高出三倍。这些公司从根本上重新设计工作流程的可能性也几乎是其他公司的三倍,而这种有意识的工作流程重塑是实现可衡量业务影响的最有力贡献之一。表现优异的公司通常会在比同行更多的业务职能部门部署人工智能,并且扩大人工智能代理的使用范围的可能性是其他公司的三倍。.
并行操作而非顺序依赖
迁移项目无需停止。它或许还能用于人工智能以外的其他用途。监管报告、历史分析或内部路线图的管理仪表盘可能确实需要整合后的数据。因此,为构建这一基础架构所做的投资并非徒劳。.
但人工智能无需等待数据迁移完成。两者可以并行运行。数据迁移会按照其既定计划继续进行,以达到其预期目的。人工智能则基于现有数据,立即提供结果。.
务实的做法首先是确定两到三个能够带来可衡量的商业价值的人工智能应用案例。接下来,为每个案例绘制所需的具体数据上下文。然后,评估这些上下文是否可以直接访问而无需迁移。最后,在最可行的数据路径上对人工智能进行试点。.
这种方法与Gartner分析师Haritha Khandabattu的研究结果相符。她指出,人工智能的关注点正逐渐从生成式人工智能转向支持可持续人工智能部署的基础赋能要素,包括人工智能就绪数据和人工智能代理。投资策略也正从基础设施优先转向数据和能力优先架构。那些将数据就绪视为次要因素的组织,最有可能成为那94%永远无法超越试点阶段的组织之一。.
投资逻辑的重组
Gartner 的支出数据显示,投资逻辑正在发生根本性的转变。尽管人工智能基础设施仍然是迄今为止最大的支出类别,2025 年的支出将达到 9650 亿美元,但其年增长率相对温和,仅为 29%。真正的加速增长发生在其他领域:人工智能数据年增长率高达 155%,人工智能网络安全为 74%,人工智能模型为 68%。资金流向了瓶颈所在,而非新闻热点。.
在人工智能数据市场,增长驱动因素更加清晰。合成数据生成正以每年 178% 的速度增长,预计到 2029 年将从 4100 万美元增长至 68 亿美元。人工智能就绪数据集(即预先整理、结构化且适用于人工智能工作流程的数据)的年增长率也高达 136%。企业愿意为快速投入生产付费。这清晰地表明,市场更看重快速的数据就绪,而非缓慢而全面的迁移。.
那些真正从这场变革中获益的赢家,会投资于使人工智能系统能够在企业级规模下运行的能力:数据准备、治理、集成和安全。他们颠覆了传统的支出比例,将 50% 到 70% 的时间和预算投入到数据准备中——即数据提取、规范化、治理元数据、质量仪表盘和保留控制。然而,这种数据准备并非被视为一个单一的迁移项目,而是一个迭代的、以用例驱动的过程。.
从数据完美主义到人工智能实用主义
这项分析的核心发现可以概括为一个原则:目标从来都不是构建完美的基础设施,而是实现人工智能的实际应用效果。幸运的是,这并不需要完全整合数据。认识到这一点的团队不再将数据迁移视为必要条件,而是将人工智能的最终成果视为真正重要的衡量指标。.
数据本身就说明了一切。88% 的公司都在使用人工智能,但只有三分之一的公司开始大规模应用。73% 的迁移项目失败是由于实施问题,而非技术本身的问题。到 2025 年,42% 的公司将放弃大部分人工智能项目。与此同时,排名前 6% 的公司表明,成功之道在于设定远大的目标、重新设计工作流程以及快速扩展规模,而不是完成迁移项目。.
这向首席信息官 (CIO) 和首席技术官 (CTO) 发出了明确的行动号召。问题不再是如何在实施人工智能 (AI) 之前整合所有数据,而是下一个 AI 用例需要哪些特定的数据上下文,以及如何以最快捷、最经济高效的方式提供这些上下文。联合访问、用例特定的上下文模型和运行时组装是实现这一目标的架构工具。它们以迭代式价值创造的模式取代了完全准备的模式。.
那些将人工智能视为驱动力而非基础设施项目次要受益者的公司,才能最快地从试点阶段过渡到规模化阶段。迁移项目可以继续进行,但人工智能无需等待。.




















