慕尼黑大学最新研究表明：人工智能如何真正提升医生的诊疗水平 | 慕尼黑路德维希-马克西米利安大学

Xpert 预发布版

在线联系方式（Konrad Wolfenstein）

Available in 27 languages 📢

在 Google 上更倾向于选择 Xpert.Digital。ⓘ

发布日期：2026年5月26日 / 更新日期：2026年5月26日 – 作者： Konrad Wolfenstein

慕尼黑大学最新研究表明：人工智能如何真正提升医生的诊疗水平 | 慕尼黑路德维希-马克西米利安大学 – 图片来源：Xpert.Digital

救命恩人还是风险？“思考型”人工智能如何彻底改变医院的日常生活

欧盟法律迫使人们重新思考：未来医院中的人工智能必须“大声思考”。

人工智能长期以来被誉为医疗保健领域的救星，能够有效应对长期的时间压力和严重的医护人员短缺问题。然而，德国一项突破性的新研究表明，算法能否挽救生命，甚至在最糟糕的情况下导致误诊，取决于一个此前鲜少受到关注的关键细节。人工智能仅仅提供准确的结果是不够的——它还必须能够逐步向医生解释其推理过程。一项针对100多名放射科医生的精彩实验揭示了所谓的“思维链”模型为何能大幅降低诊断错误率，为何传统的鉴别诊断会突然变成认知陷阱，以及这些发现为何不仅可能从根本上改变医疗实践，还可能影响全球人工智能市场和未来的欧盟法规。.

与此相关：

大型语言模型提供的医学解释对放射学诊断准确性的影响

当人工智能能够独立思考时：可解释人工智能如何改变医疗诊断

仅仅给出看似合理的答案是不够的——那些盲目信任人工智能的人会危及患者的生命。

大型语言模型不再局限于实验室实验。它们已应用于律师事务所、新闻编辑室、管理咨询公司，并且越来越多地出现在医院中。然而，尽管公众辩论通常围绕人工智能是否终有一天会取代医生这一问题展开，慕尼黑大学、慕尼黑大学附属医院、卡尔斯鲁厄理工学院和拜罗伊特大学的研究人员却提出了一个更为细致入微的问题，这个问题与日常临床实践直接相关：在什么情况下人工智能才能真正提高诊断质量？在最坏的情况下，它又会造成什么危害？

由慕尼黑大学管理学院教授斯特凡·费尔里格尔（Stefan Feuerriegel）和慕尼黑大学医院的博伊·弗里德里希·霍普（Boj Friedrich Hoppe）领导的研究团队在《npj Digital Medicine》期刊上发表的研究结果，既清晰又令人警醒：人工智能能否提供正确的诊断并非首要问题，关键在于它如何解释这一诊断结果。这一发现意义重大，因为它将关于人工智能在医疗保健领域应用的讨论提升到了一个新的高度——不再局限于“人工智能是否可行？”这种非此即彼的二元问题，而是转向如何设计人机交互这一更为细致入微的问题。.

实验：101 位放射科医生和四种条件

这项研究的方法论非常出色。在一项随机实验中，101名放射科医生接触到真实的临床病例，这些病例涉及放射影像学检查，包括计算机断层扫描（CT）和磁共振成像（MRI）的结果。参与者被要求用自由文本进行诊断，这比简单地从多项选择题中选择一个选项要困难得多，也更能准确地反映临床实际情况。.

参与者被随机分配到四个组中的一个。第一组完全不使用人工智能支持，作为对照组。第二组仅收到来自多模态语言模型的单一诊断建议。第三组收到鉴别诊断，即一份包含各种可能疾病及其概率等级的列表。最后，第四组收到所谓的“思维导图”解释：模型逐步揭示其推理过程——它列举了相关的图像特征，解释了临床指征，讨论了排除标准，并使医生能够理解其推理思路。.

结果：相差十二个百分点，以及背后的原因。

结果显而易见。采用循序渐进的思维导图进行解释的放射科医生，其诊断准确率比未使用人工智能的对照组高出12.2个百分点。这并非微不足道的提升。在日常临床实践中，每天都会生成数千份报告，这意味着可以避免大量误诊。.

另一方面，简单的诊断输出和鉴别诊断的表现则明显更差。关于鉴别诊断的发现尤其具有启发性：在人工智能模型给出错误评估的情况下，医生遵循鉴别诊断列表的频率远高于仅给出简单单一诊断的情况。鉴别诊断给人一种完备的印象，它列出了多种可能性，从而让人觉得诊断范围已经完全涵盖。这导致医生减少自身的批判性思考——尤其是在遇到罕见或复杂的疾病时，这些疾病甚至没有出现在鉴别诊断列表中。.

自动化偏差：日常临床实践中被低估的风险

慕尼黑大学（LMU）的研究令人印象深刻地揭示了这样一种现象，在学术文献中被称为“自动化偏见”。它指的是人们倾向于遵循自动化系统的建议，即使他们自身的感知或专业知识与这些建议相悖。自动化偏见并非能力不足的标志，而是一种源于进化启发式的、根深蒂固的人类认知模式：那些信任高效系统的人会节省认知资源。在大多数日常生活中，这种倾向是有益的。然而，在医学领域，它却可能致命。.

先前的研究表明，在时间压力下，自动化偏差会显著加剧。一项关于人工智能辅助病理学临床决策支持的研究表明，虽然人工智能的集成显著提高了整体性能，但同时也产生了7%的自动化偏差率——这意味着原本正确的评估结果被错误的人工智能建议所改变。时间压力并未增加偏差的发生频率，但确实加剧了偏差的强度。这与放射科的实际情况非常相似，一些医院的放射科医生每班需要撰写一百多份报告。.

慕尼黑大学的研究表明，人工智能的解释方式是降低这种风险的关键因素。循序渐进的解释使模型的推理过程清晰透明，并允许医生将其与自身的专业知识进行比较——这一过程不仅更容易识别模型中的错误，而且还能鼓励医生积极参与认知过程，而不是被动接受。.

可解释性的经济学：优秀人工智能的真正成本

从经济角度来看，慕尼黑大学的这项研究引发了一场重要的辩论，而这场辩论在以市场为导向的人工智能医疗增长预测中常常被忽视。据估计，2025年全球人工智能医疗市场规模约为280亿至390亿美元，预计到2034年将增长至超过5000亿美元，年增长率超过34%。然而，这些数据主要描述的是人工智能产品的市场规模，而非这些产品在临床应用中产生的实际经济价值。.

问题就出在这里。一篇发表于2025年的关于放射学人工智能经济评估的系统性综述分析了1800多篇文献，结果发现只有21项研究真正量化了人工智能工具的成本、节省或成本效益。绝大多数证据都基于模型场景，而非实际临床应用。更严重的是，真实数据显示，放射学人工智能并不能自动节省成本。其经济价值高度依赖于具体情况：在病例量大、放射科医生短缺或资源密集型任务的情况下，其经济价值往往为正。然而，如果特异性不足导致需要进行更多后续检查，或者基于使用量的许可模式抵消了高病例量带来的效率提升，那么其经济价值也可能为负。.

人工智能支出的可解释性并非仅仅是学术上的奢侈问题，而是一个实实在在的经济变量。假设模型质量相同，如果人工智能在采用逻辑链方法解释其支出时，segen准确率能提高12.2个百分点，那么它所产生的临床和经济价值将显著高于仅提供诊断结果的人工智能。具体到成本层面，这意味着：避免误诊、减少后续检查、缩短治疗时间以及降低错误率。这些益处是实实在在的，即使难以用欧元量化——因为误诊不仅会造成直接的医疗成本，还会因延长住院时间、法律风险以及对医疗系统信任度的下降而产生间接成本。.

可解释人工智能作为监管框架内的一项战略必需品

欧盟人工智能法案自2024年8月起生效，该法案将几乎所有临床人工智能应用——包括诊断工具、治疗计划系统和数字监测应用——都归类为高风险应用。这意味着一系列广泛的义务：技术文档、风险和质量管理、持续监测以及明确的透明度要求。根据欧盟理事会和欧洲议会于2026年5月7日初步通过的更新版《数字综合方案》，自2028年8月起，医疗器械制造商将全面遵守该法案的所有要求。.

这些法规的核心监管原则非常明确：高风险人工智能必须易于用户理解。决策过程必须透明，建议必须可质疑。欧盟人工智能法案的规范性要求已通过慕尼黑大学（LMU）的研究得到实证证实：可解释性不仅仅是合规要求，更是人工智能在高风险临床环境中安全使用的先决条件。因此，新法规要求医疗保健领域人工智能系统的制造商关注其输出结果的性质和质量，而不仅仅是模型的技术准确性。.

从战略角度来看，这造就了一种有趣的市场动态。那些认真对待自身解释能力并投资于透明、逻辑清晰的输出格式的供应商，在监管方面将更具优势。同时，他们也将显著取得更好的临床疗效。因此，未来医疗保健领域人工智能解决方案的竞争焦点将从技术模型的精确性转向临床实用性——这一范式转变将对整个行业产生深远影响。.

借助“托管人工智能”（人工智能）实现数字化转型的新维度——平台及B2B解决方案 | Xpert咨询

“托管式人工智能”开启数字化转型新篇章——平台及B2B解决方案 | Xpert Consulting - 图片来源：Xpert.Digital

在这里，您将了解到您的公司如何快速、安全地实施定制化的人工智能解决方案，且无需承担过高的准入门槛。.

托管式人工智能平台是您实现人工智能的全方位、无忧解决方案。您无需处理复杂的技术、昂贵的基础设施和漫长的开发流程，即可从专业合作伙伴处获得根据您的需求量身定制的现成解决方案——通常只需几天时间。.

主要优势一览：

⚡ 快速实施：从构思到可立即使用的应用，只需几天而非几个月。我们提供切实可行的解决方案，创造即时附加值。.

🔒 最高数据安全保障：您的敏感数据始终由您掌控。我们保证安全合规地处理您的数据，绝不与任何第三方共享。.

💸 无财务风险：您只需为结果付费。完全无需前期投入大量资金用于硬件、软件或人员。.

🎯 专注于您的核心业务：集中精力做好您最擅长的事情。我们将负责您人工智能解决方案的全部技术实施、运营和维护。.

📈面向未来且可扩展：您的AI将与您一同成长。我们确保持续优化和可扩展性，并灵活调整模型以适应新的需求。.

更多信息请点击这里：

托管式人工智能解决方案——工业人工智能服务：服务业、工业和机械工程领域保持竞争力的关键

当人工智能足够逼真时：“看似合理的错误”如何对医生构成危险

技能短缺是导致人工智能被盲目采用的催化剂。

鉴于德国医疗体系中熟练专业人员的结构性短缺，慕尼黑大学的这项研究结果显得尤为重要。放射学专业在德国——如同许多其他欧洲国家一样——面临着巨大的人员压力。与此同时，由于CT、MRI和其他影像技术的日益普及，影像检查的数量也在爆炸式增长。在这种压力下，人们很容易倾向于快速采纳人工智能的建议，而不是对其进行批判性审查。.

在这种情况下，自动化偏见尤其危险。当放射科医生面临时间压力，而人工智能给出的诊断列表听起来合情合理时，他们很容易不加批判地接受这些结果。慕尼黑大学的研究表明，精心设计、具有解释性的人工智能输出可以避免这种情况——但前提是医生必须主动阅读和审查这些解释。这就要求将人工智能系统整合到临床工作流程中，从而为这种批判性评估留出充足的时间。那些仅仅将人工智能作为加速工具而忽略交互质量的人，可能会适得其反：诊断速度更快，但出错率更高。.

贝塔斯曼基金会估计，由于缺乏人工智能专业知识，德国错失了高达16%的生产力提升机会，相当于数十亿欧元的收入损失。在医疗保健领域，这种影响更难衡量，因为其价值并非体现在收入上，而是体现在健康结果上。然而，其基本逻辑是一致的：只有当用户具备足够的能力来批判性地评估人工智能支出，并且人工智能系统本身的设计能够鼓励并支持批判性评估时，人工智能的潜力才能得以实现。.

鉴别诊断与虚假的安全感

LMU研究中最微妙的发现之一值得特别关注，因为它与临床直觉相悖。鉴别诊断被认为是医学中临床严谨性的体现。它表明医生会考虑多种可能性，而不是过早地做出诊断。然而，在与人工智能系统交互时，这种类型的输出结果恰恰可能带来问题。.

其潜在机制很容易用心理学解释：一份鉴别诊断清单会给人一种错觉，仿佛问题已被彻底考虑过。这份清单的信息密度很高，给人一种认知上的轻松感。因此，医生往往倾向于减少对清单之外诊断的思考，也减少了自我评估。如果模型此时生成了错误或不完整的鉴别诊断——语言模型确实会如此——那么错误采纳的可能性就比仅提供一个明确标记为初步诊断的单一诊断要高。.

逻辑推理式的解释可以有效应对这种情况，因为它们明确指出了不确定性，揭示了排除性因素，从而体现了模型的认知开放性。医生们被鼓励质疑模型，因此也更有能力在模型存在缺陷时进行修正。.

普遍适用性：该发现对放射学以外的领域有何意义

该研究的通讯作者斯特凡·费尔里格尔明确强调，研究结果的应用范围远不止放射学领域。大型语言模型正越来越多地被用于日常生活和工作中的决策——例如法律、金融、管理咨询和教育等领域。无论何时，只要人们将人工智能的输出作为重要决策的依据，都会出现同样的问题：我应该批判性地审视建议，还是仅仅出于效率考虑而采纳？我是否理解其背后的逻辑，还是仅仅因为结果听起来合情合理就盲目依赖人工智能？

对“听起来很有说服力的错误”的警告尤为重要。语言模型能够生成结构正确、修辞有力，但实际上却错误的解释。这是一种众所周知的现象，在研究文献中被称为“幻觉”，仅仅优化模型性能并不能完全消除。虽然逐步解释为批判性审查提供了更好的机会，但并不能完全避免这种风险。最终决策的责任始终在于人。.

从经济角度来看，这可以解读为用户能力差异化的论证：那些希望从人工智能工具中持续获益的人——无论是在医疗、法律还是管理咨询领域——不仅要懂得如何操作这些工具，还要懂得如何评估其成本。这种能力是可以习得的，但需要有针对性的培训和专业发展。投资于这种能力培养的机构，将比那些将人工智能视为自主决策工具的机构更有效地利用人工智能系统。.

可解释人工智能与信任问题：系统性视角

在医学领域，信任并非软性因素，而是一项实实在在的经济价值。信任医生的患者更有可能遵从治疗建议，更早地报告症状，并且治疗效果也明显更好。如今，这种信任已扩展到另一个层面：它越来越多地涵盖了对参与诊断和治疗方案制定的人工智能系统的信任。.

可解释人工智能（文献中简称 XAI）的概念正是为了解决信任问题。它并非旨在降低模型的复杂性，而是要让相关用户群体能够理解其决策过程。“可理解”并非绝对：对于经验丰富的放射科医生来说清晰易懂的步骤解释，对于没有医学影像专业知识的全科医生而言可能过于详细或具有误导性。因此，在考虑 XAI 时，不仅要从技术角度出发，还要兼顾用户和应用场景。.

从制造商的角度来看，这意味着开发有效的AI解释并非易事。这需要对临床工作流程以及相应用户群体的认知需求有深刻的理解。研究中表现优异的“思维链式解释”并非仅仅是一种技术输出格式，而是精心设计的交互过程的成果。这种设计需要投入资源，但它确实能为患者、医生和社会创造价值。.

监管义务与临床现实：务实的视角

欧盟人工智能法案的过渡期为医疗保健领域人工智能系统的制造商和运营商提供了适应时间。根据数字综合方案的新规定，医疗器械制造商的最终期限为2028年8月。然而，这段过渡期不应被误解为延期，而应被视为一个结构化的过渡期，在此期间，临床研究成果（例如慕尼黑大学的研究成果）可以融入产品开发中。.

具体而言，这意味着对于医院和医务人员来说：人工智能系统的评估不仅应衡量技术segen准确性，还应衡量其在临床应用中的输出质量。在采购过程中，应将逻辑清晰的思路陈述和类似的透明输出格式作为选择标准。对使用人工智能工具的医生进行培训时，必须明确阐述自动化偏差以及如何批判性地审查人工智能建议。最后，临床质量保证系统应记录人工智能建议的采纳情况，以便及早发现系统性错误。.

对于医疗保健领域的人工智能解决方案开发商和提供商而言，信息很明确：投资于可解释性并非可有可无的附加功能，而是将技术上合理的模型转化为临床有效且符合监管要求的工具的关键杠杆。.