智网互联实验室

20260416

来自秘鲁商报（El Comercio Perú）的报道：

原文参见：https://elcomercio.pe/tecnologia/inteligencia-artificial/la-ia-mejora-la-precision-en-los-diagnosticos-medicos-pero-carece-de-razonamiento-critico-noticia/

尽管用于医疗服务的人工智能（inteligencia artificial，IA）聊天机器人在掌握完整临床信息时，通常能够作出正确诊断，但当它们面对信息不足的情况，或需要进行鉴别诊断时，仍然表现出明显缺陷。

根据本周一发表于《JAMA 网络开放获取》（JAMA Network Open）的一项研究，这项研究由美国（Estados Unidos）波士顿（Boston）麻省总医院布里格姆医疗网络（Mass General Brigham）旗下MESH创新孵化器（MESH）研究人员开展，人工智能目前仍未准备好在缺乏专业医务人员持续监督的情况下独立作出医疗决策。

研究团队之所以得出这一结论，是因为他们评估了市场上 21 个最先进的大语言模型（modelos de lenguaje grandes，LLM），其中包括GPT-5、Grok 4、Claude、DeepSeek和Gemini，并采用了一套专门设计的方法，用以评估这些人工智能模型的临床能力。

研究人员要求这21个人工智能模型在一系列临床场景中扮演医生角色，结果发现，这些大语言模型在处理诊断检查流程，以及提出一份可验证的潜在诊断或“鉴别诊断”清单时，往往会出现失误。

尽管在获得与患者病例相关的全部信息时，所有接受测试的大语言模型在超过90%的情况下都能得出正确的最终诊断，但在诊断过程中那些依赖推理能力的初始步骤上，它们始终表现不佳。

该研究通讯作者、麻省总医院布里格姆医疗网络（Mass General Brigham）MESH 孵化器执行主任马克·苏奇（Marc Succi）指出：“尽管这些模型在持续改进，标准大语言模型仍未准备好在没有监督的情况下达到临床级部署要求。”他还强调，鉴别诊断是临床推理的核心，构成了人工智能目前尚无法复制的“医学艺术”基础。他进一步表示，至少在当前阶段，人工智能只能用于“增强”，而不是取代医生的推理，而且这一前提还要求所有相关数据都已具备，而现实中并非总是如此。

为此，研究团队开发了PrIME-LLM指标，用于评估人工智能模型在提出潜在诊断、安排适当检查、得出最终诊断以及管理治疗方案方面的能力。研究人员指出，PrIME-LLM的优势在于，它能够准确反映模型在某一方面表现良好、而在另一方面表现不佳的情况，而不是提供一个可能掩盖弱点的平均分数。

该研究比较了21个通用型大语言模型，包括ChatGPT、DeepSeek、Claude、Gemini 和 Grok 的最新版本，并测试了它们在29个已公开临床病例中的表现。研究人员采取逐步提供信息的方式，先给出患者的年龄、性别和症状等基本信息，再逐渐加入体格检查结果和实验室数据。

在每一个阶段，这些大语言模型的表现均由医学专业学生组成的评估者进行打分，而这些评分随后被用于计算各模型的PrIME-LLM总体分数。

研究人员发现，大语言模型在生成准确最终诊断方面表现较好，但在提出鉴别诊断时则全部失利，失败比例超过80%。该研究第一作者、MESH 研究人员、哈佛医学院（Facultad de Medicina de Harvard）学生阿莉娅·拉奥（Arya Rao）解释说：“我们观察到，这些模型在数据完整时非常擅长给出最终诊断，但在病例刚开始、信息尚不充分的开放阶段，它们就会遇到困难。”

这项研究同时也可被视为衡量人工智能快速演进的一项“风向标”。研究结果显示，越是近期发布的模型，其总体表现通常优于旧版本，这说明这些系统确实在持续改进。

在PrIME-LLM 评分体系中，各模型得分介于64%至78%之间，其中 Gemini 1.5 Flash得分为 64%，而Grok 4和GPT-5 则达到78%。此外，研究还证实，当纳入非文本数据后，所有大语言模型的准确率都会明显提升。

编辑：姚少杰

校对：康晨雨

科讯搜寻：卡罗尔

本文使用ChatGPT辅助翻译，内容服务于中拉科技互鉴，不代表平台观点，如有疏漏，欢迎指正。