欢迎访问啃书文库 - 生活百科小常识,生活小窍门,日常健康知识,百科知识大全

啃书文库 - 生活百科小常识,生活小窍门,日常健康知识,百科知识大全

啃书文库 > 生活 >

完败于人类大夫!人工智能临床决策草率且不安全,最低正确率仅13%

www.gimmesl.com 2024-08-09 19:23 生活

人类大夫,会由于 ChatGPT 等大模型纷纷下岗吗?

这种担忧,并不是空穴来风。毕竟,Google的大模型(Med-PaLM 2)已经轻松拿下了美国医学执照考试,达到了医学专家的水平。

然而,一项最新研究表明:在临床方面,人类大夫完胜现在的AI(人工智能)模型,不需要过于担忧个人「失业问题」。

有关研究论文以“Evaluation and mitigation of the limitations of large language models in clinical decision-making”为题,已于日前发表在科学期刊 Nature Medicine 上。

该研究发现,即便是现在最早进的大语言模型(LLM)也没办法为所有病人做出准确诊断,且表现明显差于人类大夫——

大夫的诊断正确率为 89%,而 LLM 的诊断正确率仅为 73%。在一个极端状况(胆囊炎诊断)下,LLM 正确率仅为 13%。

更让人惊讶的是,伴随对病例信息的认知增多,LLM 的诊断准确度反而会减少,有时甚至会需要进行一些可能对病人有紧急健康风险的检查。

化身急诊科大夫,LLM 表现怎么样?

尽管 LLM 可以轻松拿下美国医学执照考试,但医学执照考试和临床案例挑战合适只测试考生的一般医学常识,困难程度远不如平时复杂的临床决策任务。

临床决策是一个多步骤的过程,需要从不同来源采集和整理数据,并不断评估事实以达成基于证据的病人诊断和治疗决策。

为了进一步研究 LLM 在临床诊断中的潜力,来自慕尼黑工业大学的研究团队及其合作者基于医疗信息市场重症监护数据库(MIMIC-IV)制作了一个涵盖 2400 个真实病人案例和 4 种容易见到腹部疾病(阑尾炎、胰腺炎、胆囊炎和憩室炎)的数据集,模拟现实的临床环境,重现从急诊到治疗的过程,从而评估其作为临床决策者的适用性。

图|数据集来源及评估框架。该数据集源自 MIMIC-IV 数据库中的真实病例,包括住院期间记录的全方位电子健康记录数据。评估框架反映了一个现实的临床环境,从多个标准对 LLM 进行全方位评估,包含诊断准确性、遵循诊断和治疗指南的状况、遵循指令的一致性、讲解实验室结果的能力,与对指令变化、信息量和信息顺序变化的鲁棒性。ICD,国际疾病分类;CT,计算机断层扫描;US,超声波;MRCP,磁共振胰胆管成像。

研究团队测试了 Llama 2 及其衍生版本,包含通用版本(如 Llama 2 Chat、Open Assistant、WizardLM)和医学范围对齐的模型(如 Clinical Camel 和 Meditron)。

因为 MIMIC 数据的隐私问题和数据用协议,数据不可以用于如 Open人工智能 或 谷歌 的外部 API,因此未能测试 ChatGPT、GPT-4 和 Med-PaLM。值得注意的是,Llama 2、Clinical Camel 和 Meditron 在医学许可考试和生物医学问答测试中的表现已达到甚至超越了 ChatGPT。

测试对照组为四位来自两个国家且有不同年限(分别是 2 年、3 年、4 年和 29 年)急诊经验的内科大夫。结果显示,LLM 在临床诊断中的表现远不如人类大夫。

1.LLM 的诊断性能显著低于临床

大夫结果显示,目前 LLM 在所有疾病的整体表现上显著逊色于大夫(P 0.001),诊断准确性差距在 16%-25% 之间。虽然模型在简单的阑尾炎诊断中表现较好,但在胆囊炎等其他病理的诊断中表现不佳,尤其是 Meditron 模型在胆囊炎诊断中失败,常将病人诊断为“胆结石”。

专业医学 LLM 在整体表现上未显著优于其他模型,而当 LLM 需要自行采集所有信息时,其表现会进一步降低。

图|全信息提供条件下的诊断准确率。数据基于 MIMIC-CDM-FI 的一个子集(n=80),每一个条形图上方显示了平均诊断准确率,垂直线表示标准偏差。LLM 的平均表现显著较差(P 0.001),特别是在胆囊炎(P 0.001)和憩室炎(P 0.001)方面。

图|自主临床决策场景下的诊断准确率。对比全信息提供场景下,模型判断正确率整体都有明显降低。LLM 在诊断阑尾炎时表现最好,但在胆囊炎、憩室炎和胰腺炎这三种病理上表现较差。

2.LLM 的临床决策草率且不安全

研究团队发现,LLM 遵循诊断指南方面表现不佳,容易遗漏病人的要紧身体信息。除此之外在安排病人必要实验室检查方面缺少一致性。LLM 在解析实验室结果方面也有明显不足。这表明它们在没充分知道病人病例的状况下草率诊断,对病人健康构成紧急风险。

图|LLM 推荐治疗方法评估。期望的治疗策略是依据临床指南和数据集中病人实质同意的治疗确定的。在 808 名病人中,Llama 2 Chat 正确诊断了 603 人。在这 603 名病人中,Llama 2 Chat 在 97.5% 的状况下正确推荐了阑尾切除术。

3.LLM 仍需要很多的大夫临床监督

另外,目前所有些 LLM 在遵循基础医学指导方面表现不佳,在每 2-4 个病例中出现错误,且每 2-5 个病例中就会虚构没有的指导。

图|LLM 在不同数据量下的表现。该研究比较了每一个模型在用所有诊断信息与仅用单一诊断检查和现病史的表现。对于几乎所有疾病,在 MIMIC-CDM-FI 数据集中,提供所有信息并未致使最好表现。这表明,LLM 没办法集中于重点事实,当提供过多信息时,表现会降低。

该研究还表明,为每一个模型提供最好性能的信息顺序对于每种病理都是不一样的,这无疑进一步增大了后续优化模型的困难程度。在没广泛的大夫监督和事先评估的状况下,没办法靠谱地完成任务。总的来讲,它们在遵循指令、处置信息的顺序与对有关信息的处置上存在明细缺点,因此需要很多临床监督以确保其正确运行。

虽然该研究发现了 LLM 在临床诊断下的各种问题,但 LLM 在医学方面的前景依旧巨大,非常可能更合适依据病史和测试结果做出诊断。研究团队觉得,该研究工作在以下两个方面具备进一步拓展的空间:

模型验证和测试:进一步的研究应集中在对 LLM 进行更全方位的验证和测试,以确保其在真实临床环境中的有效性。

多学科合作:建议将 人工智能 专家与临床大夫密符合作,以一同开发和优化适用于临床实践的 LLM,并解决实质应用中的问题。

人工智能 在怎么样颠覆医疗?

不仅仅是上述研究,来自美国国立卫生研究院(NIH)的团队及其合作者,也发现了类似的问题——在回答 207 个图像挑战问题时,GPT-4V 虽然在选择正确诊断方面得分非常高,但在描述医学图像和讲解诊断背后是什么原因方面常常会犯了错误。

尽管 人工智能 现在还远不如人类专业大夫,但其在医疗行业的研究与应用,一直是国内外科技公司和科研高校竞相角逐的要紧“战场”。

比如,Google发布的医疗 人工智能 大模型 Med-PaLM2,拥有了强大的诊断和治疗能力,同时也是第一个在 MedQA 测试集中达到“专家”水平的大模型。

清华大学研究团队提出的“智能体医院”(Agent Hospital),可以模拟治疗疾病的整个过程,其核心目的是让大夫智能体掌握怎么样在模拟环境中治疗疾病,甚至可以不断从成功和失败的病例中积累经验达成自我进化。

哈佛医学院领衔开发了一个用于人类病理学的视觉语言通用 人工智能 助手——PathChat,其可以在近 90% 的状况下从活检切片中正确辨别疾病,其表现优于 GPT-4V 等现在市面上的通用 人工智能 模型和专业医疗模型。

图|指令微调数据集和 PathChat 构建

近日,Open人工智能 CEO Sam Altman 参与成立了一家新公司 Thrive 人工智能 Health,旨在借用 人工智能 技术帮助大家改变平时习惯,减少慢性病死亡率。

他们称,超个性化的 人工智能 技术可以有效地改变大家的生活习惯,从而预防和管理慢成人两性疾病,减轻医疗经济负担,并提升大家的整体健康水平。

现在,人工智能 在医疗行业的应用已经从刚开始的实验阶段渐渐过渡到实质应用阶段,但距离帮助临床大夫增强他们的能力、改变临床决策,甚至直接取代,可能依然有非常长的一段路要走。

Tags:科普

热点排行
热门推荐
热门tag
购票 泡发 流量 内衣 Mio Yoshida 葫芦素 石灰质 宫沢真希 疲劳 文化节 翻修 Jewelry 瀑布群 村庄 冯殊 馄饨 不夜城 特色小吃 乌牛 滴油 叶茶 月神 东门礁 陈石 公民 痈疽 刘颖 铁路 最新动画电影 确立 神像 石蒜科 冷藏区 彩林 政府 白萝卜生 东方兄弟 成长 土霉素 软糖 叶澜依 礼貌 为你 气生根 期票 核桃性 责任人 方面 门票 莼菜 连皮 花露 北京图书大厦 任祉妍 才能 头皮屑 卢米埃 丰臀 不饱和脂肪酸 刘登云