这是用户在 2024-5-25 4:52 为 https://hai.stanford.edu/news/large-language-models-healthcare-are-we-there-yet?utm_source=twitter&u... 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
Skip to main content
Page Content


医疗领域中的大语言模型:我们是否已经达到了目标?


虽然这些工具在临床实践中显示出潜力,但我们迫切需要系统性的评估方法。


2024 年 5 月 8 日 | 珍内尔·金达尔(Jenelle Jindal)、苏哈纳·贝迪(Suhana Bedi)、阿克沙伊·斯瓦米纳桑(Akshay Swaminathan)、迈克尔·沃诺(Michael Wornow)、杰森·弗里斯(Jason Fries)、阿卡什·乔拉斯亚(Akash Chaurasia)、尼甘姆·沙(Nigam Shah)
Image
Focused doctor working using computer at the hospital

iStock


随着对大型语言模型的持续研究和开发,似乎可以得出结论,卫生系统应该已经能够从中获得价值。


然而,最近一篇 STATnews 的文章仍然强调了这种差距。其中一个例子是,LLM 被分配了回答患者信息的任务。表面上,这个任务似乎有希望减少医生在不需要 MD 的情况下执行任务的倦怠,让他们有更多时间照顾病人。不幸的是,一项评估其性能的研究发现,有限百分比的 LLM 对患者的回答存在安全错误,其中一次给患者的建议可能是致命的。


这种承诺与实际实践之间的差距可能令人惊讶,因为卫生系统并不陌生于实施尖端技术——电子病历(EMR)、影像数据库等。但是,生成式人工智能作为一种技术,与过去部署的技术非常不同,正如这篇 JAMIA 观点文章所讨论的那样。 以往的医疗系统已经实施了传统的 AI 技术,这些技术更加可预测:定义了一个临床问题,训练了一个模型,然后使用预测算法来辅助临床护理。更新发布是渐进的,优先级由上而下确定。而 GenAI 的新兴能力和持续快速发展颠覆了这些通常的实施途径。


为了实现 GenAI 在医疗保健中的潜力,我们认为系统性的评估方法——借鉴更广泛的计算机科学社区关于基础模型的标准——可以让我们达到一个地方,使得 LLM 对卫生系统成为净收益。


那么,为了帮助将 LLM 引入医疗保健的主流应用,具体应该在哪些方面开展进一步的工作?为了回答这个问题,我们首先从已经完成的测试和评估 LLM 用于医疗用例的重要工作中汲取灵感。在这里,我们对迄今为止的学习进行了总结,并确定了未来可能关注的领域。


测试和评估总结要点


最近的一篇综述已经对用于医疗用途的 LLMs 进行了测试和评估,共确定了涉及医疗 LLM 评估的 519 项研究,并根据几个特征对其进行了分类,包括:研究中使用的数据、医疗任务、自然语言处理和理解任务、评估维度以及研究的医学专业领域。这项工作的几个重要结论如下:


首先,在数据使用方面,本综述中的绝大多数研究并没有在真实患者护理数据上进行评估——相反,它们由医学考试问题、患者案例和主题专家生成的题目混合组成。虽然这些数据在一定程度上有所帮助,但它们是经过精心筛选的(例如 MedQA 数据集),并不是实际医疗数据的“真实世界”一瞥。值得注意的是,在本系统评价中只有 5%的研究评估了 LLM 在实际患者护理数据上的表现。


一项使用真实患者护理数据进行评估的研究示例是我们的 MedAlign 研究,其中医生评估了 LLM 对特定临床人员生成的指令(提示)的响应,这些指令参考特定的电子病历。虽然手动审核需要大量医生的时间,并且评估医生之间的协议存在困难,但我们认为,使用患者数据进行这样的现实世界测试对于评估 LLM 在临床实践中的价值至关重要。


第二,虽然已经评估了几种不同类型的医疗保健任务,但我们注意到某些类别任务的聚集现象。例如,在所审查的研究中评估的大约一半的大型语言模型主要集中在通过像 USMLE 这样的医学许可考试来增强医学知识。其次是诊断任务(占 19.5%)和治疗建议任务(占 9.2%)。 相比之下,在评估 LLM 用于非临床和行政任务的空间方面的工作较少,这些任务可能对医师疲劳产生更大的影响,正如这个 AMA 调查所强调的那样。这样的任务包括账单、开处方、生成转诊、临床笔记写作,甚至超越患者护理的任务,如研究招募。例如,我们最近在一项研究中解决了这个问题,以帮助加快患者的临床试验招募速度。 这在社区医院尤其具有挑战性,因为可用于帮助筛选患者确定谁有资格参加试验的资源较少。结论是什么?LLM 可以非常有效地作为这个过程的一部分来进行这种筛选,使入组更快、更经济。


第三,对于各种医疗保健任务,评估哪些维度以及如何优先考虑这些维度存在缺乏共识的问题。如本 MedRxiv 文章中的表格 3 所示,准确性、校准和鲁棒性等几个评估维度被使用。例如,这里定义了准确性:

Chart showing different dimensions of evaluation, definition, examples, and illustrative responses


值得注意的是,虽然准确性是评估 LLM 性能时最常被检查的维度,但其他维度,如公平性、偏见和毒性、鲁棒性和部署考虑因素(如下表所示)也需要被考虑在内。

Chart showing different dimensions of evaluation, definition, examples, and illustrative responses


大语言模型往往反映了它们从训练数据中学到的内容,因此可能会传播各种需要避免的偏见。同样地,考虑到医疗保健的时间敏感性和临床医生时间的宝贵性,大语言模型必须能够以稳健的方式执行,以适应各种扰动,如打字错误、同义词使用等。此外,有效部署还取决于推理运行时间和成本效率等因素。 帮助标准化评估的努力包括斯坦福大学的整体语言模型评估(HELM),但需要进一步的工作来考虑医疗保健领域重要的维度。


此外,需要更多的工作来确保对各种亚专业中的临床任务进行测试。这是由于每个亚专业固有的不同优先级——因此,在不同的亚专业中部署的 LLM 可能需要以不同的方式进行评估(例如手术与精神病学)。就本系统评价而言,注意到核医学、物理医学和医学遗传学似乎在特定专业的 LLM 相关任务方面特别代表性不足。


使用具有人类偏好的代理增强系统评估


虽然已经取得了重大进展,但历史上的评估工作仍然需要大量手动工作——这既昂贵又限制了进步的速度。为了扩大这些努力,新的工作正在研究如何使用遵循人类偏好的 AI 代理来评估 LLM。“宪法 AI”一词已被创造出来描述这些代理的设置,以遵守由人类制定的规则或原则清单。


一项利用具有人类偏好代理的特定研究与评估种族相关内容的输出有关,这些内容可能延续刻板印象。在这项研究中,一个 LLM 评估代理对 1,300 个回复进行了评估,显示自动评估代理评估可能延续种族刻板印象的内容存在潜在可行性。我们希望看到更多专门针对医疗保健定制的研究,以帮助扩大评估工作的规模。

 结论


虽然大型语言模型和更广泛的生成式人工智能在医疗保健方面显示出真正的潜力,但这些工具尚未准备好。医疗界和开发人员需要发展更严格的评估方法,跨专业分析数据,在真实世界的数据上进行训练,并探索当前模型之外更有用的生成式人工智能类型。但最终我们相信这些工具可以帮助改善医生的工作量和患者的结果。 我们急需建立 LLM 评估循环,其中模型被构建、实施,然后通过用户反馈持续评估。


斯坦福大学人类中心人工智能研究所(HAI)的使命是推进人工智能的研究、教育、政策和实践,以改善人类的状况。了解更多。