这是用户在 2025-3-7 5:54 为 https://research.google/blog/from-diagnosis-to-treatment-advancing-amie-for-longitudinal-disease-man... 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
play silent looping video
暂停无声循环视频


从诊断到治疗:改进 AMIE 以进行长期疾病管理

2025 年 3 月 6 日,Valentin Liévin,软件工程师,和 Anil Palepu,研究科学家


我们提升 AMIE 的能力,使其不仅限于诊断,还能够长期治疗和管理疾病。在我们的随机研究中,AMIE 在多次诊疗中的专业患者演员陪同下,与临床专家的推理能力相匹配或超越,包括精准规划检查、治疗和处方,并正确使用权威临床指南。


有效的临床推理——在患者护理过程中涉及的所有决策——是医疗保健的基石。高质量的临床推理是专家医生的标志,不仅需要准确诊断,还包括对疾病进展、治疗反应、安全用药以及在与患者共同决策时正确使用既定指南或证据进行复杂推理。 即使确诊后,最佳管理计划通常需要监测患者的病情和经验,需要个性化的治疗方案,并进行知情和共同的决策,同时根据患者的个体需求、偏好和系统限制进行积极调整。虽然大语言模型(LLMs)在诊断对话方面展现出潜力,但它们在临床管理推理方面的能力仍有待充分探索。


在“面向疾病管理的对话式 AI”中,我们通过集成专门优化过的 LLM 代理能力,进一步提升了 Articulate Medical Intelligence Explorer (AMIE) 的诊断推理能力——这是我们的用于医疗推理和对话的研究型 AI 系统。 AMIE 的增强版建立在 Gemini 系列模型的核心优势上,如最先进的长上下文推理和最低的幻觉率,以支持对疾病进行纵向(即随时间序列)的进展、治疗反应以及安全用药和临床指南的信息进行推理。这使得 AMIE 不仅提供诊断,还支持患者和临床医生应对下一步的复杂情况。 这一最新发展展示了 AMIE 如何进行长期互动,基于不断发展的权威临床知识进行推理,并提供符合标准的结构化管理计划。

play silent looping video
暂停无声循环视频


AMIE 现在支持长期疾病管理,依据临床指南进行推理,并根据患者在多次就诊中的需求进行调整。


疾病管理的挑战


临床护理面临的挑战不仅限于初步诊断。疾病管理需要考虑多种因素,包括治疗副作用、患者依从性、生活方式的改变,以及不断变化的医学研究和临床指南。直到现在,管理推理能力仍是人工智能系统尚未充分探索的挑战。

play silent looping video
暂停无声循环视频


AMIE 利用 Gemini 的长文本功能,访问和分析临床指南,确保其建议基于循证医学。


双智能体架构,提升推理能力


我们的工作通过一种基于两个LLM驱动的代理相互作用的新方法来应对这一挑战,这种方法与人类临床医生解决管理问题的方式类似。


对话代理面向用户,能够根据当前对患者的了解快速回应。它负责对话过程,收集患者状况的信息,解决他们的疑虑,并建立信任。通过自然语言处理和同理心沟通技巧,对话代理确保用户体验流畅、互动亲切。


Mx 代理(管理推理代理)持续分析可用信息,包括临床指南和患者数据,以优化患者的管理。利用 Gemini 的先进长上下文能力,该代理能够同时综合和推理大量信息——包括多次诊疗的患者对话和数百页的临床指南。 使用这种方法,它生成关于检查、治疗和随访的结构化计划,考虑最新的医学证据、之前就诊的信息以及患者的个人偏好。

AMIEMx-3-2Agents


AMIE 的双代理架构:对话代理与患者互动,而 Mx 代理根据临床指南制定结构化的管理计划。管理计划确定了针对该患者的一系列检查和治疗方案。


将管理落实在临床指南中


为了确保可靠性和安全性,AMIE 的管理推理能力主要通过扩大测试时的计算能力来实现深度推理,同时在结构约束下进行推理,并以权威的临床知识为基础提出建议。同样地,AMIE 依赖 Gemini 来理解长文本,使输出与相关和最新的临床实践指南和药物清单保持一致。


这包括从临床指南的综合语料库中选择和处理文档,这些指南来自权威来源,如英国国家卫生和护理卓越研究所的指南和 BMJ Best Practice 指南。然后,Mx Agent 使用这些指南来指导其决策过程,确保建议基于证据并符合社区最佳实践。


复杂的结构约束帮助模型遵循指定的推理策略,而反复草拟和合并生成的计划有助于提高质量。这使得 AMIE 能够创建个性化、基于证据且针对患者需求的管理计划。

AMIEMx-4-DeepReasoning


AMIE 使用深度推理和结构约束 (A) 来创建结构化管理计划 (B),该计划基于案例分析 (C) 和明确的管理目标 (D),包括就诊调查、有序调查和治疗建议,所有这些都附有引用 (E)。这里我们展示一个虚构患者的示例推理轨迹。


评估 AMIE 的表现:多次访问的 OSCE 研究


为了严格评估 AMIE 在长期疾病管理中的表现,我们进行了一项随机、盲审的虚拟客观结构化临床考试 (OSCE),模拟文本聊天咨询。在这项研究中,AMIE 与 20 位初级保健医生 (PCPs) 相比,共 100 个多次诊疗案例情景,使我们能够评估其在真实临床环境中的表现。

AMIEMx-5-OSCEStudy


随机多访次 OSCE 研究概况。


欧安组织研究的多次访问设计使我们能够评估 AMIE 的以下能力:1) 记住并整合之前互动的信息,2) 根据患者症状和检查结果调整治疗计划,3) 在整个治疗过程中保持与患者的一致和同理心沟通。


专家医生评估了 AMIE 管理计划的质量,包括是否合适、是否完整、是否使用了临床指南以及是否以患者为中心。

AMIEMx-6-Management


专家医生(对计划来源视而不见)认为 AMIE 的管理计划与普通全科医生水平相当,治疗准确性显著提高。关键指标包括选择合适的检查项目,避免不必要检查(即,根据已知信息排除应避免的检查)。P 值显示了显著差异(p < 0.05)。


此外,患者演员和专家医生还评估了 AMIE,以判断其行为是否符合临床需求和优先事项。我们借鉴了先前的研究,确定了一套管理推理的关键特征,并基于这些特征创建了一个试点评估标准,我们称之为管理推理经验关键特征(MXEKF)。 MXEKF 的关键措施包括偏好、约束和价值观的优先排序,沟通和共同决策,对比和选择不同方案,管理计划的监控和调整,以及预测能力。

AMIEMx-7-MXEKF


AMIE 在关键管理推理指标(MXEKF)上表现稳定,受到患者和专科医生的好评。


RxQA: 药物推理的基准测试


疾病管理的一个关键方面是安全有效地使用药物。可靠地掌握药物相关知识及其事实性和特定主题的推理是必要的,但仅此还不够。为了评估 AMIE 在这些方面的能力,我们提出了 RxQA,这是一种从国家药品清单(包括美国食品药品监督管理局和英国国家药典)中衍生的新型选择题集。


RxQA 包含 600 个问题,旨在评估对药物适应症、禁忌症、剂量、副作用和相互作用的了解。这些问题由执业药师精心验证,以确保其准确性和临床应用的相关性。

AMIEMx-8-RxQA


RxQA 基准测试中的一个示例问题,用于评估药物知识和推理能力。所有数据都是合成的(真实但并非真实)患者数据。

AMIEMx-9-RxQAResults


AMIE 在 RxQA 基准测试中表现出色,展示了对药物信息和指南的深刻理解。虚线表示随机猜测的准确率。

局限性


虽然这些结果展示了 AMIE 在医疗 AI 领域的重要潜力,但也有几个限制需要考虑。模拟的 OSCE 场景虽然用于标准化评估,但简化了现实中的临床实践,如病历审查、电子健康记录操作以及处理更广泛的患者和病症。 在这项评估中,选择了单一卫生系统的指南,没有尝试将其适应当地情况,而这是 AMIE 的潜在优势之一。模拟访问之间的间隔很短,且基于文本的界面与真实远程医疗的多模态体验不同,可能低估了现实世界的难度。MXEKF 量表作为试点评估标准虽然有潜力,但还需要进一步验证。

结论


AMIE 在这些评估中的出色表现标志着向展示对话式 AI 作为辅助医生管理疾病的强大工具迈出了重要一步。通过结合纵向推理、临床指南和多代理系统设计,AMIE 展示了超越了初步诊断,走向纵向管理的人工智能系统的可能性。


需要进一步研究,以更好地理解 AMIE 对临床流程和患者结局的潜在影响,以及系统在现实世界条件下的安全性和可靠性。我们已经开始与临床合作伙伴进行一项前瞻性研究。然而,这项工作是负责任地开发和利用 AI 改善获取循证护理机会的重要里程碑。

致谢


这里描述的研究是 Google 研究和 Google DeepMind 团队合作完成的。我们感谢所有作者,特别感谢 John Guilyard、Brian Gabriel 和 Jenn Sturgeon 对叙事和视觉效果的贡献。我们还感谢与 BMJ Best Practice、英国国家卫生和护理卓越研究所以及皇家药学协会的合作伙伴关系。最后,我们感谢 Ewa Dominowska、Juro Gottweis、Katherine Chou、Claire Cui、Ali Eslami 和 Greg S. 感谢 Corrado、Michael Howell、Karen DeSalvo、Jeff Dean、Zoubin Ghahramani 和 Demis Hassabis 在项目中给予的支持。