介绍


随着基于人工智能的放射学支持系统在临床实践中日益普及,由于它们“黑盒子”性质所带来的局限性,增加了需要解释型人工智能(XAI)的呼声 1,2 。可解释或可解释的机器学习和 AI 算法,是一种人类用户可以理解如何根据输入得出预测(输出)的系统。 “可解释的”和“可解释的”这两个术语经常被 interchangeably 使用,但有些作者强调了这两个术语之间的区别 4 。在本次综述回顾中,我们将使用 Graziani 等人提出的术语“可解释的”。他们定义“可解释的”为 "[...] 为了说明 ML 系统是如何为一组输入或单个输入生成预测的,举例说明了系统所使用的一些特征或高阶概念。 4 在临床实践中,XAI 的目的是达到一个共同的目标——为 AI 模型提供解释,以增强医生的效能和患者的安全性。通过各种不同的 XAI 方法可以实现可解释性,例如,在医学图像分析中,XAI 主要基于视觉解释,被称为“ saliency maps”。


通过表现出更好的质量保证和可审计性,以及用户对系统的信任增加,XAI 系统比“黑色盒子”模型提供了多种优势 5 。然而,到目前为止,一些挑战尚未得到解决,阻碍了挖掘 XAI 的全部潜力。这包括缺乏研究,这些研究将其他类型的临床数据(多模态 XAI)用于放射学 XAI 系统,或使用纵向数据集。 将这些数据类型合并并得出有意义的整体解释是具有挑战性的,并受到较少的关注。我们推测,多模态和跨时长的 XAI 方法的进一步发展在许多临床工作中是必不可少的,而且是极其需要的 6,7


在这一 narrative review 中,我们旨在向生物医学工程与信息学领域、医学医生及其他医疗专业人员,传达多模态数据融合与 longitudinal 数据分析在解释可解释性建模(XAI)中的应用。 此外,鉴于大语言模型当前的发展,我们提出了“XAI orchestrator”这一实例,或虚拟助手,能够协调、组织和表达特定 AI 模型的解释,并为医生提供一个基于用户体验的机制,用于进一步探究在多模态和纵向数据上运行的 AI 模型。


多模态和纵向数据的 XAI


在医疗保健中,诊断和治疗决策很少基于单一的扫描或血液采样——它们是在全面考虑所有相关信息的基础上做出的 8 。在一项调查中,大多数放射科医生(87%)表示,临床信息对图像解读产生了显著影响 9,10 。 这种临床信息可以包括基于文本的数据,如患者报告的疾病历史的记录、体格检查的结果、体征、实验室测量,以及更少的常见类型,如复杂-omics 数据,如基因组学。将这些不同类型的资料进行整合,统称为多模态数据,用于深度学习任务,是一种有前景且日益受欢迎的方法 11,12,13 。 人工智能系统可以从将多模态数据融入预测和分类模型中,以模仿人 类临床决策过程,从而显著获益。这可以增强其鲁棒性和准确性,发现新的生物标志物和治疗靶点 6,14 ,同时提高模型性能 15,16,17


同样地,关于生物过程时间演变的知识在医疗保健中起着至关重要的作用。例如,在 oncology,纵向信息对于评估缓慢进展的癌症或尚不确定尊严的癌症(良性 vs. 恶性),以及治疗反应的评估都很重要。 18 正如对于多模态数据一样,为 longitudinal 数据的分析引入可解释性方法,也可能有助于系统的稳定、鲁棒性和信心 19


关于多模态数据的 XAI 研究的讨论


多模态融合在使用单一模态的情况下具有各种好处。多种模态可以实现互补信息的可视化,增强预测的鲁棒性,并使系统即使在某一模态缺失的情况下也能作出预测 20 。放射影像数据已被与其他数据类型用于各种临床领域内的预测型 AI 系统 21,22,23,24 或神经学领域 25,26 。 为了系统综述医学影像与电子健康记录(EHR)数据融合的研究,我们建议读者参阅 Huang 等人 10 的工作。然而,很多时候,不同研究小组会采用不同的方法并得出不同的结果。例如,基于 ADNI 数据集的轻度认知障碍或阿尔茨海默病的预测经常被研究 27,28,29,30,31,32 。 但它们的预测准确性各不相同,许多研究没有讨论哪些输入模式或特征对预测贡献最大。这使得对这些研究的比较变得困难,限制了结果的可转移性。除了在性能水平上的模型比较之外,XAI 技术可以增强基于病理生理学可靠性比较,通过提供有影响力的特征,例如海马体和杏仁核的体积作为认知障碍的生物标记物 33


目前,只有少数这些关于多模态 AI 的研究尝试使其系统可解释,尽管已强调多模态 XAI 系统的重要性 6 。目前,关于多模态 XAI 最综合的研究由 Soenksen 等人完成,他们开发了“医学综合 AI (HAIM)”框架,用于融合影像、表格、文本和时间序列数据 16 。 作者提出了针对特定模态的嵌入,这些嵌入被组合并输入到 XGBoost 分类器中,以执行各种预测任务。在测试其框架在超过 14,000 种不同预测模型中表现时,他们发现基于多模态数据的预测结果比单一模态的比较器高出 6-30%。为了提高可解释性,Shapley 值被计算应用于所有输入数据 16 。 这项研究表明了坚实的基石,为了进一步的改进、发展和测试(X)AI 系统,也需要在日常临床工作流程中发现的数据质量级别的数据集上进行实验,同时使用精心挑选的研究数据集。此外,从入院到当前,获取的数据可能不足以涵盖所有相关的信息,特别是在慢性病领域。系统应该致力于从先前的住院史和门诊咨询中获取数据。 此外,将结果以二元分类任务的形式建模并不完全捕捉临床实践。对于 XAI,与二分类问题相比,多分类或多标签问题的复杂性也有所增加。最后,评估由互换输入特征的多种不同模型组成的多种模型的综合是初选框架提出的框架的合适评估方法。 之后,重要的是要以小批量、慎重选取的方式测试多个模型,这些模型能解决临床相关的问 题。


对于成功将图像与其他数据类型结合用于解释性人工智能的例子,最近有一些例子 15 。他们引入了一种自监督学习方法,在特征空间中通过使用对比损失将视网膜底片图像与不同类型的遗传数据进行组合和对齐。在该研究中,作者们将可导解释性算法适配以理解跨模态关联。 作者发现,通过加入遗传信息,图像模型的性能得到了显著提升。然而,遗传分析往往成本高昂且耗时。在无法避免采用高投入的数据模态之前,希望主要以易于获取的临床数据为主,如患者 demographics、医疗史、生命体征和常规实验室值。此外,在开发过程中,临床适用性始终需要牢记。 从视网膜影像中预测如年龄、性别、吸烟状况、血压和 BMI 等心血管风险因素是一项技术上有趣的任务,但这些信息也可以通过一次简短的患者访问获得。


最后,张等人的研究预测了从病理全片图像(WSIs)中预测结肠癌微卫星不稳定性(MSI) 34 。预测仅基于一种类型的数据,WSIs,但其他数据类型被用于实现模型的可解释性。 作者从最能预测微卫星动态失衡(MSI)的病理表征中提取了相关性,探索了这些表征与有关 DNA 修复不足和免疫激活的遗传和转录组学模式之间的相关性。


还有其他研究存在,它们将多模态数据结合用于 XAI 系统,但并未涉及医学图像。例如,Jurenaite 等人使用基于变换器的深度神经网络,采用非固定突变基因序列(mutomes)和转录组数据,在一个变换器-based 的深度神经网络中,旨在预测七种常见的肿瘤类型 35 。对于可解释性,主要的归因方法被应用,以获得每个患者和特征类型的特定归因分数。 对于遗传数据,作者报道,具有最高归因分数的基因都具有在癌症发生中已知的生物学意义,这为人工智能系统的可靠性提供了有价值的证实证据。在 Prelaj 等人那里,基于 demographics、实验室测量、肿瘤特征和分期、治疗信息和放射学信息,预测了免疫疗法在非小细胞肺癌中的有效性 36 。 放射学特征包括了某些类型转移瘤的存在信息;但影像数据并未直接输入模型。为了提高可解释性,他们使用了 SHAP(SHAPLEY 值),证明了在他们的模型中,最相关的特征是先前已证明对 36 非常重要 的临床生物标志物。


有多个工具包,如 AIX-360 37 ,Alibi 38 ,Captum 39 ,EthicalML-XAI 40 ,iNNvestigate 41 ,Quantus 42 ,以及其他工具包,提供了广泛应用于医疗影像的多种任务的实施良好的 XAI 方法(表 1)。虽然这些库中许多可以单独处理不同输入数据类型,只有 Captum 专门提供了多模态处理输入特征的不同数据类型的联合处理。 为了方便质量控制和可比性,有些工具库还提供了 XAI 评估 37,39,42


表 1 当前的 XAI 库及其支持的输入数据类型概览


多模态数据的 XAI 面临的挑战


在设计旨在处理多模态数据的 XAI 时,需要考虑一些具有挑战性的方面:

  1. 1.


    选择可视化解释的方法。放射学数据中, saliency maps 可能不适用于其他数据类型,如表格数据 43 。目前,许多研究采用早期融合技术,其中来自不同模态的数据在未经过充分处理或联合前就被提前组合或连接。这使得很难理解各种模态在系统决策中的具体贡献程度、位置和方式。

  2. 2.


    领域知识。一些 - 益学 数据,如代谢组学,本身就是复杂多变的,因此解读工作应该由受过训练的专家来完成。XAI 系统的开发者和用户只能在某些人类医学的特定领域具有专业知识。随着每个患者信息量的增加和信息的多样性,预计会出现多模态 AI 系统,这将进一步放大 AI 系统的黑盒性质。

  3. 3.


    维度魔咒。随着生物多样性的科学技术日益先进,数据的维度迅速增加,即使样本数量保持不变,随着时间的推移样本数也超过了数据的维度。这一现象被称为“维度魔咒” 44 。数据维度的高增加性,使其成为研究的吸引力,同时,也是限制算法开发以处理现实世界场景能力的限制因素 45 。 在这种情况下,XAI 成为关键,因为解释性方法可以帮助找到并消除虚假相关性,并缩短学习过程 46,47,48

  4. 4.


    对对抗攻击的易感性。多模态模型的鲁棒性是一个持续讨论的话题,因为多模态模型可能在对抗攻击上与使用单一模态的模型同样或甚至更易受攻击。这种对对抗攻击的易感性源于增加输入维度对鲁棒性的影响。 49,50,51


关于多模态机器学习和 AI 在医疗健康领域的额外组织或技术挑战已经指出 20,44,52


对 XAI 在 longitudinal 数据上的研究的讨论


关于将纵向影像数据与其他数据类型进行组合,Rahim 等人旨在从具有三个时间点的三维磁共振成像(MRI)数据中预测阿尔茨海默病, 53 。 他们建议使用 3D 卷积神经网络来从 MRI 体积的每个时间点学习深度的时空和层面特征,以及使用双向循环神经网络来学习不同时间点之间的时空特征。此外,他们提供了两种类型的视觉解释:来自每个时间点二维(2D)MRI 切片的激活地图,以及 3D 大脑表面渲染。


除了 Rahim 等人的研究外,很少有人利用纵向放射学图像开发一个解释性人工智能系统。在其他非医学领域取得了更多进展。例如,安吉特拉-鲁兹等人利用膳食干预研究的纵向基因表达数据,分析了时间相关基因间关系 54 。通过顺序规则挖掘算法,他们旨在找到生物相关模式,并以易于理解的形式呈现出来。沙希克玛斯等人的研究 使用了从电子健康记录中的纵向数据,用于在重症监护病房中早期预测败血症 55 。此外,系统还通过输出每名患者在每个时间点个体败血症风险的顶级因素,提供了本地解释性分析。在伊布拉欣等人 56 中,作者评估了与年龄和性别相结合的长序列心电图数据,以预测急性心肌梗死。 他们设计了三种算法,其中 XGBoost 模型表现出最佳性能。Shapley 值被计算出来,年龄、年龄调整的 Charlson comorbidity 指数以及 QRS 波群的持续时间被证明对预测最具贡献。为了概述适用于非医学影像特定的时序数据的可应用于时序数据的 XAI 方法的综述,我们推荐读者参考 Rojat 等人的工作 19


至于多模态的 XAI,涉及放射数据的 study 尚存缺失。有建议指出,关于长期数据的 XAI 研究较少,这是因为输入(单个或集合的时间点)往往缺乏对人类有意义的解释 57 。在我们看来,这并非总是正确的。在医学领域,某些输入信息只有与先前或后续数据结合时,才能变得有意义。 例如,对于急性心肌梗死(AMI)的实验室诊断,需要至少在两次情况下测量高敏心肌钙蛋白(hs-cTn) 58 。如果在至少一次测量中 hs-cTn 升高超过健康参考组的第 99 百分位数 th ,并且在两次测量之间观察到 hs-cTn 的升高或降低,这可以用来区分 AMI 相关的升高和慢性条件,如慢性肾病 58


对于 longitudinal 数据的 XAI 难点


正如对于多模态数据一样,将图像的时间序列整合到 XAI 模型中,可能与其他类型的数据结合,面临着一些挑战,需要考虑。

  1. 1.


    连续记录数据 vs 间断记录数据。大多数放射性影像都是间断采集的。另一方面,超声波则允许在时间线上连续记录图像,从而捕捉了机制性信息,如心脏腔室的收缩和心脏内的血流在心电图中。 对于此类连续数据,开发既基于时间的 XAI 技术,如彩色标识的敏感信息的视频序列,可能会提高底层时间信息的理解力。

  2. 2.


    数据稀疏性和采样间隔。尽管数据填充技术旨在通过相邻测量的插值来填补缺失值,但这些方法是否始终有效,这取决于参数本身的生理学。例如,前列腺特异性抗原(PSA)随着时间的推移逐渐变化,所以如果在数月内每隔一段时间测量两次,那么实际值的时期最有可能落在这些两次测量之间。 然而,其他参数反映了急性变化,需要灵活的采样间隔。例如,两个 C 反应蛋白(CRP)测量,间隔数月,可能都显示小于 3 毫克/升的正常值,而患者可能在中间发展出了并恢复了严重的胰腺炎,CRP 可能达到了,比如,280 毫克/升。对于多元数据,涉及的数据类型越多,定义有意义的采样间隔就越困难。

  3. 3.


    表示时空关系。在临床工作流程中,影像中的时空关系非常重要。然而,当前的聚焦地图只能显示人工智能系统关注的区域,并且受限于只处理单个时间点。如果患者多次进行影像检查以同一疾病,对于聚焦地图来说,反映疾病的程度将是一种 desirable 的体现,这将隐含地反映了疾病关于“位置”和“进展程度”的信息。 因此,我们提出了一种“微分着色图”,它会将疾病演变状态(例如,疾病进展,治疗反应,稳定疾病等)的成像模式着色编码,而这种地图的透明度则反映了该局部区域对于最终诊断 AI 系统解释的 AI 系统的重要性(即,归因级别)。这类似于图 1 所示。


    图 1:改进的长时序场景下的突出显示地图。
    figure 1


    delta 盐度地图。在间质性肺纤维化的例子中,左图(a)是在中间图(b)大约两年前拍摄的。在这两年的时间里,疾病进展极为严重。delta 盐度地图(c)通过黄色、橙色和红色的叠加,展示了疾病的这一进展。 肺的前部和后部以及肋膈面,因受严重波及,以及区域的肋膈面,预计将对分类产生最大贡献,因此以颜色最高程度的透明度进行覆盖,而肺外区域仅轻度覆盖,因为它们预计仅能产生微小的贡献。


提出 XAI 组织者


考虑到多模态和纵向 XAI 的日益复杂性,以及两者都需要结合的需求,我们提出了 XAI 组织者。其开发的动机是在于,医学肿瘤委员会中,来自不同医学领域的专家们共享他们的专业知识,讨论检测结果,并将各自的发现结合起来,以确定最优化的治疗策略。 我们设想了一个类似的方法来实现 XAI 系统:收集和使用预训练的生物医学知识,以及患者特定的多模态和 longitudinal 数据,来预测结果。XAI 系统解释结果,提供特定模态的解释。随后,将所有内容通过一个基于大语言模型(LLM)的 XAI 组织者组装起来,该组织者考虑输入数据、预测结果和解释结果(参见图 2)。 它提供了一个用户友好的总体解释,并回答后续问题。在这里,我们没有提供 XAI 协调器的完整实现和结果,而是描述了它如何从大语言模型当前的发展中产生,以及它的期望属性、功能和指标。在补充材料中,我们提到了补充讨论 A 和补充图 1,以及补充讨论 B 和补充图 2。 2) 我们提供两个临床案例,展示了在诊断过程中,多模态和长时段数据的重要性,这些案例说明了 XAI 协调器可以被应用的情境。


图 2:XAI 助手的概念描述。
figure 2


临床指南和近期研究构成了 XAI 组合器的知识基础。此外,收集了多模态的患者特定数据。在预测结果后,XAI 方法被应用于生成模态特定或时间特定的解释。超前的 XAI 组合器综合了所有信息,并生成了一个全面的总体解释,同时使专家能够进一步询问。绘制图像是使用 BioRender.com 完成的。


XAI 控制器和大语言模型


大语言模型在医疗实践和研究中具有许多潜在的有利应用,包括诊断(例如,疾病风险和结果的预测)和程序(例如,临床流程、记录、成本效益)的任务 59 。最近,针对生物医学领域的多语言模型已发布,例如,属于 BERT 家族的模型。 BioBERT 在 PubMed 题录和 PubMed Central 全文文章上预训练,任务如命名实体识别、关系抽取和问答超过了之前的模型 60 。Med-BERT 在结构化电子病历数据中预训练,对糖尿病患者中的胰腺癌和心脏病进行评估 61


尽管大语言模型的主要优势在于处理和回复文本输入,以及逻辑推理,但正在研究利用大语言模型能力进行图像分析的策略。例如,王等人提出 ChatCAD,一个系统,它接收胸部 X 光片作为输入,并将它们传递给不同的辅助诊断系统,这些系统产生输出向量 62 。 这些向量被翻译成文本,被连接起来,然后被传递给一个大语言模型(LLM),它共同分析这些向量,融入预训练的医学知识,并总结出结果。


目前,许多研究小组还致力于开发结合多种医疗数据类型的大型语言模型。GLoRIA 是一个基于注意力的框架,通过对比文本部分与来自同一批胸部 X 光片( 63 )的图像子区域,从放射学报告中学习全局和局部的医学影像表示。为了应对公开可获取的图像报告对对数的稀缺性,它们进行了一致比较,例如 在可访问的猫和狗图像数量的基础上,MedCLIP 解耦图像和文本,以实现多模态强化学习,从而增加了训练数据的数量,并缓解了错误否定报告的问题(即许多报告并不属于目标患者的照片,但可能仍然正确地描述了他们的发现) 64 。 在 MedKLIP 中,作者开发了一个三元组提取模块,该模块编码从放射学报告中提取的医疗实体、其位置,以及是否存在或不存在作为三元组。然后,这个三元组被用一个实体翻译编码,该翻译通过查询医疗知识数据库,为实体提供详细描述。


即使是针对非医学特定领域的模型的能力也在被测试:尽管 Open AI 表示 GPT-4V 适用于医学图像的解读 65 ,但它在多模态医学图像上的表现,无论是否与其他类型临床数据结合,已被评估 66 。虽然它可以区分图像模态并识别解剖区域,但其临床应用的诊断能力目前并不最优,这说明了在医学数据上进行专门训练的重要性。


我们相信,基于大语言模型的协调器在临床领域中具有潜在的好处,因为它可以提供适应当前用户和情况的解释说明的表述。此外,基于大语言模型的技术可能使用户和(X)AI 系统之间实现双向“对话”。在比较遥远的将来,这样的系统可能具有虚拟助手的能力,能够在临床场景中充当顾问。


XAI 组件的 desirable 属性,功能和指标

 属性


从临床角度来看,我们提出以下属性,以帮助 XAI 协调器在日常实践中发挥作用(表 2):


表 2 XAI 组织者提议的属性、功能和指标的总结
  1. 1.


    适应性。XAI 协调器必须适应一组可能稀疏的输入数据的不断变化。如果底层数据包含互补信息而非互信息,那么解释应该会更好 7 。为了实现这种适应性,XAI 协调器需要在代表性的现实世界数据上进行评估。

  2. 2.


    层次化的。XAI 管理器应该能够提供不同详细程度的解释,当需要时,进一步的信息会被提供。

  3. 3.


    具有不确定性意识。XAI 协调器还应考虑底层数据的质量,包括完整性、最近性、噪音水平等,并相应地在总体解释中权衡其各自的 XAI 输出。

  4. 4.


    互动的。XAI 运调师应该包含一个聊天模式。虚拟现实设备可能有助于实现沉浸式、灵活的交互,这可以根据用户的偏好进行定制。

  5. 5.


    时间效率高。XAI 协调者应该考虑到时间效率,因为它发现有时临床医生更倾向于快速、不那么详细的信息 67

  6. 6.


    具有因果性和相互依赖性的检测。对于 XAI 协调器来说,了解数据中的相关性和因果关系,特别是生物学过程的因果关系,以及涉及迭代排序和评估的元因果关系,是很有用的。明确的因果关系知识被大量低估,因为当前的(X)AI 主要由依赖输入和输出变量之间相关性的深度学习系统组成。 然而,因果关系最近再次受到广泛关注,讨论深度学习中的因果关系 68 ,以及医学成像中的因果关系 69,70

  7. 7.


    模块化的。该协调器由不同模型和 XAI 方法组成的各个部分应该允许灵活、模块化的测试和验证。这将有助于在数据变化时实现有目标的更新和维护,即图像处理单元可以在引入新扫描仪后无需重新训练不受数据变化影响的部分。

  8. 8.


    隐私保护。XAIX 控制器应该保证隐私保护,例如通过应用联邦学习和转移模糊权重。然而,需要考虑即使掩盖化的梯度也可能成为可逆攻击的目标并泄露信息 71,72

  9. 9.


    对数据漂移有抵抗力。XAI 方法需要在多中心数据集上进行评估和验证,以确保它们的泛化能力和对不同扫描仪供应商、成像协议以及可能引起模型漂移的其他潜在差异的适应性。对于 XAI 组合器,模型漂移可能会导致解释漂移,这可以突出说明中所使用的数据信息是什么,从而强调了 AI 系统如何使用这些信息来进行操作。 例如,某些 XAI 盐度图会对其数据的内部表示进行规范化,而其他方法则不会。这些 XAI 方法之间的差异可能在使用不同数据获取协议和供应商的参与中心之间,导致 XAI 结果的不一致性。在此处,进一步研究开发 XAI 技术的领域适应策略是一个有趣的方向。

  10. 10.


    最新状态。预训练的医学知识库应通过定期自动更新来保持最新。


为了使 XAI 协调器在临床应用中发挥作用,开发时间效率高、用户友好的人机交互(HMI)系统至关重要,这些系统针对特定的临床专家设计,并且具有定制特性 73,74 。在此方面,我们认为,具备层次性和互动性(或层级性和交互性)的特性,对于设计和测试整合提出的 XAI 协调器的 HMI 系统,可能会有所帮助。

 功能


XAI 控制器将提供临床相关的功能,支持医疗工作者在日常工作中的任务。

  1. 1.


    信息融合。XAI 统治者能够以比人类更快、更全面的方式汇总信息。

  2. 2.


    任务分类。在临床工作中,医护人员常常面对大量任务的重压,有时难以明确哪一项任务需要优先处理。XAIS 调度器可以超越传统优先处理急诊患者的任务分类方法,帮助所有专业的医护人员管理时间。

  3. 3.


    情景模拟。此外,除了汇总患者数据和专业知识,XAI 转控器还可以辅助推断额外诊断测试或治疗的影响。例如,如果诊断测试被建议避免,即使测试结果相同,治疗方式也应保持不变。

 指标


衡量 XAI 解释的“好坏”是一个活跃的研究领域。最近,像 Quantus 这样的 XAI 工具包开始为 XAI 方法提供评估指标。Quantus 将他们的评估指标分为六个组:忠实度、鲁棒性、局部化、复杂性、随机化和公理指标 42 。对于 XAI 调控器,我们想象出类似的指标类,但现有的库需要扩展和丰富,以适配大语言模型的评估。 大语言模型的评估仍然少见,有人认为它们衡量的是自洽性,而不是实际的忠实度 75


未来实施 XAI 组织器的可能性有哪些?


现有的变换器可以用来处理不同模态的数据;例如,文本数据由 Clinical-BERT 处理,图像通过视觉变换器处理。处理后的嵌入向量被串联并共同转发到中央的 XAI 组织者解码器。用户的提问,作为提示编码,与先前的医学知识一起,通过检索增强生成(RAG)发送到解码器。 中央 XAI 组织解码器由多个变换器解码层组成,这些变换器解码层生成对输入问题的文本响应(参见图 3)。


图 3:XAI 控制器的潜在实现方法。
figure 3


将患者数据的多模态编码与检索的上下文信息和用户提示一起输入到解码器中,解码器生成用户的需求解释。用户的问题,作为提示编码,以及先前的医学知识,通过检索增强生成(RAG)的方式发送给解码器。 中央 XAI 组织解码器由多个变换器解码层组成,这些层将输入问题生成文本响应。


回答问题通常是在专门的训练数据中学习的 - 人们针对培训目的特意提出的问题的答案。这需要大量时间和成本。此外,还可以使用医疗专业人员在日常工作中给出的口头互动,例如在肿瘤讨论会上,包括问题和答案。肿瘤讨论会可以被录制并转录。 由医学专业人员给出的现实生活中的解释,可能使用了高度专门化的医学词汇,因为它们是为同事准备的。为了更好地理解由 XAI orchestrator 提供的解释,他们可以被另一个大语言模型增强和丰富,例如,在 MedKLIP 中,通过查询医学知识库来实现实体翻译,从而理解未见过的实体 76 。 利用现实世界的解释进行二次利用,将极大节省时间、金钱,并使训练接近医学专业人员实际的培训方式。


通过 XAI 组合器获取洞察力与前进路径


XAI 方法的受欢迎程度迅速增加,但仍有很长的路要走,才能将这些方法论工作完全应用于临床实践。 为了优化定制 XAI 系统以满足用户需求,临床专业人员应参与从系统开发周期到研究合作伙伴关系或顾问角色的整个开发过程,以促进系统顺畅集成到现有流程中,根据具体用户的技能和需求进行定制,并产生临床影响 77 。 此外,这个过程还应该包括其他临床职业,如护士或放射技术员,他们可能也在使用这个系统。通过与技术方面 XAI 技术有扎实基础的临床专家进行富有成效的讨论,可能有助于促进这一过程。 78 ,医学学生中广泛表达了这一需要,将 AI 知识融入核心课程。 除了个人建议和定期在人工智能领域进行的调查 79,80,81,82,83 ,一项跨学科的德尔菲研究,针对目标用户群体的放射学 XAI 系统,可能为了解决大多数人可能达成共识的哪一方案提供见解。79,80,81,82,83 德尔菲研究通过问卷收集专家意见,就像简单的调查一样,但问卷在多个轮次下进行,旨在实现专家群体的一致意见 84 。这有优势,因为德尔菲研究得出的成果可能比简单的调查更为清晰。最近的一篇文章描述了专家们在保险行业开展的德尔菲研究,以获取关于 XAI 他们偏好和观点的见解 85 。 目前尚无关于放射学 XAI 应用的类似研究。


此外,需要适应临床医生需求的教育材料。关于 XAI 技术的技术层面的教育材料可能超出了临床医生的需求。材料应该侧重于使用 XAI,而不是开发 XAI。此外,重要的是要向用户解释系统及其解释的局限性。 为了让用户信任系统,他们需要了解模型在哪个领域可靠,在哪个领域不确定,在哪个领域可能崩溃 86 。当系统面对领域变化时,需要仔细观察解释的变化。


在本次回顾中,我们旨在引起 XAI 社区对开发既能处理多模态数据又能处理纵向数据的 XAI 系统的关注。通过对多模态 XAI 的现状分析,我们发现很少有研究使用 XAI 方法来产生关于解释的多模态 AI 系统良好特性的确认证据。 此外,我们观察到这些研究仍处于原型阶段,鼓励社区在包含日常临床常规中数据质量水平的数据集上进一步开发和测试可解释性系统。同样,已经提出了一系列方法来分析具有可解释性特征的纵向数据 57,87,88,89,90 ,但大多数方法尚未在现实世界中的临床问题上进行广泛应用。关键的下一步是这些方法需要进行广泛的实地测试和外部验证。 在应用和临床问题上的研究应以技术方法开发中所展现的同等严谨进行。对于现有方法,讨论一个良好或可靠的解释是什么,这是一个持续的讨论( 91 ,诸如此类)。


最后,我们提出了一种虚拟助手,名为“XAI 组织者”,用于协助医生,其能力在于协调对特定模型的解释,并提供一个用户中心机制,用于进一步询问 AI 在多模态和 longitudinal 数据上的运行情况。随着大语言模型的兴起及其在医学领域的应用,我们相信开发一个基于大语言模型的 XAI 组织者,可以成为恰逢其时的创新。 然而,由于这种系统在协调具体(X)AI 系统方面所承担的责任,仍然需要解决一些挑战,以确保其可靠性、数据安全和可信度。

 报告摘要


关于研究设计的更多信息,可以参阅与本文关联的《Nature》研究报告摘要。