生物信息学简报 , 2024, 25(3), bbae153
网址:doi.org/10.1093/bib/bbae153
问题解决协议
通过将基因关系与深度学习相结合来改进药物反应预测
李鹏勇, 江正祥, 刘天晓, 刘新宇, 乔辉 , 姚晓军
通讯作者. 姚晓军,澳门理工学院应用科学学院 人工智能 驱动药物发现研究中心 大学, 999078 澳门, 中国. 电子邮件: xjyao@must.教育。莫
腹肌束
预测 癌细胞系 的药物反应对于推进个性化癌症至关重要 治疗,但由于肿瘤的异质性和个体多样性,仍然具有挑战性。 在这项研究中,我们提出了一种基于深度学习的框架,称为深度神经网络集成先验知识(DIPK)(DIPK), 该框架采用自监督技术 整合多种有价值的信息,包括基因相互作用关系、基因表达谱和 分子拓扑结构,以提高 预测的准确性和稳健性。 我们证明了 与现有方法相比 ,DIPK在两种已知方法上都具有卓越的性能 以及新型细胞和药物,强调了 基因相互作用关系在药物反应预测中的重要性。 此外,DIPK 将其适用范围 扩展到单细胞 RNA 测序数据,展示了其 单细胞水平反应预测和细胞鉴定。 此外,我们评估 了DIPK对临床数据的适用性 。 DIPK 准确预测 了病理完全缓解 (pCR) 组对紫杉醇 的更高反应 与残留病灶组相比,肯定 了pCR组对 化疗化合物。 我们认为 , 将DIPK整合 到临床决策过程中具有潜力 加强针对癌症患者的个体化治疗策略。
图形摘要
关键词:药物反应;药物基因组学;深度学习
公司介绍
人类癌症通常在几乎所有 可辨别的表型特征中都表现出显着的异质性,这是 成功的巨大障碍 个体化治疗[1,2]。 随着 基因组分析技术的出现,药物基因组学[3\u20126]开辟了新的领域 个性化医疗发展的机会。
药物基因组学旨在 研究基因组改变和转录组编程 如何影响药物反应,从而允许 基于患者独特基因谱的个性化药物治疗 [7]。 近年来 ,高通量药物筛选技术 使研究人员能够 进行 关于癌细胞系药物反应 的大规模实验 [8–10]。 癌症药物敏感 性基因组学 (GDSC)[11]等项目 ,以及
李鹏勇是 西安电子科技大学的助理教授 。 他在清华大学获得 博士学位 。 他的研究兴趣集中在 人工智能
技术和药物发现。
江正祥是西安电子科技大学的一名本科生 。 他的研究兴趣包括深度学习和生物信息学。
刘天晓在西安电子科技大学获得 学士学位 , 现为 研究生 在西安电子科技大学。 他的研究兴趣包括深度学习
和分子生成。
刘新宇是 北京大学 口腔医学院和口腔医院 的助理教授。 他在清华大学获得 博士学位 。 他的研究兴趣
包括生物材料和药物设计。
Hui Qiao 是泰安市立医院的一名肿瘤科医生 。 他的研究兴趣包括癌症治疗。
姚 晓军在巴黎第七大学丹尼斯·狄德罗获得博士学位 。 他是澳门理工大学的教授 。 他目前的研究兴趣包括药物发现和生物信息学。
收稿日期: 2023-12-26。 修订日期:2024 年 3 月 5 日。 录用日期:2024年3月18日
© 作者(s) 2024. 由牛津大学 出版社出版。
这是一篇开放获取文章,根据 知识共享署名的 条款分发 许可证 (https:// creativecommons.org/ licenses/by/4.0/),允许 在 任何媒介,只要正确引用原始 作品 。
2 | Li 等.
癌细胞系百科全书(CCLE)[12] 分析了 多种癌细胞系和对这些细胞系的药物敏感性[13]。 这些药物基因组学数据集提供了 更全面的遗传基础表示 用于药物代谢和疗效的可变性[14,15]。
近年来,许多利用药物基因组学的深度学习(DL)模型[16] 得到了开发 用于预测药物敏感性的数据集,显示出优于传统机器学习 的性能[17\u201224]。 通常, 其中许多方法都利用 了强大的特征提取 DL 学习 细胞系和药物表征 的能力,以及然后合并学习到的表示以产生最终预测。 针对细胞系和药物存在多种修饰 策略 。 例如,Manica 等人。 [25] 提出了一种基于注意力的卷积网络来学习 2019年的药物SMILES[26]和细胞基因表达 谱。 由于处理 高维基因数据在计算上 很困难, 他们通过网络传播 筛选出 信息性基因的一个子集。 蛋白质-蛋白质相互作用网络[27]。贾楠.[28]2021 年引入 DeepVariational AutoEncoder 将基因表达压缩到潜在载体中 并证明 这些载体可以准确预测药物反应。 Chawla 等人。 [29] 展示 考虑药物描述符和基因通路的好处 2022 年的特色。
尽管这些初步研究在药物反应预测方面取得了 长足的进步,但仍存在 关于表征细胞和药物的争议。 大多数方法使用转录组学特征(基因表达谱)进行细胞系表示; 然而,越来越多的 证据表明,药物反应可以通过 以下因素进行调节。 多个基因的协同行为和复杂相互作用[30–34]。 因此,仅使用转录组学特征而不使用基因关系可能会限制准确性 以及响应预测的鲁棒性。此外,目前的方法主要使用分子指纹或SMILES 来表征 药物 无法 编码分子拓扑信息的化合物。
为了解决这些问题 ,我们提出了D eep神经网络I集成P rior Knowledge (DIPK) 用于癌症药物反应预测,一种旨在 结合基因相互作用关系、基因表达谱和 分子拓扑在预测 癌症药物反应中的 应用。 先验知识的提取和整合通过 以下方式得到有效处理 自监督技术和 注意力机制的应用 。 DIPK 中采用的自监督技术使模型能够 有意义地学习 来自未标记数据的表示,利用 基因中 可用的 丰富信息 和化合物。 这种方法 增强 了模型捕获复杂模式和关系的能力 在数据中 ,从而提高预测性能。 通过利用注意力机制,DIPK 可以有效地关注 相关特征和 优先考虑不同组件的重要性 ,进一步增强其预测能力。 通过结合 基因相互作用关系和分子拓扑结构,DIPK 捕获 基因 和药物之间复杂的相互作用,提供了 更全面的 了解 药物反应机制。 这种对先验知识的整合使DIPK能够利用现有的生物学知识并增强其预测能力。
为了评估 DIPK的预测能力,我们对GDSC进行了 交叉验证 和CCLE数据集,以证明 DIPK在预测药物方面的准确性 对已知细胞系和药物的反应。 此外,我们通过评估其在以下方面的性能来检查该框架的外推能力 新型细胞系和药物。 通过我们的 DIPK 模型获得的预测误差显着降低,表明其 优于状态
药物敏感性预测的最新 方法。 此外,DIPK 通过实现准确的药物反应预测,展示了其强大的泛化性 使用单细胞表达谱。 这种能力凸显了 DIPK 有效促进 多样化的潜力数据类型。 值得注意的是,我们的研究还证明了 DIPK在预测药物方面的可靠性 使用患者数据做出响应。 通过分析乳腺癌 患者数据集,DIPK 成功地完全区分 了患者 有或没有病理完全 缓解(pCR)[35]。 这一发现表明DIPK在临床治疗中具有潜在的 应用潜力 设置。 据我们所知,这项研究 是 整合先前的 了解 基因相互作用关系和药物拓扑,以模拟药物敏感性。 DIPK 框架在各种数据集上的卓越性能 及其 处理不同 类型 数据的能力进一步凸显了其在以下方面的潜力 推进 个性化医疗发展 。
我THODS
模型框架
细胞和药物的准确建模构成了 药物反应预测的基石。 特别是,细胞的特征 在于它们的遗传信息,这些信息被编码在 存在于每个细胞中的脱氧核酸 。 细胞的行为 和性质受到 基因的深刻影响 相互作用和基因表达模式[36]。 因此,为了有效地封装 细胞的内在特征,DIPK采用了 强大的生物网络 集成框架,称为 仿生[37]。 仿生 无缝集成多个高质量基因相互作用网络,最终实现 通过使用 图形自编码器(GAE)[38]。 该过程 涉及将源自 BIONIC 的高表达基因特征聚合到 表征给定细胞系固有 的复杂基因相互作用关系(见图1A)。 此外,DIPK还采用了 降噪自动编码器(DAE)[39] 来压缩 将细胞系的 基因表达谱转化为 低维隐藏 向量(图1B)。 通过将基因关系的表征 与基因表达谱融合在一起,DIPK实现了 对 细胞的更全面的理解。这种综合方法增强了捕捉 基因之间复杂相互作用的能力 相互作用和基因表达,提供 更准确的细胞 表达特性。
为了表征药物化合物, DIPK 利用预训练的分子图神经网络 (MolGNet)[40],将 分子图表示 转换为通过 基于邻居注意力的消息传递方法的原子连续向量(见图 1C)。 这种预训练的MolGNet 擅长 捕捉分子中 有意义的模式 拓扑结构,导致 可解释和表达的重复。 如图 1(D)所示 ,DIPK采用了 多头注意力机制 [41] 将细胞和药物信息融合 在一起,产生全面的 药物代理。 将药物表示 与细胞表示相结合, 然后进料到全连接层,生成 最终的药物反应预测。 通过整合 细胞和药物信息,DIPK为以下领域提供了一个 全面的框架:准确率药物反应预测。 基因互作关系、基因表达谱和分子拓扑结构的整合 iCal Structure增强了对复杂细胞过程和药物机制的理解。
总体而言,DIPK由细胞建模、药物建模、融合和输出组成。 其中,包括细胞 的表示
改进药物 反应预测 | 3
图 1. DIPK的模型框架。A)通过GAE编码基因 相互作用网络 ,得到基因特征 包含 交互的交互。对高表达的基因特征进行平均,以表示 给定的细胞系。 (B)基因 表达谱被压缩成低维隐藏 使用 DAE 的向量。 (C)用 分子图 表示药物 ,然后输入放入MolGNet中,获取 原子特征。 (D) 整合了相互作用组特征、转录组特征和原子特征 使用多头注意力层和全连接层来获取 LN IC50.
相互作用组特征和转录组特征,以及药物的评价 是 分子图。 下面将详细介绍 模型 框架 。
细胞建模
如图 1D 所示,细胞表征由 相互作用组组成 特征和转录组特征。 对于相互作用组特征, 我们确定了 具有最高值 的前 256 个基因 表达水平。 这些高度的 512 维表示
SMILES 字符串。 在图结构中,我们将原子分配为节点,将键分配为边。 然后,该图被用作 MolGNet 的输入 ,MolGNet 是一个 促进 编码表示的 生成(图1C)[40]。 在这个表示中,每个原子都由一个向量 768 表示 尺寸。 MolGNet 包含一个消息计算函数 M 和一个 顶点更新 函数 U, 这两个 组件作为 follows:
表达的基因是用仿生[37 ]提取的,这是一个综合 框架,可以 使用 GAE 结合多个高质量的基因互通 网络(图 1A))。 这些高度表达的基因表示的平均值被认为是 相互作用组特征 ,包含有关基因相互作用的宝贵信息。我们将基因表达谱压缩 为
mi t= M xt−1, xjt−1, eij , j ∈ Ni
xi t= U(ht−1, mi t)
(1)
(2)
一个 512 维的隐藏向量,被认为是 trans-scriptome 特征。 具体来说,我们采用了一个 DAE,该 DAE 包含一系列 整流线性单元 (ReLU)激活了尺寸为[2048、1024、 512、1024、2048]的全连接层(图 1B)[39,42]。 在预训练期间, 将带有随机噪声 的基因表达谱输入到大。 原始表达式配置文件与 重建的一被视为 损失函数。
药物建模
为了构建分子 图,药物的原子键和化学键细节 化合物分子通过其
其中 Ni 表示节点 i 的邻居,eij 表示 边 在节点 I 和节点 J 之间,顶点更新函数 U 是一个 门控循环单元网络[43],Ht−1为 隐藏状态
i
U 和 h0i 是 初始原子表示 xi 0。 MolGNet 使用 成对半图判别 [44] 进行预训练,该算法 旨在 区分两个半图 是否属于 同一来源,和图属性屏蔽 strategy。
融合和输出
在提取 细胞和药物表示之后, 融合和输出过程 集成各种功能生成
4 | Li 等.
最终输出。 相互作用组特征和转录组特性 受到相似的影响 操作顺序,涉及 ReLU 激活的线性层,然后是 单独的多头 包含 Atom 特征的注意层 。 注意力机制促进 了这些特征之间更高程度的交互,因此 增强 模型的 表示能力。 在大多数情况下 ,参数共享是在相应的之间 实现的交互组特征和转录组特征管道中的 层(即 在两个线性层之间或两个多头注意力层之间 )。 众所周知 ,这种策略可以通过 使其能够提高模型的泛化能力 识别并利用不同类型 输入特征之间的共性。 然而,当我们的方法的任务 是 预测药物反应时 学习了细胞系和药物, 对泛化 的需求 就不那么重要了。 从这种 矛盾中, 这些层之间的参数 保持 独特性,使 模型能够专注于 实现更细致的学习。 注意力层的 输出计算如下:
Predictionson将 5 倍平均以生成更准确的预测。 对于基线 Precily,我们使用了推荐的超参数。 对于使用GDSC数据集对未学习的细胞系和药物进行验证,有 训练集和测试集之间没有重复的细胞系或药物 拆分 数据集时。 使 结果具有统计显著性并使 训练集 尺寸尽可能 大[25], 则使用25倍交叉验证 。对于使用 CCLE数据集对未学习的细胞系进行验证, 没有 拆分 数据集时在训练集和测试集之间复制细胞系 确保 与报告的基线具有可比性。 实施了 5 倍交叉验证 , 随后从 5 倍进行预测 平均。 详情见 补充文本 S3.
使用单单元数据验证 模型
我们从以下机构进行的研究中获取 了单细胞RNA测序(scRNA-seq)数据 : Kinker 等人。 通过基因表达综合(Gene Expression Omnibus, GEO)与GSE157220[45]。 由于 没有 IC50, 单细胞数据集由 116 个细胞组成 线
注意力(Q, K, V) = softmax
QKT dk
V
(3)
和 173 种药物,包括 17 279 对细胞系-药物对。 值得注意的是,此数据集中包含的 细胞系被排除在 训练集之外 。 然后,我们使用此 数据集来验证 在CCLE上训练的模型 数据。 详情 见 补充文本S1.
其中 DK 是 原子特征的 维度,这些原子特征被输入到 两个独立的线性层,用于获得 矩阵 K 和 V。 编码的交互组特征或转录组特征被馈送到线性 层没有 激活函数,得到 矩阵Q。 分子特征是通过 将两者的输出 相加得出的 多头注意力层。 然后,交互组特征 由 ReLU 激活的线性层进行编码。 该层在保留维度的同时对 输入 执行 转换 的原始输入空间。 转录组特性 以类似的方式进行处理 。 然后 将分子特征 与 以下 两个线性层。 这种集成的特征表示随后被输入到一系列 完全 连接层,具有 维度
[768 + 512, 512, 256, 128, 1] 的层次结构。 ReLU 激活函数应用于 这些层。 最终输出是对 半极大值的 自然对数的预测 抑制浓度(LN IC50)。 为了训练 DL 框架, MSE 被用作 损失函数 因其 在解决问题 中的效率得到证实。
在 GDSC 和 CCLE Dataset 上验证 模型
在这项研究中,我们使用了两个数据集,GDSC和CCLE,来评估 DIPK的性能 。 两个数据集都提供了细胞-药物对和相应的IC50, 细胞系提供- ING 转录组数据和提供名称的药物。 使用药物 名称,我们从 PubChem 中获取了特定的分子结构 。 根据 转录组数据, 我们选择了顶部
256个 表达水平最高的 基因(见补充文本S2)。 我们从仿生中提取了这些高表达基因的特征 ,并将它们 平均为 交互功能。 按照标准化的数据预处理和清理程序(见补充文本S1),, GDSC 数据集产生 957 个细胞系和 206 种药物,得到 159 114 个 细胞-药物对。 同样, CCLE 数据集包括 550 个细胞系和 173 种药物,产生 总共 80 056 对细胞系-药物。
模型训练和验证
使用 GDSC 在学习的细胞系和药物上验证模型 数据集,我们进行了 5 倍交叉验证。 这
使用患者数据验证 模型
本研究中使用的 临床患者基因表达数据购 自 具有GSE25055、GSE32646和 GSE20194的GEO [28]。 每个样本都被注释为 pCR、RD(残留病灶)或 nCR(非 pCR)。 我们使用了 在 GDSC 数据集上训练的模型(以保持 表达谱类型的一致性)以预测 这些药物对 紫杉醇的反应 不同的患者。 详情 见 补充文本S1.
RESULTS (英语)
DIPK 提高了预测准确性和稳定性 GDSC 是一个综合资源, 提供大规模药物基因组学数据以支持 癌症研究[11]。 它包括 分析的癌细胞系的基因表达谱 通过阵列技术,以及 它们对各种药物化合物的相应反应 (IC50) [46,47]。 在这项研究中,我们评估了该模型对药物的性能 GDSC 数据集上 的反应预测 (药物反应数据和基因 表达数据取 自 GDSC) 使用 5 倍交叉验证。 为了确保准确报告 模型的预测能力,我们遵循了通常采用 的做法是从 5 个方面中 的每一个 获得的平均预测 [48]. 图 2A 显示了 预测值与 观察到 LN IC50 值。 为了突出 DIPK 的优势 ,我们将其性能 与 Precily [29],一种最近开发的基于深度神经网络的药物框架 基于 通路富集评分和药物描述符的反应预测。 如图 2 B 所示,DIPK 在均值方面 的表现明显优于 Precily 平方误差 (MSE),同时还表现出更高的 Pearson 相关系数 (PCC) 和 R2 值 (DIPK:
MSE = 0.7159 ± 0.0060,PCC = 0.9406 ± 0.0008,R2 = 0.8848 ± 0.0015; 精确地说:MSE = 0.9625 ± 0.0483,PCC = 0.9198 ± 0.0043,R2 =0.8460 ± 0.0077)。 对于这些指标的标准差,DIPK 低于 Precily, 表现出很强的稳定性。 此外,我们对预测性能进行了 深入分析 。单个细胞系和药物。 如图 2E-J 所示 ,DIPK 在不同细胞系中的性能优于 DIPK 以及药物在MSE、相关性和变异性方面的 差异,表明
改进药物 反应预测 | 5
图2. 批量数据的性能 。 (A) 观测的 LN IC50 和预测的 LN IC50 的散点图 。 密度由 颜色的差异表示。 (B) 模型在学习细胞系和药物上的性能比较 与GDSC数据集一起使用 。 (C) 模型在新型细胞系和药物上的性能比较 与GDSC数据集一起使用 。 (D) 模型在CCLE数据集上 的性能比较 。 (E-G) 每种细胞系的 模型性能比较 。 (H-J)每种药物的模型性能 比较 。
DIPK 提高了 预测准确性和 稳定性。 与 DIPK 相比,Precily 采用通路富集分数作为 表征细胞系。 通路富集分数用作 指示程度的统计指标 特定通路 富集 了差异表达或调节 基因,尽管没有考虑基因相互作用信息。 DIPK中基因相互作用数据的增强 导致了 预测的增强 药物反应预测的准确性和稳定性 ,强调了 为细胞系的精细表征 提供全面的基因相互作用信息。 在 药物反应预测离子的背景下 。
在 快速发展的临床实践格局中, 新的事物不断涌现 细胞系和药物对血液决策提出了巨大的挑战,特别是由于 缺乏细胞系和药物 现存药物反应数据[49,50]。 能够预测看不见的细胞系和新细胞系的药物反应 药物化合物可以 作为 优化治疗的关键辅助工具 [51,52 ]。 为了评估 我们的模型在这种情况下 的普遍性,我们进行了 涉及模型以前未遇到的 细胞系和药物 的实验 使用 GDSC 数据集。 如图 2C 所示 ,DIPK 的 中位数 MSE 明显较低 比 Precily ,这表明 DIPK 在以下情况下具有更强的泛化能力 遇到前所未见的细胞系和药物。 这种增强的普遍性可以 归因于 先验知识的整合 添加到我们的模型中,这增强了 模型的
在新情况下适应和做出准确预测的能力。
基因表达分析包括各种技术,具有不同 的优势和局限性[53]。 上述研究依赖于 通过转录谱获得的基因表达谱 使用阵列技术[54,55]。 但是, 重要的是要 考虑替代技术来评估 模型的有效性。RNA测序(RNA-seq)已成为 一种广泛使用的高通量测序技术,用于 不同研究领域的基因表达分析 [56,57]。 与芯片技术相比 ,RNA-seq在表达方面具有更高的准确性 和灵敏度 值[58]。 CCLE 作为一个 公共数据库,提供RNA-seq基因表达谱 广谱 细胞系[12]。 在这里,我们采用了CCLE 数据集(药物反应数据来自 GDSC 基因表达数据来自 CCLE)用于 训练和 模型的 评估。 我们的实验模拟 了靶向现有细胞系 的场景 药物,确保 在训练、验证和测试中没有重叠的细胞系 数据。 我们进行了 5 倍交叉验证和平均预测,以获得 稳健的结果。 在基准测试中,我们比较了 DIPK 和 Precily 的性能 。 如图 2 D 所示,DIPK 在以下方面表现出更好的准确性和稳定性 MSE、PCC 和 R2 的条款
(DIPK:MSE = 1.7123 ± 0.0479,PCC = 0.8849 ± 0.0018,R2 = 0.7830 ± 0.0031; 确切地说:MSE = 1.8327 ± 0.1016,PCC = 0.8797 ± 0.0034,R2 =0.7739 ± 0.0059),表明 DIPK可以处理获得的不同基因表达谱 通过不同的转录组
6 | Li 等.
图3. 在单细胞表达谱上的表现。 (A) MSE 和 RMSE 在测试集上的 比较 。 (B) PCC 和 R2 在测试集上的 比较 。 (C) t-SNE图,显示DIPK获得 的单个细胞特征 属于 10 个随机细胞系的细胞。
使用单细胞表达谱预测药物反应
近年来,scRNA-seq 的利用量激增,因为它 能够 捕获 单细胞的基因表达谱[59,60]。与批量 RNA-seq 数据不同, 批量 RNA-seq 数据提供组织中多个细胞的聚合基因表达水平,并可能掩盖特定 细胞亚群[61,62],scRNA-seq数据提供了 更详细和异质的细胞反应视图。为了评估该模型在单细胞水平上预测药物反应的能力,我们利用了来自所进行研究的scRNA-seq数据 由
图4. 对患者数据的性能 。 (A) GSE25055中样品 对紫杉醇的预测药物反应 的比较 在pCR组和 RD组之间。 (B) GSE32646中样品 对紫杉醇的预测药物反应 的比较 在 pCR 组和 nCR 组之间。 (C) GSE20194 中样品 预测药物 反应的比较 紫杉醇介于pCR组和 RD组之间 。 预测的药物反应通过 预测的 -LN IC50 来测量。 P 值使用双侧异方差 t 检验获得。
分析技术。 与GDSC 数据集上的 验证结果不同,DIPK相对于Precily在CCLE数据集上的比较优势显得不那么明显。这种差异是由于 Precily 扩大了转录组信息 的整合。 具体来说,Precily通过计算来自综合表达谱的通路富集分数来描绘细胞系,该谱是包括17 420个GDSC基因和57 820个CCLE基因 。相比之下,DIPK采用一种方法,其中基因亚集被选择性地选择并编码到潜在载体中,从而减轻了对基因总数 的敏感性 在表达式配置文件中。
Kinker 等人。[45] 构建我们的测试集,包括 207 个细胞系和 173 种药物。另一方面 ,训练 集是 使用 bulkRNA-seqdatafromtheCCLEdata 构建的,不包括出现在 测试集。 我们进行了 5 倍交叉验证,对各折的预测进行平均。如图 3A– B 所示,与 Precily 相比,DIPK 在 MSE、RMSE、PCC 和 R2 方面取得了更好的性能 ,表明 DIPK 在对批量 RNA-seq 数据进行训练后,在预测 scRNA-seq 数据上的药物反应方面更有效。 值得注意的是, 与Precily相比,观察到的预测准确性和稳定性有所提高 虽然在scRNA-seq数据 上的验证明显 大于 对批量 RNA-seq的验证 数据。 这一观察结果强调了 DIPK 强大的普遍性 ,证明了其 在对抗 不同的数据结构。 造成这种现象的原因是 ,在计算交互组特征时 , 具有最高表达水平的基因组 是在不付费的情况下提取的 关注 特定的表达数据, 使得DIPK对 差异相对不敏感 在批量或单单元格数据中。 此外,我们从 10 种不同的细胞系中随机选择单细胞,并使用 DIPK 提取细胞 特征。 根据 图 3 C,DIPK 学习的单元特征可用于 执行
改进药物 反应预测 | 7
图5. 消融实验。 (A-B) 模型在测试集上 的性能比较 。 (C-E) 每种细胞系的模型性能比较 。 (F-H)每种细胞药物的模型性能 比较 。 (I)模型在测试集上 的性能比较 。 (J) 模型在各测试集 上 的性能比较 倍。 (K) 每种细胞系的 模型性能比较 。 (L)每种药物的模型性能 比较 。 (A-H)显示了在学习的细胞系上验证时的模型性能,以及 药物和 (I-L) 在未学习的细胞系上验证时显示了 模型性能 和毒品。
细胞分离,这表明 DIPK 学习了 细胞足够好,可以区分 它们。
DIPK 使患者能够获得可靠的临床反应 评估 DIPK 的适用性 在临床治疗中,我们使用乳房的三个数据集[28] 进行了测试 对紫杉醇治疗具有注释 pCR 状态的癌症患者,即 GSE25055,GSE32646 和 GSE20194.pCR 被定义为 乳腺癌 中没有任何 浸润性癌症 完成 新辅助化疗后 的患者[63,64]。 每个数据集中的样本被分类intotwogroupsbasedontreatment annotations: the pCR group and the RD or nCR组。 通常,与 RD相比, pCR组表现出更好的药物反应 或 nCR 组。 我们的目标是确定DIPK是否能够准确预测这些差异。 图 4A-C 说明了 pCR 组和 pCR 组之间的 药物反应比较 所有三个数据集中的 RD 或 nCR 组。 DIPK的 预测表明, pCR的 药物反应 组持续高于 RD组或nCR组, 确认 pCR 组确实对 化疗化合物。 这些发现提供了令人信服的证据支持 DIPK在临床上的可靠性 治疗应用。 DIPK 准确辨别 不同药物反应模式的能力 不同的患者群体对个体化癌症治疗具有重要意义。 它可以 作为 指导治疗决策的宝贵工具,协助 临床医生选择 最合适的治疗方法, 并最终改善患者 结果。
基因相互作用组和DAE的重要性
确定 DIPK 中每个组成部分对其 整体的贡献 性能方面,我们进行了 一系列 的消融实验。 我们提出了两个辅助模型,即 集成先验的Deep神经网络 基因 Expression 和 Molecular 结构 (DEM) 和 Deep 的知识 神经
整合基因 I与相关性 和 Molecular 先验知识的网络 结构 (DIM)。 DEM 是 DIPK 的一个 变体,其交互组特征来自该变体 切除。 DIM 表示 没有 DAE 组件的 DIPK 版本。 在这个框架中 ,基因表达特征由 表达定义 没有 DAE 压缩的配置文件。 通过对 DEM 和 DIM 的这种严格的比较调查 ,我们希望 强调 交互组特性 和 DAE 在 DIPK,更 深入地了解 每个 组件的重要性 预测药物反应。
在我们追求 阐明整合 相互作用 特征的功效的过程中 并将 DAE 放入我们的模型中,我们对学习的单元进行了测试 线路和药物。 本研究采用 的评估指标是均方根 误差(RMSE)、MSE、 PCC 和 R 平方 (R2)。 在与DEM和DIM的比较分析 中,DIPK始终表现出优越性 所有指标的性能 (DIPK:RMSE = 0.8461,MSE = 0.7159,PCC =0.9406,R2 = 0.8848,DEM:RMSE = 0.8604,MSE = 0.7403,Pearson = 0.9384,R2 = 0.8806,DIM:RMSE = 0.9165,MSE = 0。8399,PCC = 0.9310,R2 = 0.8667), 如图5A,B所示 。这些结果为 相互作用组特征的 功效提供了强有力的证据,并且 DAE在提高 我们的药物模型的 预测 能力方面的作用 反应。为了进一步深入研究 相互作用组特征和DAE带来的改进,wesc 对 每个单独的细胞系和药物。 研究结果表明 ,DIPK 在各种方面的表现始终优于 DEM 和 DIM 细胞系和药物 ,如图 5 C–H 所示 。 这表示 交互组特征和 DAE 的 集成 不仅提高了 我们模型的准确性,而且 增强了稳定性,强调了他们的 在 药物反应预测领域的 效用。
此外,我们还评估了合并 交互组特性和 DAE 的影响 关于新型细胞系和药物。 为了进行稳健的评估,我们在每个测试集上 测量了 MSE 折叠 25 倍交叉验证程序 ,如图 5 J 所示 。 DIPK 在 以下方面表现出卓越的性能
8 | Li 等.
bothmedianvalueandinterquartilerange(IQR)比较到DEM
和 DIM (MSE 中位数 ± IQR: DIPK: 3.4188 ± 0.2223,DEM: 3.7897 ± 0.3362,DIM:4.9669 ± 0.8720)。这一观察结果表明 , 交互组特征和 DAE 的集成 有效增强 了模型的泛化能力。 在随后的分析中 ,我们计算了 MSE 和 RMSE,当 将 25 个折 的预测值 取 平均值,如图 5I 所示 。 与早期的观察结果一致,DIPK 的表现优于 DEM 和 DIM (DIPK: MSE)= 3.3705,RMSE = 1.8359,DEM:MSE = 3.6321,RMSE = 1。9058,DIM:MSE = 4.3838,RMSE = 2.0938),进一步证实了增强的 我们模型的泛化能力。 最后,我们仔细研究了 每个细胞 系的预测性能 和药物。 如图 5所示,K、L、 DIPK 的性能优于 DEM 和 DIM, 表明交互组特性 和DAE有效地增强了稳定性,从而使其成为 药物反应预测的有效工具 。
结论与讨论
总之,我们提出了一个名为 DIPK 的基于 DL 的框架,该框架 考虑了 药物反应中多个基因的复杂相互作用。 我们证明了 DIPK在两种GDSC上都优于现有方法 以及CCLE数据集在预测准确性和稳定性方面的 预测。 此外,DIPK 在 sc-RNA seq 数据上表现出强大的泛化性,表明其 能够 处理各种数据类型。 值得注意的是,我们在临床治疗分析中证明了 DIPK的可靠性 。 因此,在临床实践中,DIPK 可以作为一种 工具 筛选针对特定癌症患者细胞系量身定制的药物,使 选择安全 有效的治疗方案。 这种方法 有助于实现 个性化和精确的 医疗干预 对于 patients。
本研究阐明 了基因相互作用信息化在 预测细胞药物反应的计算方法 ,与许多研究保持一致 在 生物医学领域,强调了 协同运动的 调节作用 以及多个基因之间对药物反应的复杂相互作用。 同时,对各种数据类型 的实证调查也强调了 自监督预训练方案在增强模型鲁棒性中的意义。 值得注意的是,这项研究 利用了细胞的老化基因组和转录组特征 品系特性分析,不包括 纳入 额外的多组学数据模式 如 蛋白质组学和代谢组学。 虽然包含 多个组学数据集 具有改进的潜力。 ING 模型性能——特别是随着以下方面 的专门信息的引入 蛋白质靶点,能够对不同的癌症进行更精确的药物反应预测 细胞类型——这种增强 引发了对模型泛化的担忧。 对多个组学数据的依赖可能会损害 模型的适用性 当面对 特定组学数据集的缺失 时,例如 作为单细胞或临床数据。 相比之下,DIPK利用的 基因相互作用网络信息服务于DIPK 作为 先验知识库,独立于特定数据类型, 确保 在各种场景中具有更广泛的适用性。
关键点
·
增强的药物反应预测:手稿 证明了 基因的重要性 交互作用在 预测药物反应中的作用,并介绍了一种新的研究 深度学习框架 DIPK 来整合这些宝贵的先验知识,从而 优于现有
预测不同细胞系和药物之间药物反应的方法。
·
跨各种数据类型的泛化:我们展示了 DIPK 在各种数据类型中 泛化,包括批量 RNA-seq 和 scRNA- 序列。 这种广泛的适用性展示了 DIPK 在处理不同 数据模式,在异构性背景下 是一个关键方面 罐头的性质。
·
可靠的临床适用性:文章强调了DIPK 的可靠性 ,通过其评估 临床数据。 评估 DIPK 在区分紫杉醇反应 方面的表现 pCR 组和 RD 组之间证实了其临床相关性,表明 DIPK可以为临床实践中的治疗决策提供有价值的见解。
补充数据
补充数据可在线 查阅 http://bib.oxfordjourn als.org/。
作者的贡献
P.L.构思了这个研究项目。 X.Y. 监督研究项目。 P.L. 和 Z.J. 设计并实施了 DIPK 框架工作。 P.L.、Z.J. 和 T.L. 进行了 数据和结果分析。 H.Q.分析了临床数据。 所有作者都审阅了手稿。 所有作者都讨论了 实验结果,并对实验结果进行了评论。 手稿。
ING基金
这项工作 得到了 美国国家自然科学基金的部分支持 中国(62202353 U22A2037 基金)和 基本科研业务费 为中央大学。
数据可用性
数据集、源代码、训练模型和实验结果数据分别为 可在 GitHub 上获取:https:// github。com/user15632/DIPK 和 Google Drive:https:// 驱动器。谷歌。com/drive/folders/16hP48- noHi3-c_LP9TcZxkwAzqxgR0VB?USP=分享.
推荐ENCES
1. Deshmukh S, Saini S. 肿瘤进展中的表型异质性,以及 它在癌症发病 中的 可能作用。 Front Genet 2020 年;11:604528.
2. Guo L, Kong D, Liu J, et al. 乳腺癌 异质性 及其在个性化精准治疗中的意义。 Exp Hematol Oncol 2023;12(1):1-27。
3. 雷林 MV,埃文斯 WE。 临床中的 药物基因组学。 自然界
2015年;526(7573):343–50。
4. 埃文斯 WE,雷林 MV。 迈向 个体化医疗
与药物基因组学。 自然 2004;429(6990):464–8。
5. Wheeler HE、Maitland ML、Dolan ME 等人,癌症药物基因组学: 战略和挑战。 Nat Rev Genet 2013 年;14(1):23-34。
改进药物 反应预测 | 9
6. Whirl-Carrillo M, McDonagh EM, Hebert J, et al. 药理基因组学知识 用于个性化医疗。 临床药理学 Ther 2012;92(4):414-7。
7. Cecchin E, Stocco G. 药物基因组学和个性化
药。 基因 2020;11(6):679.
8. Mayr LM, Bojanic D. 高通量筛选的新 趋势。
Curr Opin Pharmacol 2009 年;9(5):580-8。
9. Tansey W, Li K, Zhang H, et al. 剂量反应模型 高通量癌症药物筛选:一种端到端的方法。 生物统计学 2022;23(2):643–65。
10. 路透社 JA、Spacek DV、斯奈德议员。 高通量测序
技术。 摩尔细胞 2015;58(4):586-97。
11. Yang W,Soares J,Greninger P, et al. 药物敏感性基因组学 癌症 (GDSC): 癌症治疗性生物标志物研究 的资源 细胞。 核酸 研究 2012;41(D1):D 955–61。
12. Barretina J、Caponigro G、Stransky N 等人。 癌细胞 Line Encyclopedia 能够对抗癌药物敏感性进行预测建模。 自然 2012;483(7391):603–7。
13. Ahmadi Moughari F, Eslahchi C. 药物 敏感性的计算方法 基于 各种分子信息的癌细胞系预测。 公共科学图书馆一 2021;16(4):e0250620.
14. Schärfe CPI, Tremmel R, Schwab M, et al. 遗传变异
人类药物相关基因。 基因组医学 2017;9:1-15。
15. Ingelman-Sundberg M, Mkrtchian S, 周 Y, Lauschke VM. 将罕见的遗传变异整合到药物遗传学药物反应预测中。 嗡嗡基因组学 2018;12:1-12。
16. LeCun Y, Bengio Y, Hinton G. 深度学习。 自然界
2015年;521(7553):436–44。
17. Chiu YC, Chen HIH, Gorthi A, et al. 深度学习 药物基因组学资源:迈向 精准肿瘤学。 Brief Bioinform 2020年;21(6):2066–83。
18. Ballester PJ, Stevens R,Haibe-Kains B, et al. 人工智能 疾病模型中的药物反应预测。 简介 Bioinform 2022;23(1):BBAB450.
19. Partin A, Brettin TS, Zhu Y, et al. 深度学习方法用于癌症药物 反应预测:主要和新兴趋势。 前线医学 2023;10:1086097.
20. Adam G, Rampásekˇ L, Safikhani Z, et al. 机器学习
药物反应预测的方法:挑战和近期进展。 NPJ Precis Oncol 2020;4(1):19.
21. 陈军, 张林. 市政府调查与系统评价 药物反应预测的假定方法。 简介 Bioinform 2021;22(1):232-46.
22. Li S, Wan F, Shu H, et al. Monn: 多目标用于预测化合物-蛋白质相互作用和亲和力的神经网络。 细胞系统 2020;10(4):308–322.e11。
23. Liu B, Gao X, Zhang H. BioSeq-Analysis2. 0: 基于ZingDNA、RNA和蛋白质序列atsequencelevel和残基水平的更新平台 机器学习方法。 核酸 研究 2019;47(20):e127–7.
24. Wang S, 江 M, Zhang S, et al. MCN-CPI: 多尺度 convo- 用于化合物-蛋白质相互作用预测的Lutional网络。 生物分子 2021;11(8):1119.
25. Manica M、Oskooei A、 Born J 等人,迈向可解释的抗癌 通过基于多模态注意力的卷积编码器预测化合物灵敏度。 Mol Pharm 2019 年;16(12):4797–806.
26. Weininger D. Smiles,化学 语言和信息系统。 1. 方法论和编码规则介绍 。 J Chem Inf Comput Sci, 1988;28(1):31-6。
27. Szklarczyk D、Franceschini A、Wyder S 等人。 字符串 v10:蛋白质– 蛋白质相互作用网络,整合在生命之树 上。 核酸 研究 2015;43(D1):D 447–52。
28. Jia P, 胡 R, Pei G, et al. 深度生成神经 ACCU网络
对药物反应进行归责。 Nat Commun 2021 年;12(1):1740.
29. Chawla S, Rockstroh A, Lehman M, et al. 基因表达 基于癌症药物敏感性的推断 。 Nat Commun 2022 年;13(1):5680.
30. Shi W, 江 T, Nuciforo P, et al. 通路水平改变 而不是单个基因的突变预测对 HER2 靶向的反应 neo-ALTTO试验中的 疗法。Ann Oncol 2017 年;28(1):128-35。
31. 马琦, 卢爱. 药物遗传学、药物基因组学和独立
病毒化医学。 药理学修订版 2011;63(2):437–59.
32. Hou T, Li N, Li Y, Wang W. 结构域-肽的表征 相互作用界面:预测 SH3结构域介导的蛋白-蛋白质相互作用网络 在酵母中通过基于通用结构的模型。 J Proteom Res 2012;11(5):2982–95。
33. 张 S, 宁 XM, 丁 C, 张 XS. 通过最大化 模块化来确定蛋白质相互作用网络的模块化组织 密度。 BMC系统生物学; 2010年;4:1-12。
34. Shu H, 周 J, Lian Q, et al. 基因调控建模 使用神经网络架构的网络。 Nat Comput Sci 2021;1(7):491-501。
35. Cortazar P,Geyer CE。 乳腺癌新辅助 治疗 的病理完全缓解。 Ann Surg Oncol 2015 年;22:1441-6。
36. CostanzoM,BaryshnikovaA,BellayJ, etal. Thegenetic景观
一个单元格。 科学 2010;327(5964):425–31。
37. Forster DT, Li SC, Yashiroda Y, et al. 仿生学:生物网络
积分使用卷积。 NatMethods 2022 年;19(10):1250–61。
38. Wang C, Pan S, Long G, et al. Mgae: 边缘化图用于图形聚类的 AutoEncoder。 2017 ACM 信息与知识会议 论文集 管理 2017: 889–898.
39. Vincent P, Larochelle H, Lajoie I, et al. 堆叠去噪自动编码人员:在具有本地功能 的深度网络中 学习有用的表示 去噪标准。 J Mach Learn Res 2010;11(12):3371–3408。
40. Li P,Wang J,Qiao Y, et al. 一种有效的自监督框架 学习表达性分子全局表征以发现药物。 简介 Bioinform 2021;22(6):BBa109.
41. Vaswani A、Shazeer N、 Parmar N 等人。 注意力就是全部你需要。
Adv Neural Inf Process Syst 2017 年;30.
42. Hara K,Saito D,Shouno H.所用整流线性单元的功能 分析 在深度学习中。 2015 年神经网络国际联合会议 (IJCNN) 2015:1–8.
43. Dey R, Salem FM. 门控循环单元 (GRU) 神经的门变体 网络。 2017 IEEE第60届国际中西部电路与系统研讨会 (MWSCAS),美国马萨诸塞州波士顿,2017:1597–1600。
44. Li P,Wang J,Li Z, et al. 成对半图判别: a sim- 用于预训练图神经网络的 PLE 图级自监督策略。第三十届人工智能 国际联合会议 论文集 2021:2694–2700.
45. KinkerGS,GreenwaldAC,TalR, etal. Pan-cancersingle-cellRNA-seq 可识别细胞异质性的反复出现程序 。 Nat Genet 2020 年;52(11):1208–18。
46. Yu H, Kim DJ, Choi HY, et al. 前瞻性药理学方法学 用于建立和评估抗癌耐药 细胞系。 BMC 癌症 2021; 21:1-13。
47. Prasse P, Iversen P, Lienhard M, et al. 匹配的抗癌化合物 磅和 肿瘤细胞系通过神经网络进行排名损失。 NAR Genom Bioinform 2022 年;4.
48. Shen B, Feng F, Li K, et al. 系统 评估用于药物反应预测的 深度学习方法:来自体外 到临床应用。 简介 Bioinform 2023;24.
10 | Li 等.
49. Partin A, Brettin T, Evrard YA, et al. 学习曲线 癌细胞系中的药物反应预测。 BMC Bioinform 2021 年;22:1-18.
50. Kurilov R, Haibe-Kains B, Brors B. 建模策略评估 细胞系和异种移植物中的药物反应预测。科学代表 2020;10(1):2849.
51. Wang C, Lye X, Kaalia R, et al. 深度学习和 多组学方法预测 癌症中的药物反应。 BMC 生物信息学 2021;22(10):1-15。
52. Xia F, Allen J, Balaprakash P, et al. 交叉研究分析 药物
癌细胞系的反应 预测。 简介 Bioinform 2022;23.
53. Toro-Domínguez D、Villatoro-García JA、Martorell-Marugán J 等人。 一项调查 基因表达Meta分析:方法和应用。 简介 Bioinform 2021;22(2):1694–705。
54. Yang X, Kui L, Tang M, et al. 高通量转录组
分析药物和生物标志物发现。 FrontGenet 2020 年;11:19.
55. Weidenhammer EM,Kahl BF,Wang L, et al. 多路复用,靶向基因表达谱分析以及电子微阵列的遗传分析。 临床化学 2002;48(11):1873-82。
56. Ozsolak F, Milos PM. RNA测序:进展、挑战和
机会。 Nat Rev Genet 2011 年;12(2):87-98。
57. Finotello F,Di Camillo B.用 rna-seq 测量差异基因表达:挑战以及数据分析策略 。 Brief Funct Genomics 2015;14(2):130-42。
58. Nookaew I, Papini M, Pornputtapong N, et al. 理解 基于 RNA-seq的转录组分析从reads到差异基因表达的比较 以及与 微阵列的交叉比较: 酿酒酵母的案例研究 。 核酸 研究 2012;40(20):10084–97。
59. Gawad C, Koh W, Quake SR. 单细胞基因组测序:
科学的 现状。 Nat Rev Genet 2016 年;17(3):175-88。
60. Papalexi E, Satija R. 单细胞RNA测序探索 免疫细胞 异质性。 Nat Rev Immunol 2018 年;18(1):35-45。
61. Van de Sande B, Lee JS, Mutasa-Gottgens E, et al. 应用 单细胞RNA测序在药物发现和开发中的应用。 Nat Rev Drug Discov 2023;22:496-520。
62. Fustero-Torre C、Jiménez-Santos MJ、García-Martín S 等人。 Beyondcell:靶向 单细胞 RNA-seq 数据中的癌症治疗异质性。 基因组医学 2021;13(187):1-15。
63. Conforti F, Pala L, Sala I, et al. 病理评估 在新辅助治疗和联合 临床试验 中作为替代终点的完全缓解 早期 乳腺癌:系统评价和荟萃分析。 英国医学杂志 2021;375。
64. Liu H, Lv L, Gao H, Cheng M. 病理完全缓解及其 对乳腺癌 复发和患者生存后的影响新辅助治疗:一项全面的荟萃分析。 Comput Math Methods Med 2021;2021:1–11.