这是用户在 2024-7-31 16:35 为 https://app.immersivetranslate.com/word/ 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

Downloaded from https://academic.oup.com/bib/article/25/3/bbae153/7642699 by National Science & Technology Library user on 14 April 2024


生物信息学简报 2024, 25(3) bbae153


网址:doi.org/10.1093/bib/bbae153


问题解决协议


通过将基因关系深度学习相结合改进药物反应预测


李鹏勇正祥 天晓 新宇 晓军


通讯作者. 晓军澳门理工学院应用科学学院 人工智能 驱动药物发现研究中心 大学, 999078 澳门, 中国. 电子邮件: xjyao@must.教育。


腹肌


预测 细胞 药物反应对于推进个性化癌症至关重要 治疗,但由于肿瘤的异质性和个体多样性,仍然具有挑战性。 在这项研究中,我们提出了一种基于深度学习的框架,称为深度神经网络集成先验知识(DIPK)(DIPK), 框架采用自监督技术 整合多种有价值的信息,包括基因相互作用关系、基因表达 分子拓扑结构,以提高 预测的准确性稳健性。 我们证明了 现有方法相比 DIPK两种已知方法具有卓越的性能 以及新型细胞药物,强调了 基因相互作用关系药物反应预测的重要性。 此外,DIPK 将其适用范围 扩展到单细胞 RNA 测序数据,展示了 单细胞水平反应预测细胞鉴定。 此外,我们评估 了DIPK临床数据适用性 DIPK 准确预测 了病理完全缓解 (pCR) 组对紫杉醇 更高反应 残留灶组相比肯定 了pCR 化疗化合物。 我们认为 将DIPK整合 临床决策过程中具有潜力 加强针对癌症患者的个体化治疗策略


图形摘要


关键词:药物反应;药物基因组学;深度学习


公司介绍


人类癌症通常在几乎所有 辨别表型特征中都表现出显着的异质性这是 成功的巨大障碍 个体化治疗[1,2]。 随着 基因组分析技术出现药物基因组学[3\u20126]开辟新的领域 个性化医疗发展的机会


药物基因组学旨在 研究基因组改变转录组编程 如何影响药物反应,从而允许 基于患者独特基因个性化药物治疗 [7]。 近年来 高通量药物筛选技术 使研究人员能够 进行 关于细胞药物反应 大规模实验 [810]。 癌症药物敏感 基因组学 (GDSC)[11]项目 ,以及


鹏勇 西安电子科技大学的助理教授 他在清华大学获得 博士学位 他的研究兴趣集中在 人工智能


技术和药物发现。


正祥西安电子科技大学的一名本科生 他的研究兴趣包括深度学习生物信息学。


天晓西安电子科技大学获得 学士学位 研究生 西安电子科技大学。 他的研究兴趣包括深度学习


分子生成。


新宇 北京大学 口腔医学院口腔医院 助理教授 他在清华大学获得 博士学位 他的研究兴趣


包括生物材料药物设计。


Hui Qiao 泰安市立医院的一名肿瘤科医生 他的研究兴趣包括癌症治疗。


晓军巴黎第七大学丹尼斯·狄德罗获得博士学位 他是澳门理工大学教授 目前的研究兴趣包括药物发现生物信息学。


收稿日期: 2023-12-26。 修订日期:2024 年 3 月 5 录用日期:2024年3月18


© 作者(s) 2024. 牛津大学 出版社出版


这是一篇开放获取文章,根据 知识共享署名 条款分发 许可证 https:// creativecommons.org/ licenses/by/4.0/),允许 任何媒介,只要正确引用原始 作品

Downloaded from https://academic.oup.com/bib/article/25/3/bbae153/7642699 by National Science & Technology Library user on 14 April 2024


2 | Li .


细胞百科全书(CCLE)[12] 分析 多种细胞和对这些细胞药物敏感性[13]。 这些药物基因组学数据集提供了 全面的遗传基础表示 用于药物代谢疗效可变性[14,15]。


近年来,许多利用药物基因组学的深度学习(DL)模型[16] 得到了开发 用于预测药物敏感性的数据集,显示出优于传统机器学习 的性能[17\u201224]。 通常, 其中许多方法利用 强大的特征提取 DL 学习 细胞药物表征 的能力以及然后合并学习到的表示产生最终预测 针对细胞药物存在多种修饰 策略 例如Manica 等人 [25] 提出了一种基于注意力的卷积网络学习 2019年的药物SMILES[26]和细胞基因表达 由于处理 高维基因数据在计算上 很困难 他们通过网络传播 筛选 信息性基因的一个子集 蛋白质-蛋白质相互作用网络[27]。贾楠.[28]2021 年引入 DeepVariational AutoEncoder 基因表达压缩潜在载体中 证明 这些载体可以准确预测药物反应。 Chawla 等人 [29] 展示 考虑药物描述符基因通路的好处 2022 年的特色


尽管这些初步研究药物反应预测方面取得了 长足的进步,但仍存在 关于表征细胞药物的争议 大多数方法使用转录组学特征(基因表达谱)进行细胞表示; 然而,越来越多的 证据表明药物反应可以通过 以下因素进行调节 多个基因协同行为复杂相互作用[3034]。 因此,使用转录组学特征而不使用基因关系可能会限制准确性 以及响应预测鲁棒性。此外,目前的方法主要使用分子指纹SMILES 表征 药物 无法 编码分子拓扑信息化合物


为了解决这些问题 ,我们提出了D eep神经网络I集成P rior Knowledge (DIPK) 用于癌症药物反应预测,一种旨在 结合基因相互作用关系、基因表达 分子拓扑在预测 癌症药物反应中的 应用 先验知识提取整合通过 以下方式得到有效处理 自监督技术和 注意力机制的应用 DIPK 采用自监督技术使模型能够 有意义地学习 来自未标记数据表示利用 基因 可用的 丰富信息 化合物。 这种方法 增强 模型捕获复杂模式关系的能力 数据 从而提高预测性能。 通过利用注意力机制,DIPK 可以有效地关注 相关特征 优先考虑不同组件的重要性 进一步增强预测能力。 通过结合 基因相互作用关系分子拓扑结构,DIPK 捕获 基因 药物之间复杂的相互作用提供了 全面的 了解 药物反应机制。 这种对先验知识整合使DIPK能够利用现有的生物学知识增强预测能力。


为了评估 DIPK预测能力我们对GDSC进行了 交叉验证 CCLE数据集,以证明 DIPK在预测药物方面的准确性 已知细胞药物的反应 此外,我们通过评估在以下方面的性能检查框架的能力 新型细胞药物。 通过我们的 DIPK 模型获得预测误差显着降低,表明 优于状态


药物敏感性预测的最新 方法 此外,DIPK 通过实现准确的药物反应预测,展示了强大的泛化性 使用单细胞表达谱。 这种能力凸显 DIPK 有效促进 多样化的潜力数据类型 值得注意的是,我们的研究证明了 DIPK预测药物方面的可靠性 使用患者数据做出响应 通过分析乳腺癌 患者数据集,DIPK 成功地完全区分 了患者 没有病理完全 缓解(pCR)[35]。 这一发现表明DIPK临床治疗中具有潜在的 应用潜力 设置。 我们所知,这项研究 整合先前 了解 基因相互作用关系药物拓扑,模拟药物敏感性。 DIPK 框架各种数据集上的卓越性能 及其 处理不同 类型 数据的能力进一步凸显了其在以下方面的潜力 推进 个性化医疗发展


THODS


模型框架


细胞药物准确建模构成了 药物反应预测基石 特别是,细胞的特征 在于它们的遗传信息,这些信息编码 存在于每个细胞中的脱氧 细胞的行为 性质受到 基因的深刻影响 相互作用基因表达模式[36]。 因此,为了有效地封装 细胞内在特征DIPK采用了 强大的生物网络 集成框架,称为 仿生[37]。 仿生 无缝集成多个高质量基因相互作用网络最终实现 通过使用 图形自编码器(GAE)[38]。 该过程 涉及将源 BIONIC 的高表达基因特征聚合 给定细胞固有 复杂基因相互作用关系(见1A)。 此外,DIPK还采用了 降噪自动编码(DAE)[39] 压缩 细胞 基因表达转化为 隐藏 向量1B)。 通过将基因关系表征 基因表达融合在一起,DIPK实现了 细胞的全面的理解。这种综合方法增强捕捉 基因之间复杂相互作用的能力 相互作用基因表达,提供 准确的细胞 表达特性。


为了药物化合物, DIPK 利用训练分子神经网络 (MolGNet)[40], 分子表示 转换为通过 基于邻居注意力的消息传递方法原子连续向量(见 1C)。 这种预训练MolGNet 擅长 捕捉分子 有意义的模式 拓扑结构,导致 解释表达的重复 如图 1(D)所示 DIPK采用了 注意力机制 [41] 细胞药物信息融合 在一起,产生全面的 药物代理。 将药物表示 细胞表示相结合 然后连接生成 最终药物反应预测。 通过整合 细胞药物信息,DIPK以下领域提供了一个 全面的框架准确药物反应预测。 基因互作关系、基因表达分子拓扑结构的整合 iCal Structure增强复杂细胞过程药物机制的理解


总体而言,DIPK细胞建模、药物建模、融合输出组成 其中包括细胞 表示

Downloaded from https://academic.oup.com/bib/article/25/3/bbae153/7642699 by National Science & Technology Library user on 14 April 2024


改进药物 反应预测 | 3


1. DIPK模型框架A通过GAE编码基因 相互作用网络 得到基因特征 包含 交互交互。对表达基因特征进行平均,以表示 给定细胞系。 B基因 表达压缩隐藏 使用 DAE 向量 C 分子 表示药物 然后输入放入MolGNet获取 原子特征。 D 整合了相互作用组特征、转录组特征原子特征 使用多头注意力连接获取 LN IC50.


相互作用组特征转录组特征,以及药物的评价 分子图。 下面将详细介绍 模型 框架


细胞建模


如图 1D 所示细胞 相互作用组成 特征转录组特征。 对于相互作用组特征, 我们确定了 具有最高值 的前 256 个基因 表达水平。 这些高度 512 维表示


SMILES 字符串。 结构我们将原子分配节点分配边。 然后,该被用作 MolGNet 的输入 MolGNet 是一个 促进 编码表示 生成1C)[40]。 在这个表示每个原子一个向量 768 表示 尺寸。 MolGNet 包含一个消息计算函数 M 和一个 顶点更新 函数 U, 这两个 组件作为 follows:


表达基因仿生[37 ]提取的,这是一个综合 框架,可以 使用 GAE 结合多个高质量的基因互通 网络 1A)。 这些高度表达基因表示平均值被认为是 相互作用组特征 包含有关基因相互作用的宝贵信息。我们将基因表达压缩


mi t= M xt−1 xjt−1eij j N
i


xi t= Uht1 m
i t)

(1)

(2)


一个 512 维的隐藏向量被认为是 trans-scriptome 特征。 具体来说,我们采用了一个 DAE该 DAE 包含一系列 整流线性单元 (ReLU)激活尺寸[2048、1024、 512、1024、2048]连接 1B)[39,42]。 预训练期间 将带有随机噪声 基因表达输入大。 原始表达式配置文件 重建的一被视为 损失函数。


药物建模


为了构建分子 图,药物原子键和化学键细节 化合物分子通过其


其中 Ni 表示节点 i 邻居eij 表示 节点 I 节点 J 之间顶点更新函数 U 是一个 门控循环单元网络[43],Ht1 隐藏状态

i


U h0i 初始原子表示 xi 0 MolGNet 使用 成对半图判别 [44] 进行预训练算法 旨在 区分两个 是否属于 同一来源,属性屏蔽 strategy。


融合输出


提取 细胞药物表示之后 融合输出过程 集成各种功能生成

Downloaded from https://academic.oup.com/bib/article/25/3/bbae153/7642699 by National Science & Technology Library user on 14 April 2024


4 | Li .


最终输出。 相互作用组特征转录组特性 受到相似的影响 操作顺序涉及 ReLU 激活线性层,然后是 单独的多头 包含 Atom 特征注意 注意力机制促进 了这些特征之间更高程度交互因此 增强 模型 表示能力 在大多数情况下 参数共享是在相应的之间 实现的交互组特征转录组特征管道中的 (即 在两个线性之间两个多头注意力之间 )。 众所周知 这种策略可以通过 使其能够提高模型的泛化能力 识别利用不同类型 输入特征之间的共性 然而,当我们的方法的任务 预测药物反应 学习了细胞药物, 对泛化 的需求 就不那么重要了。 这种 矛盾 这些之间的参数 保持 独特性,使 模型能够专注于 实现细致的学习。 注意力 输出计算如下


Predictionson将 5 倍平均生成准确的预测。 对于基线 Precily,我们使用了推荐超参数 对于使用GDSC数据集未学习细胞药物进行验证 训练测试之间没有重复细胞药物 拆分 数据集 使 结果具有统计显著性并使 训练 尺寸尽可能 [25], 则使用25倍交叉验证 。对于使用 CCLE数据集未学习的细胞进行验证 没有 拆分 数据集训练测试之间复制细胞 确保 报告基线具有可比性 实施了 5 倍交叉验证 随后从 5 倍进行预测 平均。 详情 补充文本 S3
.


使用单单元数据验证 模型


我们从以下机构进行的研究获取 单细胞RNA测序(scRNA-seq)数据 Kinker 等人 通过基因表达综合(Gene Expression Omnibus, GEO)GSE157220[45]。 由于 没有 IC50, 单细胞数据集 116 个细胞组成 线


注意力Q K V= softmax

QKT dk

V

(3)


173 药物,包括 17 279 细胞系-药物对。 值得注意的是,数据集中包含的 细胞被排除在 训练之外 然后我们使用此 数据集验证 在CCLE上训练模型 数据。 详情 补充文本S1
.


其中 DK 原子特征 维度这些原子特征输入 两个独立的线性,用于获得 矩阵 K V 编码的交互组特征转录组特征送到线性 没有 激活函数,得到 矩阵Q 分子特征是通过 两者的输出 相加得出的 多头注意力层。 然后交互组特征 ReLU 激活线性进行编码 在保留维度的同时 输入 执行 转换 的原始输入空间。 转录组特性 类似的方式进行处理 然后 分子特征 以下 两个线性层。 这种集成的特征表示随后输入一系列 完全 连接层,具有 维度


[768 + 512, 512, 256, 128, 1] 层次结构 ReLU 激活函数应用于 这些层。 最终输出是对 半极大值 自然对数的预测 抑制浓度(LN IC50)。 为了训练 DL 框架, MSE 被用作 损失函数 因其 解决问题 中的效率得到证实


GDSC CCLE Dataset 验证 模型


这项研究我们使用了两个数据集,GDSCCCLE,评估 DIPK的性能 两个数据集提供了细胞-药物相应的IC50, 细胞提供- ING 转录组数据提供名称的药物 使用药物 名称,我们从 PubChem 中获取特定的分子结构 根据 转录组数据, 我们选择了顶部


256 表达水平最高的 基因(见补充文本S2)。 我们从仿生中提取了这些表达基因的特征 并将它们 平均 交互功能。 按照标准化的数据预处理清理程序(见补充文本S1), GDSC 数据集产生 957 细胞 206 药物,得到 159 114 个 细胞-药物对。 同样, CCLE 数据集包括 550 细胞 173 药物,产生 总共 80 056 细胞系-药物


模型训练验证


使用 GDSC 学习细胞药物验证模型 数据集,我们进行了 5 倍交叉验证。


使用患者数据验证 模型


研究中使用的 临床患者基因表达数据 具有GSE25055、GSE32646 GSE20194的GEO [28]。 每个样本都被注释 pCR、RD(残留病灶) nCR(非 pCR)。 我们使用了 GDSC 数据集训练模型(以保持 表达类型的一致性)预测 这些药物对 紫杉醇的反应 不同的患者。 详情 补充文本S1
.


RESULTS (英语)


DIPK 提高了预测准确性稳定性 GDSC 是一个综合资源 提供大规模药物基因组学数据以支持 癌症研究[11]。 包括 分析细胞基因表达 通过阵列技术,以及 它们各种药物化合物相应反应 (IC50) [46,47]。 这项研究我们评估模型药物的性能 GDSC 数据集 的反应预测 药物反应数据基因 表达数据 GDSC) 使用 5 倍交叉验证。 为了确保准确报告 模型的预测能力,我们遵循通常采用 的做法是从 5 个方面 的每一个 获得的平均预测 [48]. 2A 显示了 预测 观察到 LN IC50 值。 为了突出 DIPK 的优势 我们将其性能 Precily [29]一种最近开发的基于深度神经网络药物框架 基于 通路富集评分药物描述符的反应预测 如图 2 B 所示DIPK 均值方面 的表现明显优于 Precily 平方误差 (MSE),同时表现出更高的 Pearson 相关系数 (PCC) R2 (DIPK:


MSE = 0.7159 ± 0.0060,PCC = 0.9406 ± 0.0008,R2 = 0.8848 ± 0.0015; 精确地说:MSE = 0.9625 ± 0.0483,PCC = 0.9198 ± 0.0043,R2 =0.8460 ± 0.0077)。 对于这些指标的标准DIPK 低于 Precily, 表现出很强的稳定性。 此外我们对预测性能进行了 深入分析 单个细胞药物。 如图 2E-J 所示 DIPK 不同细胞的性能优于 DIPK 以及药物MSE、相关性变异方面的 差异表明

Downloaded from https://academic.oup.com/bib/article/25/3/bbae153/7642699 by National Science & Technology Library user on 14 April 2024


改进药物 反应预测 | 5


2. 批量数据的性能 A 观测LN IC50 预测LN IC50散点 密度 颜色差异表示 B 模型学习细胞药物的性能比较 GDSC数据集一起使用 C 模型新型细胞药物的性能比较 GDSC数据集一起使用 D 模型CCLE数据集 的性能比较 E-G 每种细胞 模型性能比较 H-J每种药物模型性能 比较


DIPK 提高了 预测准确性 稳定性 DIPK 相比Precily 采用富集分数作为 表征细胞系。 通路富集分数用作 指示程度的统计指标 特定通路 富集 差异表达调节 基因,尽管没有考虑基因相互作用信息。 DIPK基因相互作用数据的增强 导致了 预测的增强 药物反应预测准确性稳定性 强调了 细胞的精细表征 提供全面的基因相互作用信息。 药物反应预测离子的背景下


快速发展临床实践局中, 新的事物不断涌现 细胞系和药物对血液决策提出了巨大的挑战,特别是由于 缺乏细胞药物 现存药物反应数据[49,50]。 能够预测看不见细胞细胞系的药物反应 药物化合物可以 作为 优化治疗的关键辅助工具 [51,52 ]。 为了评估 我们的模型在这种情况下 普遍性我们进行了 涉及模型以前未遇到的 细胞药物 的实验 使用 GDSC 数据集。 如图 2C 所示 DIPK 中位数 MSE 明显较低 Precily 这表明 DIPK 以下情况下具有更强的泛化能力 遇到前所未细胞药物 这种增强的普遍性可以 归因于 先验知识整合 添加到我们的模型中,增强了 模型的


情况下适应做出准确预测的能力


基因表达分析包括各种技术具有不同 的优势局限性[53]。 上述研究依赖于 通过转录获得的基因表达 使用阵列技术[54,55]。 但是, 重要的是要 考虑替代技术评估 模型的有效性。RNA测序(RNA-seq)已成为 一种广泛使用的高通量测序技术,用于 不同研究领域的基因表达分析 [56,57]。 芯片技术相比 RNA-seq表达方面具有更高的准确性 灵敏度 [58]。 CCLE 作为一个 公共数据库,提供RNA-seq基因表达 广 细胞[12]。 在这里,我们采用了CCLE 数据集(药物反应数据来自 GDSC 基因表达数据来自 CCLE)用于 训练 模型 评估 我们的实验模拟 了靶向现有细胞 的场景 药物,确保 训练、验证测试中没有重叠的细胞系 数据。 我们进行了 5 倍交叉验证平均预测以获得 稳健的结果。 基准测试中,我们比较 DIPK Precily 的性能 如图 2 D 所示DIPK 在以下方面表现出更好的准确性和稳定性 MSE、PCC R2 条款


(DIPK:MSE = 1.7123 ± 0.0479,PCC = 0.8849 ± 0.0018,R2 = 0.7830 ± 0.0031; 确切地说:MSE = 1.8327 ± 0.1016,PCC = 0.8797 ± 0.0034,R2 =0.7739 ± 0.0059),表明 DIPK可以处理获得的不同基因表达谱 通过不同的转录组

Downloaded from https://academic.oup.com/bib/article/25/3/bbae153/7642699 by National Science & Technology Library user on 14 April 2024


6 | Li .


3. 单细胞表达的表现 A MSE RMSE 测试上的 比较 B PCC R2 测试上的 比较 C t-SNE显示DIPK获得 单个细胞特征 属于 10 随机细胞细胞


使用单细胞表达预测药物反应


近年来,scRNA-seq 的利用量激增,因为它 能够 捕获 单细胞的基因表达谱[59,60]。与批量 RNA-seq 数据不同, 批量 RNA-seq 数据提供组织中多个细胞聚合基因表达水平,并可能掩盖特定 细胞亚群[61,62],scRNA-seq数据提供了 详细和异质的细胞反应视图。为了评估该模型在单细胞水平上预测药物反应的能力我们利用来自所进行研究scRNA-seq数据


4. 对患者数据的性能 A GSE25055中样品 杉醇的预测药物反应 的比较 在pCR RD之间 B GSE32646中样品 杉醇的预测药物反应 的比较 在 pCR nCR 之间 C GSE20194 样品 预测药物 反应比较 紫杉醇介于pCR RD之间 预测药物反应通过 预测 -LN IC50 来测量 P 使用双侧异方t 检验获得


分析技术。 GDSC 数据集上的 验证结果不同,DIPK相对于Precily在CCLE数据集上的比较优势显得不那么明显。这种差异由于 Precily 扩大了转录组信息 整合 具体来说,Precily通过计算来自综合表达通路富集分数描绘细胞,该谱是包括17 420GDSC基因57 820CCLE基因 。相比之下,DIPK采用一种方法,其中基因亚集被选择性地选择并编码到潜在载体中,从而减轻了对基因总数 敏感性 在表达式配置文件中。


Kinker 等人。[45] 构建我们的测试集,包括 207 个细胞 173 药物。另一方面 训练 使用 bulkRNA-seqdatafromtheCCLEdata 构建的,不包括出现在 测试集。 我们进行了 5 倍交叉验证,各折的预测进行平均。如图 3A– B 所示,Precily 相比DIPK MSE、RMSE、PCC 和 R2 方面取得了更好的性能 ,表明 DIPK 在对批量 RNA-seq 数据进行训练,在预测 scRNA-seq 数据上的药物反应方面更有效 值得注意的是, Precily相比观察到预测准确性稳定性有所提高 虽然scRNA-seq数据 上的验证明显 大于 对批量 RNA-seq验证 数据。 这一观察结果强调了 DIPK 强大的普遍性 证明了 对抗 不同的数据结构。 造成这种现象的原因是 计算交互组特征 具有最高表达水平基因组 在不付费的情况下提取的 关注 特定的表达数据, 使得DIPK 差异相对不敏感 在批量单单元格数据此外,我们从 10 不同的细胞中随机选择单细胞,并使用 DIPK 提取细胞 特征 根据 3 C,DIPK 学习单元特征可用于 执行

Downloaded from https://academic.oup.com/bib/article/25/3/bbae153/7642699 by National Science & Technology Library user on 14 April 2024


改进药物 反应预测 | 7


5. 消融实验。 A-B 模型测试 的性能比较 C-E 每种细胞模型性能比较 F-H每种细胞药物模型性能 比较 I模型测试 的性能比较 J 模型各测试 的性能比较 倍。 K 每种细胞 模型性能比较 L每种药物模型性能 比较 (A-H)显示了学习的细胞验证模型性能,以及 药物 (I-L) 未学习的细胞验证显示了 模型性能 毒品。


细胞分离,这表明 DIPK 学习 细胞足够,可以区分 它们。


DIPK 使患者能够获得可靠的临床反应 评估 DIPK 适用性 临床治疗我们使用乳房的三个数据集[28] 进行了测试 紫杉醇治疗具有注释 pCR 状态癌症患者 GSE25055,GSE32646 GSE20194.pCR 定义为 乳腺癌 中没有任何 浸润性癌症 完成 新辅助化疗 的患者[63,64]。 每个数据集中的样本被分类intotwogroupsbasedontreatment annotations: the pCR group and the RD or nCR组。 通常, RD相比, pCR表现出更好的药物反应 nCR 组。 我们的目标是确定DIPK是否能够准确预测这些差异。 4A-C 说明了 pCR 组和 pCR 之间的 药物反应比较 所有三个数据集中的 RD nCR DIPK 预测表明 pCR 药物反应 持续高于 RD组或nCR组, 确认 pCR 确实 化疗化合物。 这些发现提供了令人信服的证据支持 DIPK临床上的可靠性 治疗应用。 DIPK 准确辨别 不同药物反应模式的能力 不同的患者群体个体化癌症治疗具有重要意义 它可以 作为 指导治疗决策宝贵工具协助 临床医生选择 合适的治疗方法 并最终改善患者 结果。


基因相互作用组DAE的重要性


确定 DIPK 每个组成部分对其 整体的贡献 性能方面,我们进行了 一系列 的消融实验。 我们提出了两个辅助模型, 集成先验Deep神经网络 基因 Expression Molecular 结构 (DEM) Deep 的知识 神经


整合基因 I与相关性 Molecular 先验知识的网络 结构 (DIM)。 DEM DIPK 的一个 变体其交互组特征来自变体 切除。 DIM 表示 没有 DAE 组件 DIPK 版本 在这个框架 基因表达特征 表达定义 没有 DAE 压缩的配置文件 通过 DEM DIM 这种严格的比较调查 我们希望 强调 交互组特性 DAE DIPK, 深入地了解 每个 组件的重要性 预测药物反应。


在我们追求 阐明整合 相互作用 特征功效过程中 并将 DAE 放入我们的模型中,我们对学习的单元进行了测试 线路药物。 研究采用 评估指标 误差(RMSE)、MSE、 PCC R 平方 (R2)。 在与DEMDIM比较分析 DIPK始终表现出优越性 所有指标的性能 (DIPK:RMSE = 0.8461,MSE = 0.7159,PCC =0.9406,R2 = 0.8848,DEMRMSE = 0.8604,MSE = 0.7403,Pearson = 0.9384,R2 = 0.8806,DIMRMSE = 0.9165,MSE = 0。8399,PCC = 0.9310,R2 = 0.8667), 如图5A,B所示 这些结果 相互作用组特征 功效提供了强有力的证据,并且 DAE提高 我们的药物模型的 预测 能力方面的作用 反应。为了进一步深入研究 相互作用组特征和DAE带来的改进,wesc 每个单独的细胞药物。 研究结果表明 DIPK 各种方面的表现始终优于 DEM DIM 细胞药物 如图 5 C–H 所示 表示 交互组特征 DAE 集成 不仅提高了 我们模型准确性,而且 增强稳定性,强调了他们的 药物反应预测领域的 效用


此外,我们还评估合并 交互组特性 DAE 的影响 关于新型细胞药物。 为了进行稳健的评估,我们在每个测试 测量 MSE 折叠 25 倍交叉验证程序 如图 5 J 所示 DIPK 以下方面表现出卓越的性能

Downloaded from https://academic.oup.com/bib/article/25/3/bbae153/7642699 by National Science & Technology Library user on 14 April 2024


8 | Li .


bothmedianvalueandinterquartilerange(IQR)比较到DEM


DIM (MSE 中位数 ± IQR: DIPK: 3.4188 ± 0.2223,DEM: 3.7897 ± 0.3362,DIM:4.9669 ± 0.8720)。这一观察结果表明 交互组特征 DAE 的集成 有效增强 模型的泛化能力。 随后的分析中 我们计算了 MSE RMSE 25 个折 的预测 平均值,如图 5I 所示 早期的观察结果一致DIPK 的表现优于 DEM DIM (DIPK: MSE= 3.3705,RMSE = 1.8359,DEMMSE = 3.6321,RMSE = 1。9058,DIMMSE = 4.3838,RMSE = 2.0938),进一步证实了增强 我们模型泛化能力 最后,我们仔细研究了 每个细胞 的预测性能 药物。 如图 5所示,K、L、 DIPK 的性能优于 DEM DIM, 表明交互组特性 DAE有效地增强稳定性,从而使其成为 药物反应预测的有效工具


结论讨论


总之我们提出了一个名为 DIPK 的基于 DL 的框架框架 考虑了 药物反应多个基因复杂相互作用 我们证明了 DIPK两种GDSC上都优于现有方法 以及CCLE数据集预测准确性稳定性方面的 预测。 此外,DIPK sc-RNA seq 数据表现出强大的泛化性表明 能够 处理各种数据类型 值得注意的是,我们在临床治疗分析中证明了 DIPK可靠性 因此,临床实践DIPK 可以作为一种 工具 筛选针对特定癌症患者细胞量身定制的药物使 选择安全 有效的治疗方案。 这种方法 有助于实现 个性化精确 医疗干预 对于 patients。


研究阐明 基因相互作用信息 预测细胞药物反应计算方法 许多研究保持一致 生物医学领域,强调了 协同运动的 调节作用 以及多个基因之间药物反应复杂相互作用 同时各种数据类型 实证调查也强调了 自监督预训练方案增强模型鲁棒性中的意义 值得注意的是,这项研究 利用了细胞的老化基因组转录组特征 品系特性分析,不包括 纳入 额外的多组学数据模式 蛋白质组学代谢组学。 虽然包含 多个组学数据集 具有改进的潜力 ING 模型性能——特别是随着以下方面 的专门信息引入 蛋白质靶点,能够不同的癌症进行精确药物反应预测 细胞类型——这种增强 引发了模型泛化的担忧 多个组学数据的依赖可能会损害 模型的适用性 面对 特定组学数据集缺失 例如 作为单细胞临床数据。 相比之下DIPK利用的 基因相互作用网络信息服务于DIPK 作为 先验知识库,独立特定数据类型 确保 各种场景中具有更广泛的适用性


关键

·
增强的药物反应预测:手稿 证明了 基因的重要性 交互作用 预测药物反应中的作用介绍了一种新的研究 深度学习框架 DIPK 整合这些宝贵的先验知识,从而 优于现有


预测不同细胞药物之间药物反应的方法

·
各种数据类型泛化我们展示了 DIPK 各种数据类型 泛化包括批量 RNA-seq scRNA- 序列。 这种广泛的适用性展示了 DIPK 处理不同 数据模式,在异构性背景下 是一个关键方面 头的性质

·
可靠的临床适用性:文章强调了DIPK 可靠性 ,通过其评估 临床数据 评估 DIPK 区分紫杉醇反应 方面的表现 pCR 组和 RD 之间证实了临床相关性,表明 DIPK可以临床实践中的治疗决策提供有价值的见解


补充数据


补充数据在线 查阅 http://bib.oxfordjourn als.org/。


作者的贡献


P.L.了这个研究项目。 X.Y. 监督研究项目。 P.L. Z.J. 设计实施了 DIPK 框架工作。 P.L.、Z.J. T.L. 进行了 数据结果分析 H.Q.分析临床数据。 所有作者都审阅手稿。 所有作者都讨论了 实验结果,实验结果进行了评论 手稿。


ING基金


这项工作 得到了 美国国家自然科学基金的部分支持 中国62202353 U22A2037 基金 基本科研业务费 中央大学。


数据可用性


数据集、源代码训练模型实验结果数据分别为 可在 GitHub 获取https:// github。com/user15632/DIPK Google Drive:https:// 驱动器。谷歌。com/drive/folders/16hP48- noHi3-c_LP9TcZxkwAzqxgR0VB?USP=分享
.


推荐ENCES


1. Deshmukh S, Saini S. 肿瘤进展中的表型异质性以及 它在癌症发病 中的 可能作用 Front Genet 2020 年;11:604528.


2. Guo L, Kong D, Liu J, et al. 乳腺癌 异质性 及其个性化精准治疗的意义 Exp Hematol Oncol 2023;12(1):1-27。


3. 雷林 MV,埃文斯 WE。 临床中的 药物基因组学 自然界


2015年;526(7573):343–50。


4. 埃文斯 WE,雷林 MV。 迈向 个体化医疗


药物基因组学。 自然 2004;429(6990):464–8。


5. Wheeler HE、Maitland ML、Dolan ME 等人癌症药物基因组学: 战略挑战。 Nat Rev Genet 2013 年;14(1):23-34

Downloaded from https://academic.oup.com/bib/article/25/3/bbae153/7642699 by National Science & Technology Library user on 14 April 2024


改进药物 反应预测 | 9


6. Whirl-Carrillo M, McDonagh EM, Hebert J, et al. 药理基因组知识 用于个性化医疗。 临床药理学 Ther 2012;92(4):414-7。


7. Cecchin E, Stocco G. 药物基因组学个性化


药。 基因 2020;11(6):679.


8. Mayr LM, Bojanic D. 高通量筛选的新 趋势


Curr Opin Pharmacol 2009 年;9(5):580-8。


9. Tansey W, Li K, Zhang H, et al. 剂量反应模型 通量癌症药物筛选:一种端到端的方法。 生物统计学 2022;23(2):643–65。


10. 路透社 JA、Spacek DV、斯奈德议员。 高通量测序


技术。 摩尔细胞 2015;58(4):586-97。


11. Yang W,Soares J,Greninger P, et al. 药物敏感基因组学 癌症 (GDSC): 癌症治疗性生物标志物研究 的资源 细胞。 核酸 研究 2012;41(D1):D 955–61。


12. Barretina J、Caponigro G、Stransky N 等人 细胞 Line Encyclopedia 能够对抗药物敏感性进行预测建模。 自然 2012;483(7391):603–7。


13. Ahmadi Moughari F, Eslahchi C. 药物 敏感性的计算方法 基于 各种分子信息细胞预测。 公共科学图书馆 2021;16(4):e0250620.


14. Schärfe CPI, Tremmel R, Schwab M, et al. 遗传变异


人类药物相关基因。 基因组医学 2017;9:1-15。


15. Ingelman-Sundberg M, Mkrtchian S, Y, Lauschke VM. 罕见的遗传变异整合药物遗传学药物反应预测 嗡嗡基因组学 2018;12:1-12。


16. LeCun Y, Bengio Y, Hinton G. 深度学习。 自然界


2015年;521(7553):436–44。


17. Chiu YC, Chen HIH, Gorthi A, et al. 深度学习 药物基因组学资源:迈向 精准肿瘤学。 Brief Bioinform 2020年;21(6):2066–83。


18. Ballester PJ, Stevens R,Haibe-Kains B, et al. 人工智能 疾病模型中的药物反应预测 简介 Bioinform 2022;23(1):BBAB450.


19. Partin A, Brettin TS, Zhu Y, et al. 深度学习方法用于癌症药物 反应预测主要新兴趋势。 前线医学 2023;10:1086097.


20. Adam G, Rampásekˇ L, Safikhani Z, et al. 机器学习


药物反应预测的方法挑战近期进展。 NPJ Precis Oncol 2020;4(1):19.


21. 军, 林. 市政府调查系统评价 药物反应预测假定方法 简介 Bioinform 2021;22(1):232-46.


22. Li S, Wan F, Shu H, et al. Monn: 目标用于预测化合物-蛋白质相互作用亲和力神经网络 细胞系统 2020;10(4):308–322.e11。


23. Liu B, Gao X, Zhang H. BioSeq-Analysis2. 0: 基于ZingDNA、RNA和蛋白质序列atsequencelevel残基水平的更新平台 机器学习方法。 核酸 研究 2019;47(20):e127–7.


24. Wang S, M, Zhang S, et al. MCN-CPI: 多尺度 convo- 用于化合物-蛋白质相互作用预测Lutional网络 生物分子 2021;11(8):1119.


25. Manica M、Oskooei A、 Born J 等人迈向解释的抗癌 通过基于多模态注意力的卷积编码器预测化合物灵敏度 Mol Pharm 2019 年;16(12):4797–806.


26. Weininger D. Smiles,化学 语言信息系统 1. 方法论编码规则介绍 J Chem Inf Comput Sci1988;28(1):31-6。


27. Szklarczyk D、Franceschini A、Wyder S 等人 字符串 v10:蛋白质– 蛋白质相互作用网络,整合生命之树 核酸 研究 2015;43(D1):D 447–52。


28. Jia P, R, Pei G, et al. 深度生成神经 ACCU网络


药物反应进行归责。 Nat Commun 2021 年;12(1):1740.


29. Chawla S, Rockstroh A, Lehman M, et al. 基因表达 基于癌症药物敏感性的推断 Nat Commun 2022 年;13(1):5680.


30. Shi W, T, Nuciforo P, et al. 通路水平改变 而不是单个基因突变预测 HER2 靶向的反应 neo-ALTTO试验中的 疗法。Ann Oncol 2017 年;28(1):128-35


31. 琦, 爱. 药物遗传学、药物基因组学独立


病毒化医学。 药理学修订版 2011;63(2):437–59.


32. Hou T, Li N, Li Y, Wang W. 结构域-肽表征 相互作用界面:预测 SH3结构域介导的蛋白-蛋白质相互作用网络 酵母通过基于通用结构的模型。 J Proteom Res 2012;11(5):2982–95。


33. S, XM, C, XS. 通过最大化 模块化来确定蛋白质相互作用网络模块化组织 密度。 BMC系统生物学; 2010年;4:1-12。


34. Shu H, J, Lian Q, et al. 基因调控建模 使用神经网络架构的网络 Nat Comput Sci 2021;1(7):491-501。


35. Cortazar P,Geyer CE。 乳腺癌新辅助 治疗 病理完全缓解 Ann Surg Oncol 2015 年;221441-6。


36. CostanzoM,BaryshnikovaA,BellayJ, etal. Thegenetic景观


一个单元格。 科学 2010;327(5964):425–31。


37. Forster DT, Li SC, Yashiroda Y, et al. 仿生学:生物网络


积分使用卷积。 NatMethods 2022 年;19(10):1250–61。


38. Wang C, Pan S, Long G, et al. Mgae: 边缘化用于图形聚类的 AutoEncoder 2017 ACM 信息知识会议 论文集 管理 2017: 889–898.


39. Vincent P, Larochelle H, Lajoie I, et al. 堆叠去自动编码人员:在具有本地功能 深度网络 学习有用的表示 去噪标准。 J Mach Learn Res 2010;11(12):3371–3408。


40. Li P,Wang J,Qiao Y, et al. 一种有效的自监督框架 学习表达分子全局表征以发现药物。 简介 Bioinform 2021;22(6):BBa109.


41. Vaswani A、Shazeer N、 Parmar N 等人 注意力就是全部你需要


Adv Neural Inf Process Syst 2017 年;30
.


42. Hara K,Saito D,Shouno H.所用整流线性单元的功能 分析 深度学习 2015 神经网络国际联合会议 (IJCNN) 2015:1–8.


43. Dey R, Salem FM. 门控循环单元 (GRU) 神经门变体 网络。 2017 IEEE第60届国际中西部电路系统研讨会 (MWSCAS),美国马萨诸塞州波士顿2017:1597–1600。


44. Li P,Wang J,Li Z, et al. 成对半图判别: a sim- 用于预训练神经网络 PLE 图级自监督策略第三十届人工智能 国际联合会议 论文集 2021:2694–2700.


45. KinkerGS,GreenwaldAC,TalR, etal. Pan-cancersingle-cellRNA-seq 可识别细胞异质性的反复出现程序 Nat Genet 2020 年;52(11):1208–18。


46. Yu H, Kim DJ, Choi HY, et al. 前瞻性药理学方法学 用于建立评估抗癌耐药 细胞系。 BMC 癌症 2021; 21:1-13。


47. Prasse P, Iversen P, Lienhard M, et al. 匹配的抗癌化合物 磅和 肿瘤细胞通过神经网络进行排名损失。 NAR Genom Bioinform 2022 年;4
.


48. Shen B, Feng F, Li K, et al. 系统 评估用于药物反应预测 深度学习方法来自体外 临床应用。 简介 Bioinform 2023;24
.

Downloaded from https://academic.oup.com/bib/article/25/3/bbae153/7642699 by National Science & Technology Library user on 14 April 2024


10 | Li .


49. Partin A, Brettin T, Evrard YA, et al. 学习曲线 细胞中的药物反应预测 BMC Bioinform 2021 年;221-18.


50. Kurilov R, Haibe-Kains B, Brors B. 建模策略评估 细胞异种移植物中的药物反应预测科学代表 2020;10(1):2849.


51. Wang C, Lye X, Kaalia R, et al. 深度学习 多组学方法预测 癌症中的药物反应 BMC 生物信息学 2021;22(10):1-15。


52. Xia F, Allen J, Balaprakash P, et al. 交叉研究分析 药物


细胞的反应 预测 简介 Bioinform 2022;23
.


53. Toro-Domínguez D、Villatoro-García JA、Martorell-Marugán J 等人 一项调查 基因表达Meta分析:方法应用。 简介 Bioinform 2021;22(2):1694–705。


54. Yang X, Kui L, Tang M, et al. 高通量转录组


分析药物和生物标志物发现。 FrontGenet 2020 年;11:19.


55. Weidenhammer EM,Kahl BF,Wang L, et al. 多路复用,靶向基因表达分析以及电子微阵列遗传分析 临床化学 2002;48(11):1873-82。


56. Ozsolak F, Milos PM. RNA测序:进展、挑战


机会。 Nat Rev Genet 2011 年;12(2):87-98。


57. Finotello F,Di Camillo B. rna-seq 测量差异基因表达挑战以及数据分析策略 Brief Funct Genomics 2015;14(2):130-42。


58. Nookaew I, Papini M, Pornputtapong N, et al. 理解 基于 RNA-seq的转录组分析reads差异基因表达的比较 以及与 微阵列的交叉比较 酿酒酵母的案例研究 核酸 研究 2012;40(20):10084–97。


59. Gawad C, Koh W, Quake SR. 单细胞基因组测序:


科学 现状 Nat Rev Genet 2016 年;17(3):175-88。


60. Papalexi E, Satija R. 单细胞RNA测序探索 免疫细胞 异质性。 Nat Rev Immunol 2018 年;18(1):35-45


61. Van de Sande B, Lee JS, Mutasa-Gottgens E, et al. 应用 单细胞RNA测序药物发现开发中的应用。 Nat Rev Drug Discov 2023;22:496-520。


62. Fustero-Torre C、Jiménez-Santos MJ、García-Martín S 等人 Beyondcell:靶向 单细胞 RNA-seq 数据中的癌症治疗异质性 基因组医学 2021;13(187):1-15。


63. Conforti F, Pala L, Sala I, et al. 病理评估 在新辅助治疗和联合 临床试验 作为替代终点的完全缓解 早期 乳腺癌系统评价荟萃分析。 英国医学杂志 2021;375。


64. Liu H, Lv L, Gao H, Cheng M. 病理完全缓解及其 乳腺癌 复发患者生存的影响新辅助治疗:一项全面的荟萃分析。 Comput Math Methods Med 2021;2021:1–11.