沉浸式翻译 - 文档双语翻译：一键翻译 PDF， ePub 电子书，字幕文件，txt文件

生物信息学简报， 2024， 25（3）， bbae153

网址：doi.org/10.1093/bib/bbae153

问题解决协议

通过将基因关系与深度学习相结合来改进药物反应预测

李鹏勇，江正祥，刘天晓，刘新宇，乔辉，姚晓军

通讯作者. 姚晓军，澳门理工学院应用科学学院人工智能驱动药物发现研究中心大学， 999078 澳门，中国. 电子邮件： xjyao@must.教育。莫

腹肌束

预测癌细胞系的药物反应对于推进个性化癌症至关重要治疗，但由于肿瘤的异质性和个体多样性，仍然具有挑战性。在这项研究中，我们提出了一种基于深度学习的框架，称为深度神经网络集成先验知识（DIPK）（DIPK），该框架采用自监督技术整合多种有价值的信息，包括基因相互作用关系、基因表达谱和分子拓扑结构，以提高预测的准确性和稳健性。我们证明了与现有方法相比，DIPK在两种已知方法上都具有卓越的性能以及新型细胞和药物，强调了基因相互作用关系在药物反应预测中的重要性。此外，DIPK 将其适用范围扩展到单细胞 RNA 测序数据，展示了其单细胞水平反应预测和细胞鉴定。此外，我们评估了DIPK对临床数据的适用性。 DIPK 准确预测了病理完全缓解（pCR）组对紫杉醇的更高反应与残留病灶组相比，肯定了pCR组对化疗化合物。我们认为，将DIPK整合到临床决策过程中具有潜力加强针对癌症患者的个体化治疗策略。

图形摘要

关键词：药物反应;药物基因组学;深度学习

公司介绍

人类癌症通常在几乎所有可辨别的表型特征中都表现出显着的异质性，这是成功的巨大障碍个体化治疗[1,2]。随着基因组分析技术的出现，药物基因组学[3\u20126]开辟了新的领域个性化医疗发展的机会。

药物基因组学旨在研究基因组改变和转录组编程如何影响药物反应，从而允许基于患者独特基因谱的个性化药物治疗 [7]。近年来，高通量药物筛选技术使研究人员能够进行关于癌细胞系药物反应的大规模实验 [8–10]。癌症药物敏感性基因组学（GDSC）[11]等项目，以及

李鹏勇是西安电子科技大学的助理教授。他在清华大学获得博士学位。他的研究兴趣集中在人工智能

技术和药物发现。

江正祥是西安电子科技大学的一名本科生。他的研究兴趣包括深度学习和生物信息学。

刘天晓在西安电子科技大学获得学士学位，现为研究生在西安电子科技大学。他的研究兴趣包括深度学习

和分子生成。

刘新宇是北京大学口腔医学院和口腔医院的助理教授。他在清华大学获得博士学位。他的研究兴趣

包括生物材料和药物设计。

Hui Qiao 是泰安市立医院的一名肿瘤科医生。他的研究兴趣包括癌症治疗。

姚晓军在巴黎第七大学丹尼斯·狄德罗获得博士学位。他是澳门理工大学的教授。他目前的研究兴趣包括药物发现和生物信息学。

收稿日期： 2023-12-26。修订日期：2024 年 3 月 5 日。录用日期：2024年3月18日

这是一篇开放获取文章，根据知识共享署名的条款分发许可证（https:// creativecommons.org/ licenses/by/4.0/），允许在任何媒介，只要正确引用原始作品。

2 | Li 等.

癌细胞系百科全书（CCLE）[12] 分析了多种癌细胞系和对这些细胞系的药物敏感性[13]。这些药物基因组学数据集提供了更全面的遗传基础表示用于药物代谢和疗效的可变性[14,15]。

近年来，许多利用药物基因组学的深度学习（DL）模型[16] 得到了开发用于预测药物敏感性的数据集，显示出优于传统机器学习的性能[17\u201224]。通常，其中许多方法都利用了强大的特征提取 DL 学习细胞系和药物表征的能力，以及然后合并学习到的表示以产生最终预测。针对细胞系和药物存在多种修饰策略。例如，Manica 等人。 [25] 提出了一种基于注意力的卷积网络来学习 2019年的药物SMILES[26]和细胞基因表达谱。由于处理高维基因数据在计算上很困难，他们通过网络传播筛选出信息性基因的一个子集。蛋白质-蛋白质相互作用网络[27]。贾楠.[28]2021 年引入 DeepVariational AutoEncoder 将基因表达压缩到潜在载体中并证明这些载体可以准确预测药物反应。 Chawla 等人。 [29] 展示考虑药物描述符和基因通路的好处 2022 年的特色。

尽管这些初步研究在药物反应预测方面取得了长足的进步，但仍存在关于表征细胞和药物的争议。大多数方法使用转录组学特征（基因表达谱）进行细胞系表示; 然而，越来越多的证据表明，药物反应可以通过以下因素进行调节。多个基因的协同行为和复杂相互作用[30–34]。因此，仅使用转录组学特征而不使用基因关系可能会限制准确性以及响应预测的鲁棒性。此外，目前的方法主要使用分子指纹或SMILES 来表征药物无法编码分子拓扑信息的化合物。

为了解决这些问题，我们提出了D eep神经网络I集成P rior Knowledge （DIPK）用于癌症药物反应预测，一种旨在结合基因相互作用关系、基因表达谱和分子拓扑在预测癌症药物反应中的应用。先验知识的提取和整合通过以下方式得到有效处理自监督技术和注意力机制的应用。 DIPK 中采用的自监督技术使模型能够有意义地学习来自未标记数据的表示，利用基因中可用的丰富信息和化合物。这种方法增强了模型捕获复杂模式和关系的能力在数据中，从而提高预测性能。通过利用注意力机制，DIPK 可以有效地关注相关特征和优先考虑不同组件的重要性，进一步增强其预测能力。通过结合基因相互作用关系和分子拓扑结构，DIPK 捕获基因和药物之间复杂的相互作用，提供了更全面的了解药物反应机制。这种对先验知识的整合使DIPK能够利用现有的生物学知识并增强其预测能力。

为了评估 DIPK的预测能力，我们对GDSC进行了交叉验证和CCLE数据集，以证明 DIPK在预测药物方面的准确性对已知细胞系和药物的反应。此外，我们通过评估其在以下方面的性能来检查该框架的外推能力新型细胞系和药物。通过我们的 DIPK 模型获得的预测误差显着降低，表明其优于状态

药物敏感性预测的最新方法。此外，DIPK 通过实现准确的药物反应预测，展示了其强大的泛化性使用单细胞表达谱。这种能力凸显了 DIPK 有效促进多样化的潜力数据类型。值得注意的是，我们的研究还证明了 DIPK在预测药物方面的可靠性使用患者数据做出响应。通过分析乳腺癌患者数据集，DIPK 成功地完全区分了患者有或没有病理完全缓解（pCR）[35]。这一发现表明DIPK在临床治疗中具有潜在的应用潜力设置。据我们所知，这项研究是整合先前的了解基因相互作用关系和药物拓扑，以模拟药物敏感性。 DIPK 框架在各种数据集上的卓越性能及其处理不同类型数据的能力进一步凸显了其在以下方面的潜力推进个性化医疗发展。

我THODS

模型框架

细胞和药物的准确建模构成了药物反应预测的基石。特别是，细胞的特征在于它们的遗传信息，这些信息被编码在存在于每个细胞中的脱氧核酸。细胞的行为和性质受到基因的深刻影响相互作用和基因表达模式[36]。因此，为了有效地封装细胞的内在特征，DIPK采用了强大的生物网络集成框架，称为仿生[37]。仿生无缝集成多个高质量基因相互作用网络，最终实现通过使用图形自编码器（GAE）[38]。该过程涉及将源自 BIONIC 的高表达基因特征聚合到表征给定细胞系固有的复杂基因相互作用关系（见图1A）。此外，DIPK还采用了降噪自动编码器（DAE）[39] 来压缩将细胞系的基因表达谱转化为低维隐藏向量（图1B）。通过将基因关系的表征与基因表达谱融合在一起，DIPK实现了对细胞的更全面的理解。这种综合方法增强了捕捉基因之间复杂相互作用的能力相互作用和基因表达，提供更准确的细胞表达特性。

为了表征药物化合物， DIPK 利用预训练的分子图神经网络（MolGNet）[40]，将分子图表示转换为通过基于邻居注意力的消息传递方法的原子连续向量（见图 1C）。这种预训练的MolGNet 擅长捕捉分子中有意义的模式拓扑结构，导致可解释和表达的重复。如图 1（D）所示，DIPK采用了多头注意力机制 [41] 将细胞和药物信息融合在一起，产生全面的药物代理。将药物表示与细胞表示相结合，然后进料到全连接层，生成最终的药物反应预测。通过整合细胞和药物信息，DIPK为以下领域提供了一个全面的框架：准确率药物反应预测。基因互作关系、基因表达谱和分子拓扑结构的整合 iCal Structure增强了对复杂细胞过程和药物机制的理解。

总体而言，DIPK由细胞建模、药物建模、融合和输出组成。其中，包括细胞的表示

改进药物反应预测 | 3

图 1. DIPK的模型框架。A）通过GAE编码基因相互作用网络，得到基因特征包含交互的交互。对高表达的基因特征进行平均，以表示给定的细胞系。（B）基因表达谱被压缩成低维隐藏使用 DAE 的向量。（C）用分子图表示药物，然后输入放入MolGNet中，获取原子特征。（D）整合了相互作用组特征、转录组特征和原子特征使用多头注意力层和全连接层来获取 LN IC50.

相互作用组特征和转录组特征，以及药物的评价是分子图。下面将详细介绍模型框架。

细胞建模

如图 1D 所示，细胞表征由相互作用组组成特征和转录组特征。对于相互作用组特征，我们确定了具有最高值的前 256 个基因表达水平。这些高度的 512 维表示

SMILES 字符串。在图结构中，我们将原子分配为节点，将键分配为边。然后，该图被用作 MolGNet 的输入，MolGNet 是一个促进编码表示的生成（图1C）[40]。在这个表示中，每个原子都由一个向量 768 表示尺寸。 MolGNet 包含一个消息计算函数 M 和一个顶点更新函数 U，这两个组件作为 follows：

表达的基因是用仿生[37 ]提取的，这是一个综合框架，可以使用 GAE 结合多个高质量的基因互通网络（图 1A））。这些高度表达的基因表示的平均值被认为是相互作用组特征，包含有关基因相互作用的宝贵信息。我们将基因表达谱压缩为

mi t= M xt−1， xjt−1， eij ， j ∈ Ni

xi t= U（ht−1， mi t)

(1)

(2)

一个 512 维的隐藏向量，被认为是 trans-scriptome 特征。具体来说，我们采用了一个 DAE，该 DAE 包含一系列整流线性单元（ReLU）激活了尺寸为[2048、1024、 512、1024、2048]的全连接层（图 1B）[39,42]。在预训练期间，将带有随机噪声的基因表达谱输入到大。原始表达式配置文件与重建的一被视为损失函数。

药物建模

为了构建分子图，药物的原子键和化学键细节化合物分子通过其

其中 Ni 表示节点 i 的邻居，eij 表示边在节点 I 和节点 J 之间，顶点更新函数 U 是一个门控循环单元网络[43]，Ht−1为隐藏状态

U 和 h0i 是初始原子表示 xi 0。 MolGNet 使用成对半图判别 [44] 进行预训练，该算法旨在区分两个半图是否属于同一来源，和图属性屏蔽 strategy。

融合和输出

在提取细胞和药物表示之后，融合和输出过程集成各种功能生成

4 | Li 等.

最终输出。相互作用组特征和转录组特性受到相似的影响操作顺序，涉及 ReLU 激活的线性层，然后是单独的多头包含 Atom 特征的注意层。注意力机制促进了这些特征之间更高程度的交互，因此增强模型的表示能力。在大多数情况下，参数共享是在相应的之间实现的交互组特征和转录组特征管道中的层（即在两个线性层之间或两个多头注意力层之间）。众所周知，这种策略可以通过使其能够提高模型的泛化能力识别并利用不同类型输入特征之间的共性。然而，当我们的方法的任务是预测药物反应时学习了细胞系和药物，对泛化的需求就不那么重要了。从这种矛盾中，这些层之间的参数保持独特性，使模型能够专注于实现更细致的学习。注意力层的输出计算如下：

Predictionson将 5 倍平均以生成更准确的预测。对于基线 Precily，我们使用了推荐的超参数。对于使用GDSC数据集对未学习的细胞系和药物进行验证，有训练集和测试集之间没有重复的细胞系或药物拆分数据集时。使结果具有统计显著性并使训练集尺寸尽可能大[25]，则使用25倍交叉验证。对于使用 CCLE数据集对未学习的细胞系进行验证，没有拆分数据集时在训练集和测试集之间复制细胞系确保与报告的基线具有可比性。实施了 5 倍交叉验证，随后从 5 倍进行预测平均。详情见补充文本 S3.

使用单单元数据验证模型

我们从以下机构进行的研究中获取了单细胞RNA测序（scRNA-seq）数据： Kinker 等人。通过基因表达综合（Gene Expression Omnibus， GEO）与GSE157220[45]。由于没有 IC50，单细胞数据集由 116 个细胞组成线

注意力（Q， K， V） = softmax

QKT dk

(3)

和 173 种药物，包括 17 279 对细胞系-药物对。值得注意的是，此数据集中包含的细胞系被排除在训练集之外。然后，我们使用此数据集来验证在CCLE上训练的模型数据。详情见补充文本S1.

其中 DK 是原子特征的维度，这些原子特征被输入到两个独立的线性层，用于获得矩阵 K 和 V。编码的交互组特征或转录组特征被馈送到线性层没有激活函数，得到矩阵Q。分子特征是通过将两者的输出相加得出的多头注意力层。然后，交互组特征由 ReLU 激活的线性层进行编码。该层在保留维度的同时对输入执行转换的原始输入空间。转录组特性以类似的方式进行处理。然后将分子特征与以下两个线性层。这种集成的特征表示随后被输入到一系列完全连接层，具有维度

[768 + 512， 512， 256， 128， 1] 的层次结构。 ReLU 激活函数应用于这些层。最终输出是对半极大值的自然对数的预测抑制浓度（LN IC50）。为了训练 DL 框架， MSE 被用作损失函数因其在解决问题中的效率得到证实。

在 GDSC 和 CCLE Dataset 上验证模型

在这项研究中，我们使用了两个数据集，GDSC和CCLE，来评估 DIPK的性能。两个数据集都提供了细胞-药物对和相应的IC50，细胞系提供- ING 转录组数据和提供名称的药物。使用药物名称，我们从 PubChem 中获取了特定的分子结构。根据转录组数据，我们选择了顶部

256个表达水平最高的基因（见补充文本S2）。我们从仿生中提取了这些高表达基因的特征，并将它们平均为交互功能。按照标准化的数据预处理和清理程序（见补充文本S1），， GDSC 数据集产生 957 个细胞系和 206 种药物，得到 159 114 个细胞-药物对。同样， CCLE 数据集包括 550 个细胞系和 173 种药物，产生总共 80 056 对细胞系-药物。

模型训练和验证

使用 GDSC 在学习的细胞系和药物上验证模型数据集，我们进行了 5 倍交叉验证。这

使用患者数据验证模型

本研究中使用的临床患者基因表达数据购自具有GSE25055、GSE32646和 GSE20194的GEO [28]。每个样本都被注释为 pCR、RD（残留病灶）或 nCR（非 pCR）。我们使用了在 GDSC 数据集上训练的模型（以保持表达谱类型的一致性）以预测这些药物对紫杉醇的反应不同的患者。详情见补充文本S1.

RESULTS （英语）

DIPK 提高了预测准确性和稳定性 GDSC 是一个综合资源，提供大规模药物基因组学数据以支持癌症研究[11]。它包括分析的癌细胞系的基因表达谱通过阵列技术，以及它们对各种药物化合物的相应反应（IC50） [46,47]。在这项研究中，我们评估了该模型对药物的性能 GDSC 数据集上的反应预测（药物反应数据和基因表达数据取自 GDSC）使用 5 倍交叉验证。为了确保准确报告模型的预测能力，我们遵循了通常采用的做法是从 5 个方面中的每一个获得的平均预测 [48]. 图 2A 显示了预测值与观察到 LN IC50 值。为了突出 DIPK 的优势，我们将其性能与 Precily [29]，一种最近开发的基于深度神经网络的药物框架基于通路富集评分和药物描述符的反应预测。如图 2 B 所示，DIPK 在均值方面的表现明显优于 Precily 平方误差（MSE），同时还表现出更高的 Pearson 相关系数（PCC）和 R2 值（DIPK：

MSE = 0.7159 ± 0.0060，PCC = 0.9406 ± 0.0008，R2 = 0.8848 ± 0.0015; 精确地说：MSE = 0.9625 ± 0.0483，PCC = 0.9198 ± 0.0043，R2 =0.8460 ± 0.0077）。对于这些指标的标准差，DIPK 低于 Precily，表现出很强的稳定性。此外，我们对预测性能进行了深入分析。单个细胞系和药物。如图 2E-J 所示，DIPK 在不同细胞系中的性能优于 DIPK 以及药物在MSE、相关性和变异性方面的差异，表明

改进药物反应预测 | 5

图2. 批量数据的性能。（A）观测的 LN IC50 和预测的 LN IC50 的散点图。密度由颜色的差异表示。（B）模型在学习细胞系和药物上的性能比较与GDSC数据集一起使用。（C）模型在新型细胞系和药物上的性能比较与GDSC数据集一起使用。（D）模型在CCLE数据集上的性能比较。（E-G）每种细胞系的模型性能比较。（H-J）每种药物的模型性能比较。

DIPK 提高了预测准确性和稳定性。与 DIPK 相比，Precily 采用通路富集分数作为表征细胞系。通路富集分数用作指示程度的统计指标特定通路富集了差异表达或调节基因，尽管没有考虑基因相互作用信息。 DIPK中基因相互作用数据的增强导致了预测的增强药物反应预测的准确性和稳定性，强调了为细胞系的精细表征提供全面的基因相互作用信息。在药物反应预测离子的背景下。

在快速发展的临床实践格局中，新的事物不断涌现细胞系和药物对血液决策提出了巨大的挑战，特别是由于缺乏细胞系和药物现存药物反应数据[49,50]。能够预测看不见的细胞系和新细胞系的药物反应药物化合物可以作为优化治疗的关键辅助工具 [51,52 ]。为了评估我们的模型在这种情况下的普遍性，我们进行了涉及模型以前未遇到的细胞系和药物的实验使用 GDSC 数据集。如图 2C 所示，DIPK 的中位数 MSE 明显较低比 Precily ，这表明 DIPK 在以下情况下具有更强的泛化能力遇到前所未见的细胞系和药物。这种增强的普遍性可以归因于先验知识的整合添加到我们的模型中，这增强了模型的

在新情况下适应和做出准确预测的能力。

基因表达分析包括各种技术，具有不同的优势和局限性[53]。上述研究依赖于通过转录谱获得的基因表达谱使用阵列技术[54,55]。但是，重要的是要考虑替代技术来评估模型的有效性。RNA测序（RNA-seq）已成为一种广泛使用的高通量测序技术，用于不同研究领域的基因表达分析 [56,57]。与芯片技术相比，RNA-seq在表达方面具有更高的准确性和灵敏度值[58]。 CCLE 作为一个公共数据库，提供RNA-seq基因表达谱广谱细胞系[12]。在这里，我们采用了CCLE 数据集（药物反应数据来自 GDSC 基因表达数据来自 CCLE）用于训练和模型的评估。我们的实验模拟了靶向现有细胞系的场景药物，确保在训练、验证和测试中没有重叠的细胞系数据。我们进行了 5 倍交叉验证和平均预测，以获得稳健的结果。在基准测试中，我们比较了 DIPK 和 Precily 的性能。如图 2 D 所示，DIPK 在以下方面表现出更好的准确性和稳定性 MSE、PCC 和 R2 的条款

（DIPK：MSE = 1.7123 ± 0.0479，PCC = 0.8849 ± 0.0018，R2 = 0.7830 ± 0.0031; 确切地说：MSE = 1.8327 ± 0.1016，PCC = 0.8797 ± 0.0034，R2 =0.7739 ± 0.0059），表明 DIPK可以处理获得的不同基因表达谱通过不同的转录组

6 | Li 等.

图3. 在单细胞表达谱上的表现。（A） MSE 和 RMSE 在测试集上的比较。（B） PCC 和 R2 在测试集上的比较。（C） t-SNE图，显示DIPK获得的单个细胞特征属于 10 个随机细胞系的细胞。

使用单细胞表达谱预测药物反应

近年来，scRNA-seq 的利用量激增，因为它能够捕获单细胞的基因表达谱[59,60]。与批量 RNA-seq 数据不同，批量 RNA-seq 数据提供组织中多个细胞的聚合基因表达水平，并可能掩盖特定细胞亚群[61,62]，scRNA-seq数据提供了更详细和异质的细胞反应视图。为了评估该模型在单细胞水平上预测药物反应的能力，我们利用了来自所进行研究的scRNA-seq数据由

图4. 对患者数据的性能。（A） GSE25055中样品对紫杉醇的预测药物反应的比较在pCR组和 RD组之间。（B） GSE32646中样品对紫杉醇的预测药物反应的比较在 pCR 组和 nCR 组之间。（C） GSE20194 中样品预测药物反应的比较紫杉醇介于pCR组和 RD组之间。预测的药物反应通过预测的 -LN IC50 来测量。 P 值使用双侧异方差 t 检验获得。

分析技术。与GDSC 数据集上的验证结果不同，DIPK相对于Precily在CCLE数据集上的比较优势显得不那么明显。这种差异是由于 Precily 扩大了转录组信息的整合。具体来说，Precily通过计算来自综合表达谱的通路富集分数来描绘细胞系，该谱是包括17 420个GDSC基因和57 820个CCLE基因。相比之下，DIPK采用一种方法，其中基因亚集被选择性地选择并编码到潜在载体中，从而减轻了对基因总数的敏感性在表达式配置文件中。

Kinker 等人。[45] 构建我们的测试集，包括 207 个细胞系和 173 种药物。另一方面，训练集是使用 bulkRNA-seqdatafromtheCCLEdata 构建的，不包括出现在测试集。我们进行了 5 倍交叉验证，对各折的预测进行平均。如图 3A– B 所示，与 Precily 相比，DIPK 在 MSE、RMSE、PCC 和 R2 方面取得了更好的性能，表明 DIPK 在对批量 RNA-seq 数据进行训练后，在预测 scRNA-seq 数据上的药物反应方面更有效。值得注意的是，与Precily相比，观察到的预测准确性和稳定性有所提高虽然在scRNA-seq数据上的验证明显大于对批量 RNA-seq的验证数据。这一观察结果强调了 DIPK 强大的普遍性，证明了其在对抗不同的数据结构。造成这种现象的原因是，在计算交互组特征时，具有最高表达水平的基因组是在不付费的情况下提取的关注特定的表达数据，使得DIPK对差异相对不敏感在批量或单单元格数据中。此外，我们从 10 种不同的细胞系中随机选择单细胞，并使用 DIPK 提取细胞特征。根据图 3 C，DIPK 学习的单元特征可用于执行

改进药物反应预测 | 7

图5. 消融实验。（A-B）模型在测试集上的性能比较。（C-E）每种细胞系的模型性能比较。（F-H）每种细胞药物的模型性能比较。（I）模型在测试集上的性能比较。（J）模型在各测试集上的性能比较倍。（K）每种细胞系的模型性能比较。（L）每种药物的模型性能比较。（A-H）显示了在学习的细胞系上验证时的模型性能，以及药物和（I-L）在未学习的细胞系上验证时显示了模型性能和毒品。

细胞分离，这表明 DIPK 学习了细胞足够好，可以区分它们。

DIPK 使患者能够获得可靠的临床反应评估 DIPK 的适用性在临床治疗中，我们使用乳房的三个数据集[28] 进行了测试对紫杉醇治疗具有注释 pCR 状态的癌症患者，即 GSE25055，GSE32646 和 GSE20194.pCR 被定义为乳腺癌中没有任何浸润性癌症完成新辅助化疗后的患者[63,64]。每个数据集中的样本被分类intotwogroupsbasedontreatment annotations： the pCR group and the RD or nCR组。通常，与 RD相比， pCR组表现出更好的药物反应或 nCR 组。我们的目标是确定DIPK是否能够准确预测这些差异。图 4A-C 说明了 pCR 组和 pCR 组之间的药物反应比较所有三个数据集中的 RD 或 nCR 组。 DIPK的预测表明， pCR的药物反应组持续高于 RD组或nCR组，确认 pCR 组确实对化疗化合物。这些发现提供了令人信服的证据支持 DIPK在临床上的可靠性治疗应用。 DIPK 准确辨别不同药物反应模式的能力不同的患者群体对个体化癌症治疗具有重要意义。它可以作为指导治疗决策的宝贵工具，协助临床医生选择最合适的治疗方法，并最终改善患者结果。

基因相互作用组和DAE的重要性

确定 DIPK 中每个组成部分对其整体的贡献性能方面，我们进行了一系列的消融实验。我们提出了两个辅助模型，即集成先验的Deep神经网络基因 Expression 和 Molecular 结构（DEM）和 Deep 的知识神经

整合基因 I与相关性和 Molecular 先验知识的网络结构（DIM）。 DEM 是 DIPK 的一个变体，其交互组特征来自该变体切除。 DIM 表示没有 DAE 组件的 DIPK 版本。在这个框架中，基因表达特征由表达定义没有 DAE 压缩的配置文件。通过对 DEM 和 DIM 的这种严格的比较调查，我们希望强调交互组特性和 DAE 在 DIPK，更深入地了解每个组件的重要性预测药物反应。

在我们追求阐明整合相互作用特征的功效的过程中并将 DAE 放入我们的模型中，我们对学习的单元进行了测试线路和药物。本研究采用的评估指标是均方根误差（RMSE）、MSE、 PCC 和 R 平方（R2）。在与DEM和DIM的比较分析中，DIPK始终表现出优越性所有指标的性能（DIPK：RMSE = 0.8461，MSE = 0.7159，PCC =0.9406，R2 = 0.8848，DEM：RMSE = 0.8604，MSE = 0.7403，Pearson = 0.9384，R2 = 0.8806，DIM：RMSE = 0.9165，MSE = 0。8399，PCC = 0.9310，R2 = 0.8667），如图5A，B所示。这些结果为相互作用组特征的功效提供了强有力的证据，并且 DAE在提高我们的药物模型的预测能力方面的作用反应。为了进一步深入研究相互作用组特征和DAE带来的改进，wesc 对每个单独的细胞系和药物。研究结果表明，DIPK 在各种方面的表现始终优于 DEM 和 DIM 细胞系和药物，如图 5 C–H 所示。这表示交互组特征和 DAE 的集成不仅提高了我们模型的准确性，而且增强了稳定性，强调了他们的在药物反应预测领域的效用。

此外，我们还评估了合并交互组特性和 DAE 的影响关于新型细胞系和药物。为了进行稳健的评估，我们在每个测试集上测量了 MSE 折叠 25 倍交叉验证程序，如图 5 J 所示。 DIPK 在以下方面表现出卓越的性能

8 | Li 等.

bothmedianvalueandinterquartilerange（IQR）比较到DEM

和 DIM （MSE 中位数 ± IQR： DIPK： 3.4188 ± 0.2223，DEM： 3.7897 ± 0.3362，DIM：4.9669 ± 0.8720）。这一观察结果表明，交互组特征和 DAE 的集成有效增强了模型的泛化能力。在随后的分析中，我们计算了 MSE 和 RMSE，当将 25 个折的预测值取平均值，如图 5I 所示。与早期的观察结果一致，DIPK 的表现优于 DEM 和 DIM （DIPK： MSE）= 3.3705，RMSE = 1.8359，DEM：MSE = 3.6321，RMSE = 1。9058，DIM：MSE = 4.3838，RMSE = 2.0938），进一步证实了增强的我们模型的泛化能力。最后，我们仔细研究了每个细胞系的预测性能和药物。如图 5所示，K、L、 DIPK 的性能优于 DEM 和 DIM，表明交互组特性和DAE有效地增强了稳定性，从而使其成为药物反应预测的有效工具。

结论与讨论

总之，我们提出了一个名为 DIPK 的基于 DL 的框架，该框架考虑了药物反应中多个基因的复杂相互作用。我们证明了 DIPK在两种GDSC上都优于现有方法以及CCLE数据集在预测准确性和稳定性方面的预测。此外，DIPK 在 sc-RNA seq 数据上表现出强大的泛化性，表明其能够处理各种数据类型。值得注意的是，我们在临床治疗分析中证明了 DIPK的可靠性。因此，在临床实践中，DIPK 可以作为一种工具筛选针对特定癌症患者细胞系量身定制的药物，使选择安全有效的治疗方案。这种方法有助于实现个性化和精确的医疗干预对于 patients。

本研究阐明了基因相互作用信息化在预测细胞药物反应的计算方法，与许多研究保持一致在生物医学领域，强调了协同运动的调节作用以及多个基因之间对药物反应的复杂相互作用。同时，对各种数据类型的实证调查也强调了自监督预训练方案在增强模型鲁棒性中的意义。值得注意的是，这项研究利用了细胞的老化基因组和转录组特征品系特性分析，不包括纳入额外的多组学数据模式如蛋白质组学和代谢组学。虽然包含多个组学数据集具有改进的潜力。 ING 模型性能——特别是随着以下方面的专门信息的引入蛋白质靶点，能够对不同的癌症进行更精确的药物反应预测细胞类型——这种增强引发了对模型泛化的担忧。对多个组学数据的依赖可能会损害模型的适用性当面对特定组学数据集的缺失时，例如作为单细胞或临床数据。相比之下，DIPK利用的基因相互作用网络信息服务于DIPK 作为先验知识库，独立于特定数据类型，确保在各种场景中具有更广泛的适用性。

关键点

·
增强的药物反应预测：手稿证明了基因的重要性交互作用在预测药物反应中的作用，并介绍了一种新的研究深度学习框架 DIPK 来整合这些宝贵的先验知识，从而优于现有

预测不同细胞系和药物之间药物反应的方法。

·
跨各种数据类型的泛化：我们展示了 DIPK 在各种数据类型中泛化，包括批量 RNA-seq 和 scRNA- 序列。这种广泛的适用性展示了 DIPK 在处理不同数据模式，在异构性背景下是一个关键方面罐头的性质。

·
可靠的临床适用性：文章强调了DIPK 的可靠性，通过其评估临床数据。评估 DIPK 在区分紫杉醇反应方面的表现 pCR 组和 RD 组之间证实了其临床相关性，表明 DIPK可以为临床实践中的治疗决策提供有价值的见解。

补充数据

补充数据可在线查阅 http://bib.oxfordjourn als.org/。

作者的贡献

P.L.构思了这个研究项目。 X.Y. 监督研究项目。 P.L. 和 Z.J. 设计并实施了 DIPK 框架工作。 P.L.、Z.J. 和 T.L. 进行了数据和结果分析。 H.Q.分析了临床数据。所有作者都审阅了手稿。所有作者都讨论了实验结果，并对实验结果进行了评论。手稿。

ING基金

这项工作得到了美国国家自然科学基金的部分支持中国（62202353 U22A2037 基金）和基本科研业务费为中央大学。

数据可用性

数据集、源代码、训练模型和实验结果数据分别为可在 GitHub 上获取：https:// github。com/user15632/DIPK 和 Google Drive：https:// 驱动器。谷歌。com/drive/folders/16hP48- noHi3-c_LP9TcZxkwAzqxgR0VB？USP=分享.

推荐ENCES

1. Deshmukh S， Saini S. 肿瘤进展中的表型异质性，以及它在癌症发病中的可能作用。 Front Genet 2020 年;11：604528.

2. Guo L， Kong D， Liu J， et al. 乳腺癌异质性及其在个性化精准治疗中的意义。 Exp Hematol Oncol 2023;12（1）：1-27。

3. 雷林 MV，埃文斯 WE。临床中的药物基因组学。自然界

2015年;526（7573）：343–50。

4. 埃文斯 WE，雷林 MV。迈向个体化医疗

与药物基因组学。自然 2004;429（6990）：464–8。

5. Wheeler HE、Maitland ML、Dolan ME 等人，癌症药物基因组学：战略和挑战。 Nat Rev Genet 2013 年;14（1）：23-34。

改进药物反应预测 | 9

6. Whirl-Carrillo M， McDonagh EM， Hebert J， et al. 药理基因组学知识用于个性化医疗。临床药理学 Ther 2012;92（4）：414-7。

7. Cecchin E， Stocco G. 药物基因组学和个性化

药。基因 2020;11（6）：679.

8. Mayr LM， Bojanic D. 高通量筛选的新趋势。

Curr Opin Pharmacol 2009 年;9（5）：580-8。

9. Tansey W， Li K， Zhang H， et al. 剂量反应模型高通量癌症药物筛选：一种端到端的方法。生物统计学 2022;23（2）：643–65。

10. 路透社 JA、Spacek DV、斯奈德议员。高通量测序

技术。摩尔细胞 2015;58（4）：586-97。

11. Yang W，Soares J，Greninger P， et al. 药物敏感性基因组学癌症（GDSC）：癌症治疗性生物标志物研究的资源细胞。核酸研究 2012;41（D1）:D 955–61。

12. Barretina J、Caponigro G、Stransky N 等人。癌细胞 Line Encyclopedia 能够对抗癌药物敏感性进行预测建模。自然 2012;483（7391）：603–7。

13. Ahmadi Moughari F， Eslahchi C. 药物敏感性的计算方法基于各种分子信息的癌细胞系预测。公共科学图书馆一 2021;16（4）：e0250620.

14. Schärfe CPI， Tremmel R， Schwab M， et al. 遗传变异

人类药物相关基因。基因组医学 2017;9：1-15。

15. Ingelman-Sundberg M， Mkrtchian S，周 Y， Lauschke VM. 将罕见的遗传变异整合到药物遗传学药物反应预测中。嗡嗡基因组学 2018;12：1-12。

16. LeCun Y， Bengio Y， Hinton G. 深度学习。自然界

2015年;521（7553）：436–44。

17. Chiu YC， Chen HIH， Gorthi A， et al. 深度学习药物基因组学资源：迈向精准肿瘤学。 Brief Bioinform 2020年;21（6）：2066–83。

18. Ballester PJ， Stevens R，Haibe-Kains B， et al. 人工智能疾病模型中的药物反应预测。简介 Bioinform 2022;23（1）：BBAB450.

19. Partin A， Brettin TS， Zhu Y， et al. 深度学习方法用于癌症药物反应预测：主要和新兴趋势。前线医学 2023;10：1086097.

20. Adam G， Rampásekˇ L， Safikhani Z， et al. 机器学习

药物反应预测的方法：挑战和近期进展。 NPJ Precis Oncol 2020;4（1）：19.

21. 陈军，张林. 市政府调查与系统评价药物反应预测的假定方法。简介 Bioinform 2021;22（1）：232-46.

22. Li S， Wan F， Shu H， et al. Monn：多目标用于预测化合物-蛋白质相互作用和亲和力的神经网络。细胞系统 2020;10（4）：308–322.e11。

23. Liu B， Gao X， Zhang H. BioSeq-Analysis2. 0：基于ZingDNA、RNA和蛋白质序列atsequencelevel和残基水平的更新平台机器学习方法。核酸研究 2019;47（20）：e127–7.

24. Wang S，江 M， Zhang S， et al. MCN-CPI：多尺度 convo- 用于化合物-蛋白质相互作用预测的Lutional网络。生物分子 2021;11（8）：1119.

25. Manica M、Oskooei A、 Born J 等人，迈向可解释的抗癌通过基于多模态注意力的卷积编码器预测化合物灵敏度。 Mol Pharm 2019 年;16（12）：4797–806.

26. Weininger D. Smiles，化学语言和信息系统。 1. 方法论和编码规则介绍。 J Chem Inf Comput Sci， 1988;28（1）：31-6。

27. Szklarczyk D、Franceschini A、Wyder S 等人。字符串 v10：蛋白质– 蛋白质相互作用网络，整合在生命之树上。核酸研究 2015;43（D1）:D 447–52。

28. Jia P，胡 R， Pei G， et al. 深度生成神经 ACCU网络

对药物反应进行归责。 Nat Commun 2021 年;12（1）：1740.

29. Chawla S， Rockstroh A， Lehman M， et al. 基因表达基于癌症药物敏感性的推断。 Nat Commun 2022 年;13（1）：5680.

30. Shi W，江 T， Nuciforo P， et al. 通路水平改变而不是单个基因的突变预测对 HER2 靶向的反应 neo-ALTTO试验中的疗法。Ann Oncol 2017 年;28（1）：128-35。

31. 马琦，卢爱. 药物遗传学、药物基因组学和独立

病毒化医学。药理学修订版 2011;63（2）：437–59.

32. Hou T， Li N， Li Y， Wang W. 结构域-肽的表征相互作用界面：预测 SH3结构域介导的蛋白-蛋白质相互作用网络在酵母中通过基于通用结构的模型。 J Proteom Res 2012;11（5）：2982–95。

33. 张 S，宁 XM，丁 C，张 XS. 通过最大化模块化来确定蛋白质相互作用网络的模块化组织密度。 BMC系统生物学; 2010年;4：1-12。

34. Shu H，周 J， Lian Q， et al. 基因调控建模使用神经网络架构的网络。 Nat Comput Sci 2021;1（7）：491-501。

35. Cortazar P，Geyer CE。乳腺癌新辅助治疗的病理完全缓解。 Ann Surg Oncol 2015 年;22：1441-6。

36. CostanzoM，BaryshnikovaA，BellayJ， etal. Thegenetic景观

一个单元格。科学 2010;327（5964）：425–31。

37. Forster DT， Li SC， Yashiroda Y， et al. 仿生学：生物网络

积分使用卷积。 NatMethods 2022 年;19（10）：1250–61。

38. Wang C， Pan S， Long G， et al. Mgae：边缘化图用于图形聚类的 AutoEncoder。 2017 ACM 信息与知识会议论文集管理 2017： 889–898.

39. Vincent P， Larochelle H， Lajoie I， et al. 堆叠去噪自动编码人员：在具有本地功能的深度网络中学习有用的表示去噪标准。 J Mach Learn Res 2010;11（12）：3371–3408。

40. Li P，Wang J，Qiao Y， et al. 一种有效的自监督框架学习表达性分子全局表征以发现药物。简介 Bioinform 2021;22（6）：BBa109.

41. Vaswani A、Shazeer N、 Parmar N 等人。注意力就是全部你需要。

Adv Neural Inf Process Syst 2017 年;30.

42. Hara K，Saito D，Shouno H.所用整流线性单元的功能分析在深度学习中。 2015 年神经网络国际联合会议（IJCNN） 2015：1–8.

43. Dey R， Salem FM. 门控循环单元（GRU）神经的门变体网络。 2017 IEEE第60届国际中西部电路与系统研讨会（MWSCAS），美国马萨诸塞州波士顿，2017：1597–1600。

44. Li P，Wang J，Li Z， et al. 成对半图判别： a sim- 用于预训练图神经网络的 PLE 图级自监督策略。第三十届人工智能国际联合会议论文集 2021：2694–2700.

45. KinkerGS，GreenwaldAC，TalR， etal. Pan-cancersingle-cellRNA-seq 可识别细胞异质性的反复出现程序。 Nat Genet 2020 年;52（11）：1208–18。

46. Yu H， Kim DJ， Choi HY， et al. 前瞻性药理学方法学用于建立和评估抗癌耐药细胞系。 BMC 癌症 2021; 21：1-13。

47. Prasse P， Iversen P， Lienhard M， et al. 匹配的抗癌化合物磅和肿瘤细胞系通过神经网络进行排名损失。 NAR Genom Bioinform 2022 年;4.

48. Shen B， Feng F， Li K， et al. 系统评估用于药物反应预测的深度学习方法：来自体外到临床应用。简介 Bioinform 2023;24.

10 | Li 等.

49. Partin A， Brettin T， Evrard YA， et al. 学习曲线癌细胞系中的药物反应预测。 BMC Bioinform 2021 年;22：1-18.

50. Kurilov R， Haibe-Kains B， Brors B. 建模策略评估细胞系和异种移植物中的药物反应预测。科学代表 2020;10（1）：2849.

51. Wang C， Lye X， Kaalia R， et al. 深度学习和多组学方法预测癌症中的药物反应。 BMC 生物信息学 2021;22（10）：1-15。

52. Xia F， Allen J， Balaprakash P， et al. 交叉研究分析药物

癌细胞系的反应预测。简介 Bioinform 2022;23.

53. Toro-Domínguez D、Villatoro-García JA、Martorell-Marugán J 等人。一项调查基因表达Meta分析：方法和应用。简介 Bioinform 2021;22（2）：1694–705。

54. Yang X， Kui L， Tang M， et al. 高通量转录组

分析药物和生物标志物发现。 FrontGenet 2020 年;11：19.

55. Weidenhammer EM，Kahl BF，Wang L， et al. 多路复用，靶向基因表达谱分析以及电子微阵列的遗传分析。临床化学 2002;48（11）：1873-82。

56. Ozsolak F， Milos PM. RNA测序：进展、挑战和

机会。 Nat Rev Genet 2011 年;12（2）：87-98。

57. Finotello F，Di Camillo B.用 rna-seq 测量差异基因表达：挑战以及数据分析策略。 Brief Funct Genomics 2015;14（2）：130-42。

58. Nookaew I， Papini M， Pornputtapong N， et al. 理解基于 RNA-seq的转录组分析从reads到差异基因表达的比较以及与微阵列的交叉比较：酿酒酵母的案例研究。核酸研究 2012;40（20）：10084–97。

59. Gawad C， Koh W， Quake SR. 单细胞基因组测序：

科学的现状。 Nat Rev Genet 2016 年;17（3）：175-88。

60. Papalexi E， Satija R. 单细胞RNA测序探索免疫细胞异质性。 Nat Rev Immunol 2018 年;18（1）：35-45。

61. Van de Sande B， Lee JS， Mutasa-Gottgens E， et al. 应用单细胞RNA测序在药物发现和开发中的应用。 Nat Rev Drug Discov 2023;22：496-520。

62. Fustero-Torre C、Jiménez-Santos MJ、García-Martín S 等人。 Beyondcell：靶向单细胞 RNA-seq 数据中的癌症治疗异质性。基因组医学 2021;13（187）：1-15。

63. Conforti F， Pala L， Sala I， et al. 病理评估在新辅助治疗和联合临床试验中作为替代终点的完全缓解早期乳腺癌：系统评价和荟萃分析。英国医学杂志 2021;375。

64. Liu H， Lv L， Gao H， Cheng M. 病理完全缓解及其对乳腺癌复发和患者生存后的影响新辅助治疗：一项全面的荟萃分析。 Comput Math Methods Med 2021;2021：1–11.