融合交叉注意力与域自适应的单细胞药物敏感度预测方法技术

技术编号：40512511 阅读：7 留言：0更新日期：2024-03-01 13:28

本发明专利技术涉及深度学习技术领域，是一种深度学习技术在药物研发中的应用，具体涉及一种融合交叉注意力与域自适应的单细胞药物敏感度预测方法，包括：数据预处理，自编码器，交叉注意力，域自适应，单细胞药物敏感度预测。本发明专利技术首次将基于交叉注意力的域自适应应用到预测单细胞药物敏感度问题上，并结合基因表达数据和药物结构数据构建模型，在预测单细胞药物敏感度上取得了0.85AUC的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习，是一种深度学习技术在药物研发中的应用，尤其涉及交叉注意力机制与域自适应在单细胞药物敏感度预测。

技术介绍

1、高通量药物筛选技术产生了大规模的药物响应数据，这些数据覆盖了上千种肿瘤细胞系，促进了计算预测细胞系药物响应的发展。目前大量的细胞系测序数据只反映了基因转录的平均信号，掩盖了不同细胞类型或亚群之间的差异。单细胞测序技术的发展，使我们能够探索肿瘤细胞成分的复杂性和时空多变性，为我们提供了一个洞察药物与肿瘤细胞相互作用的机会。然而，受到成本与技术的限制，目前单细胞水平的药物响应数据只包含了少数癌种和药物。单细胞测序数据与药物敏感度数据的不足限制了预测模型的开发。目前已经有一些工作对药物诱导的细胞系测序数据进行建模，利用深度迁移学习将细胞系药物响应知识迁移到单细胞，成为克服单细胞域训练数据不足的一种有效手段。

技术实现思路

1、本专利技术的目的是为了解决现有技术中存在的缺点，减少实验验证的成本。本专利技术提出一种融合交叉注意力与域自适应的单细胞药物敏感度预测方法，该方法为利用细胞系药物敏感度预测单细胞药物敏感度提供了一种新思路。

2、本专利技术的具体技术方案为：融合交叉注意力与域自适应的单细胞药物敏感度预测方法，包括以下步骤：

3、1)数据预处理：

4、1-1模型所需的数据集为细胞系基因表达数据集，单细胞基因表达数据集，细胞系药物敏感度数据集和与药物对应的药物结构数据集；

5、在步骤1-1中，使用药物smiles描述符作为药物结构数据。

6、1-2将细胞系药物敏感度数据集中z-score值二值化为0和1，得到二值化细胞系药物敏感度数据集a；在细胞系基因表达数据集和单细胞基因表达数据集中具有相同的基因，对细胞系基因表达数据集和单细胞基因表达数据集进行相同的标准化，标准化后的细胞系基因表达数据集包括：行名为基因名，列名为细胞系名的数据；标准化后的单细胞基因表达数据集包括：行名为基因名，列名为单细胞名的数据；药物结构数据集包括：一列药物名的数据，一列药物结构数据；随后我们提取标准化后的单细胞基因表达数据集的单细胞名的列数据，在数据集a中新增名为单细胞名的列，将单细胞名数据循环重复的加入数据集a的单细胞名列中，重新得到二值化细胞系药物敏感度数据集a包括：一列细胞系名的数据，一列药物名的数据，一列单细胞名的数据，以及作为标签数据的一列二值化后的细胞系药物敏感度数据。

7、在步骤1-2中，所述z-score值二值化的方法为：根据细胞系药物敏感度数据集中z-score值，将z-score值大于0的转化为1，将小于等于0的转化为0。

8、1-3将数据集a的80％作为训练数据集atrain，20％作为验证数据集aval，数据输入模型之前我们构建了训练数据集atrain和验证数据集aval中源域和目标域共4个数据集，分别为源域的训练数据集目标域的训练数据集源域的验证数据集目标域的验证数据集

9、1-4对于源域的训练数据集构建过程如下：我们将标准化后的细胞系基因表达谱数据集、药物结构数据集，以及数据集atrain读取进来，我们按行遍历药物结构数据集，对每一行的药物结构数据用rkdit工具形成分子图，其中节点表示原子，边表示化学键，遍历结束形成键为药物名值为分子图数据的字典；随后我们遍历按行数据集atrain，获得每一行的细胞系名，药物名，以及标签数据，我们根据细胞系名从标准化后的细胞系基因表达数据集中提取与之对应的基因特征数据，我们根据药物名从字典中提取与之对应的分子图数据，随后保存基因特征数据，分子图数据，标签数据，遍历结束将数据保存到文件。对于源域的验证数据集构建过程与之类似，将数据集atrain替换为数据集aval。对于目标域训练数据集将标准化后的细胞系基因表达数据集替换为标准化后的单细胞基因表达数据集。对于目标域验证数据集将标准化后的细胞系基因表达数据集替换为标准化后的单细胞基因表达数据集，将数据集atrain替换为数据集aval。

10、2)细胞系药物敏感度预测：

11、2-1输入数据为n个源域有标签样本，其中d和c分别代表的是药物结构数据和细胞系基因表达数据，y代表的是药物对细胞系的敏感度标签，我们用1-4的方法处理数据集，随后输入模型；

12、2-2使用药物编码器，将药物描述符编码成l维向量

13、2-3使用细胞编码器，将细胞系基因表达数据编码到l维潜在向量

14、2-4为了充分的提取到药物与细胞之间相互知识，我们运用transformer中多头交叉注意力模块。模型根据由2-2和2-3分别得到的药物和细胞系特征，得到l维向量

15、所述2-4中，采用2层8个头的交叉注意力网络模型作为细胞和药物相互作用的编码器。

16、2-5一个全连接层多层感知机作为分类器，在细胞系水平上评估细胞系药物基因组学信息与药物反应的相关性，根据2-4得出的我们将其作为分类器的输入，预测细胞系水平上的药物敏感度；

17、所述2-5中，模型使用有128个输入纬度和2个输出纬度的线性层作为分类器。

18、3)基于交叉注意力的域适应：

19、3-1输入数据为n个目标域无标签样本,其中d和s分别代表的是药物结构数据和单细胞基因表达数据，我们用1-4的方法处理数据集，随后输入模型；

20、3-2使用步骤2)中2-2，2-3，2-4同样的方法得到单细胞与药物相互作用的l维向量

21、3-3对于域适应，一个域鉴别器帮助所有编码器能够提取到域不变的细胞药物相互作用知识，药物编码器、细胞编码器以及细胞和药物相互作用的编码器作为模型特征提取器和域鉴别器以对抗的方式进行训练：域鉴别器的训练目标是尽量将输入的特征ai分到正确的域类别(源域还是目标域)，而特征提取器所提取的特征目的是域判别器不能正确的判断出特征ai来自哪一个域，因此形成一种对抗关系；

22、3-4利用对抗学习的方式联合训练和更新步骤2)和3)中特征提取器、分类器和域鉴别器；

23、4)单细胞药物敏感度预测：

24、4-1测试数据集准备：测试所需的数据集为：待测试的药物结构数据，步骤1中的标准化后的单细胞基因表达数据集；

25、4-2在得到已经训练完善的特征提取器和分类器组装，之后将测试数据集输入模型，预测单细胞对药物的敏感度信息。

26、整个框架可以被视为两个部分：

27、监督学习：建立一个模型来预测细胞系的药物响应标签分类；

28、无监督学习：迁移细胞系水平上药物细胞知识并使用该模型对单细胞的药物响应标签进行预测。

29、本专利技术具有以下有益效果：

30、1、融合交叉注意力与域自适应的单细胞药物敏感度预测方法，训练中使用细胞系对多种药物反应数据，解决了单药模型中训练数据过少，导致模型泛化能力不足的问题，从而使得使用交叉注意力机制学习药物和细胞相互作用知本文档来自技高网...

【技术保护点】

1.融合交叉注意力与域自适应的单细胞药物敏感度预测方法，其特征在于：先建立预测模型来预测细胞系的药物响应标签分类；然后，迁移细胞系水平上细胞药物相互作用知识，并使用该预测模型对单细胞的药物响应标签进行预测；具体步骤包括：

2.根据权利要求1所述的融合交叉注意力与域自适应的单细胞药物敏感度预测方法，其特征在于：步骤1)中，所述z-score值二值化的方法为：根据细胞系药物敏感度数据集中z-score值，将z-score值大于0的转化为1，将小于等于0的转化为0。

3.根据权利要求1所述的融合交叉注意力与域自适应的单细胞药物敏感度预测方法，其特征在于：步骤1)中，数据集A中的80％作为训练数据集Atrain，20％作为验证数据集Aval。

4.根据权利要求1所述的融合交叉注意力与域自适应的单细胞药物敏感度预测方法，其特征在于：步骤1)中还包括1-4：

5.根据权利要求1所述的融合交叉注意力与域自适应的单细胞药物敏感度预测方法，其特征在于：使用药物SMILES描述符作为药物结构数据。

6.根据权利要求1所述的融合交叉注意力与域

7.根据权利要求1所述的融合交叉注意力与域自适应的单细胞药物敏感度预测方法，其特征在于：步骤2)的2-3中，使用去噪自编码器作为细胞编码器，将细胞系基因表达数据编码到l维潜在向量损失函数为：

...

【技术特征摘要】

3.根据权利要求1所述的融合交叉注意力与域自适应的单细胞药物敏感度预测方法，其特征在于：步骤1)中，数据集a中的80％作为训练数据集atrain，20％作为验证数据集aval。

4.根据权利要求1所述的融合交叉注意...

【专利技术属性】
技术研发人员：刘辉，黄开顺，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人