当前位置: 首页 > 专利查询>南华大学专利>正文

一种用于DTA预测的多模态信息融合模型及方法技术

技术编号:37764543 阅读:17 留言:0更新日期:2023-06-06 13:23
本发明专利技术提供了一种用于DTA预测的多模态信息融合模型及方法,该模型包括药物分子结构信息编码器、靶标结构信息编码器、多模态平衡模块和药物靶标融合模块;药物分子结构信息编码器使用Transformer模型对药物字符串模态信息进行编码,并使用GIN模型提取药物图模态信息特征;靶标结构信息编码器使用Transformer模型对靶标字符串模态信息进行编码,并使用GCN模型提取药物图模态信息特征;多模态平衡模块使用对比学习的方法将药物字符串和图模态信息进行平衡与整合,以及将靶标字符串和图模态信息进行平衡与整合;药物靶标融合模块将多模态平衡模块得到的药物和靶标的两种模态特征连接起来,用于DTA预测。用于DTA预测。用于DTA预测。

【技术实现步骤摘要】
一种用于DTA预测的多模态信息融合模型及方法


[0001]本专利技术涉及药物靶标结合亲和力预测
,尤其指一种用于DTA预测的多模态信息融合模型及方法。

技术介绍

[0002]药物发现是发现潜在新型药物的过程,涉及了药理学、化学、生物学等多种领域,通常需要耗费巨大的经济成本与时间成本。据统计,开发一种新药需要花费约26亿美元,而得到FDA的批准需要17年时间。多年来,随着计算机技术的发展,计算机辅助药物发现已成为一种趋势,所以迫切地需要开发出一种计算模型推进药物发现的进程。其中,成功识别药物

靶标相互作用是药物发现的关键步骤,而能进一步准确识别药物

靶标相互作用关系的亲和力对药物研发则更为重要。DTA代表了药物分子与靶标结合的强弱关系,一般来说,化合物分子与靶标结合越强,该化合物就越有可能影响靶标的生物学功能,也更有可能是一种合适的候选药物。因此,建立计算模型准确预测DTA可以加速药物分子的筛选过程,最大限度地减少不必要的体外筛选实验,对药物研发具有重要的意义。
[0003]目前已经提出了许多用于DTA预测的计算方法和模型,例如:传统的分子对接技术,其基于目标和化合物分子的3D结构,通过计算机模拟预测药物和靶标的结合模式和结合亲和力。许多成熟的分子对接算法是作为软件开发的,例如Gold和Dock,这些分子对接技术非常耗时。随着计算机技术的发展,出现了分子动力学模拟技术,如Elanie等人将快速几何对接算法与分子力学相互作用能量评估相结合,计算每个配体原子的潜力进行评分,更加灵活,预测结果更加准确,但代价是昂贵的计算和时间成本。
[0004]大多数早期的机器学习方法是基于通过结构相似性计算进行预测的矩阵计算,这大大降低了成本。例如,He等人提出了一种称为SimBoost的方法,该方法预测化合物和蛋白质结合亲和力的连续值。Li等提出了一种基于随机森林的分子对接方法,该方法通过应用Kronecker相似矩阵乘积进行预测。然而,这些方法过分依赖于分子的结构数据特征,并且获取这些数据既困难又费时。随着深度学习和大数据时代的飞速发展,卷积神经网络(CNN)、图神经网络(GNNs)以及它们的变体被应用于药物发现领域。由于药物和靶标的结构信息在DTA预测中起着极为关键的作用,因此现有的DTA预测方法大多基于药物和靶标的结构信息,它们可以分为基于字符串模态和基于图模态的方法。
[0005]基于字符串模态的方法是从序列数据中学习特征。例如,DeepDTA使用CNN对靶标序列和药物SMILES的一维表示进行特征提取。WideDTA在此基础上计算补充了蛋白质结构域、基序和最大共同亚结构词信息,并引入了一种基于词的序列表示法来进行DTA预测。相比之下,AttentionDTA则更加关注药物和靶标序列中重要的关键子序列,并引入了了一种双侧多头注意机制,以预测DTA。这些方法都只关注了药物SMILES和靶标信息的字符串模态,并且这种模态的信息忽略了空间结构以及氢原子信息。此外,在嵌入过程中只考虑了字符串的固定长度,这将导致一些有用信息的丢失。为了解决这一弊端,基于图模态的方法应运而生。GraphDTA提出将药物分子结构信息表示为图,并使用GNNs对药物分子图进行特征
提取,使用CNN对靶标序列进行特征提取。DGraphDTA利用药物分子图和靶结构图进行DTA预测,通过图形卷积神经网络模型(GCN)进行特征提取。然而,药物分子图又缺失了字符串的上下文语义信息和原子的位置排列。并且该方法中靶标结构图只考虑了靶标的空间结构,而没有考虑靶标残基的排列顺序,忽略了肽链残基的位置信息。因此,有必要系统地考虑药物和靶标结构的多模态信息,以获得更好地预测DTA的完整信息。
[0006]多模态技术可以系统地考虑来自多种不同模态的信息。在过去的十年中,信息融合技术已经成功地实现了多模态信息的融合,多模态信息的利用引起了研究者们的注意。例如:Tuan等人提出了一种通过融合来自文本和视觉数据的多模态特征来检测假新闻的新方法。Mou等人提出了一种深度学习模型来融合多种模态的数据,包括眼睛数据、车辆数据和环境数据。由此可见,多模态信息融合技术已广泛应用于各个领域。同样,多模态信息的融合利用也可以应用在药物发现领域。例如:Deng等人开发了一个基于多模态变分图嵌入的方法Graph2MDA,其融合了微生物、药物的多方面属性和特征,以预测微生物

药物关联。Lyu等人考虑了药物与靶标、酶等多模态数据之间的潜在相关性,并设计了一个MDNN双通道框架来获取药物的多模态表征。可以看出,这些药物发现方法使用了以不同模态表达的药物不同属性的嵌入式表示,没有同时关注某一属性的多种模态信息。而且现有的DTA方法只考虑了药物和靶标的单一结构性质,没有考虑它们不同模式的多重属性信息。

技术实现思路

[0007]本专利技术所要解决的技术问题是提供一种用于DTA预测的多模态信息融合模型及方法,该模型可以嵌入药物和靶标中的字符串和图模态信息,并通过对比学习方法平衡不同模态的特征表示,以输出更丰富的用于DTA预测的信息。
[0008]为了解决上述技术问题,本专利技术采用如下技术方法:一种用于DTA预测的多模态信息融合模型,包括:药物分子结构信息编码器、靶标结构信息编码器、多模态平衡模块和药物靶标融合模块;
[0009]所述药物分子结构信息编码器使用Transformer模型对药物字符串模态信息进行编码,并使用GIN模型提取药物图模态信息特征;
[0010]所述靶标结构信息编码器使用Transformer模型对靶标字符串模态信息进行编码,并使用GCN模型提取药物图模态信息特征;
[0011]所述多模态平衡模块使用对比学习的方法将药物字符串和图模态信息进行平衡与整合,以及将靶标字符串和图模态信息进行平衡与整合;
[0012]所述药物靶标融合模块将多模态平衡模块得到的药物和靶标的两种模态特征连接起来,用于DTA预测。
[0013]作为本专利技术的另一面,一种用于DTA预测的多模态信息融合方法,包括:
[0014]步骤S1,字符串模态的嵌入;
[0015]将药物SMILES代码视为字符串,对其进行整数编码,融入该编码的位置编码得到向量表示,通过Transformer模型对该向量进行特征提取得到SMILES字符串的最终向量表示;
[0016]将靶标序列视为字符串,对其进行整数编码,融入该编码的位置编码得到向量表示,通过Transformer模型对该向量进行特征提取得到靶标字符串的最终向量表示;
[0017]步骤S2,图模态的嵌入;
[0018]将每个原子作为药物分子图中的节点,原子间的联系作为药物分子图的邻接矩阵,并将原子的属性作为药物分子图节点的属性特征;将药物分子图和其节点的特征向量作为输入,通过GIN模型进行节点嵌入,得到药物分子图的表示向量;
[0019]将每个残基作为靶标结构图中的节点,残基对间是否接触的概率作为靶标结构图的邻接矩阵,并将每个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于DTA预测的多模态信息融合模型,其特征在于,包括药物分子结构信息编码器、靶标结构信息编码器、多模态平衡模块和药物靶标融合模块;所述药物分子结构信息编码器使用Transformer模型对药物字符串模态信息进行编码,并使用GIN模型提取药物图模态信息特征;所述靶标结构信息编码器使用Transformer模型对靶标字符串模态信息进行编码,并使用GCN模型提取药物图模态信息特征;所述多模态平衡模块使用对比学习的方法将药物字符串和图模态信息进行平衡与整合,以及将靶标字符串和图模态信息进行平衡与整合;所述药物靶标融合模块将多模态平衡模块得到的药物和靶标的两种模态特征连接起来,用于DTA预测。2.一种用于DTA预测的多模态信息融合方法,其特征在于,包括:步骤S1,字符串模态的嵌入;将药物SMILES代码视为字符串,对其进行整数编码,融入该编码的位置编码得到向量表示,通过Transformer模型对该向量进行特征提取得到SMILES字符串的最终向量表示;将靶标序列视为字符串,对其进行整数编码,融入该编码的位置编码得到向量表示,通过Transformer模型对该向量进行特征提取得到靶标字符串的最终向量表示;步骤S2,图模态的嵌入;将每个原子作为药物分子图中的节点,原子间的联系作为药物分子图的邻接矩阵,并将原子的属性作为药物分子图节点的属性特征;将药物分子图和其节点的特征向量作为输入,通过GIN模型进行节点嵌入,得到药物分子图的表示向量;将每个残基作为靶标结构图中的节点,残基对间是否接触的概率作为靶标结构图的邻接矩阵,并将每个残基位置通过序列比对结果进行评分,作为靶标结构图节点的属性特征;将靶标结构图和其节点的特征向量作为输入,通过GCN模型进行节点嵌入,得到靶标结构图的表示向量;步骤S3,多模态表示的对比学习和表示的融合;通过最大化字符串模态和图模态的一致性来学习特征表示,分别得到药物和靶标的两种模态最终的表示之后,将其进行拼接,得到用于DTA预测的药物和靶标模态信息。3.根据权利要求2所述的用于DTA预测的多模态信息融合方法,其特征在于:步骤S1中,在对药物和靶标字符串进行整数编码之后,利用药物原子和靶标残基的排列信息来捕获字符串模态的位置信息,并通过Transformer模型从输入中学习不同级别的抽象特征,再应用最大池化层来获得药物和靶标字符串的最终向量表示。4.根据权利要求3所述的用于DTA预测的多模态信息融合方法,其特征在于:步骤S1中,采用如下公式表示字符串模态的位置信息:PE
(pos,2i)
=sin(pos/10000
2i/dmodel
)
ꢀꢀꢀꢀ
(1)...

【专利技术属性】
技术研发人员:欧阳纯萍刘永彬张琳琳万亚平田纹龙余颖
申请(专利权)人:南华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1