【技术实现步骤摘要】
一种用于DTA预测的多模态信息融合模型及方法
[0001]本专利技术涉及药物靶标结合亲和力预测
,尤其指一种用于DTA预测的多模态信息融合模型及方法。
技术介绍
[0002]药物发现是发现潜在新型药物的过程,涉及了药理学、化学、生物学等多种领域,通常需要耗费巨大的经济成本与时间成本。据统计,开发一种新药需要花费约26亿美元,而得到FDA的批准需要17年时间。多年来,随着计算机技术的发展,计算机辅助药物发现已成为一种趋势,所以迫切地需要开发出一种计算模型推进药物发现的进程。其中,成功识别药物
‑
靶标相互作用是药物发现的关键步骤,而能进一步准确识别药物
‑
靶标相互作用关系的亲和力对药物研发则更为重要。DTA代表了药物分子与靶标结合的强弱关系,一般来说,化合物分子与靶标结合越强,该化合物就越有可能影响靶标的生物学功能,也更有可能是一种合适的候选药物。因此,建立计算模型准确预测DTA可以加速药物分子的筛选过程,最大限度地减少不必要的体外筛选实验,对药物研发具有重要的意义。
[0003 ...
【技术保护点】
【技术特征摘要】
1.一种用于DTA预测的多模态信息融合模型,其特征在于,包括药物分子结构信息编码器、靶标结构信息编码器、多模态平衡模块和药物靶标融合模块;所述药物分子结构信息编码器使用Transformer模型对药物字符串模态信息进行编码,并使用GIN模型提取药物图模态信息特征;所述靶标结构信息编码器使用Transformer模型对靶标字符串模态信息进行编码,并使用GCN模型提取药物图模态信息特征;所述多模态平衡模块使用对比学习的方法将药物字符串和图模态信息进行平衡与整合,以及将靶标字符串和图模态信息进行平衡与整合;所述药物靶标融合模块将多模态平衡模块得到的药物和靶标的两种模态特征连接起来,用于DTA预测。2.一种用于DTA预测的多模态信息融合方法,其特征在于,包括:步骤S1,字符串模态的嵌入;将药物SMILES代码视为字符串,对其进行整数编码,融入该编码的位置编码得到向量表示,通过Transformer模型对该向量进行特征提取得到SMILES字符串的最终向量表示;将靶标序列视为字符串,对其进行整数编码,融入该编码的位置编码得到向量表示,通过Transformer模型对该向量进行特征提取得到靶标字符串的最终向量表示;步骤S2,图模态的嵌入;将每个原子作为药物分子图中的节点,原子间的联系作为药物分子图的邻接矩阵,并将原子的属性作为药物分子图节点的属性特征;将药物分子图和其节点的特征向量作为输入,通过GIN模型进行节点嵌入,得到药物分子图的表示向量;将每个残基作为靶标结构图中的节点,残基对间是否接触的概率作为靶标结构图的邻接矩阵,并将每个残基位置通过序列比对结果进行评分,作为靶标结构图节点的属性特征;将靶标结构图和其节点的特征向量作为输入,通过GCN模型进行节点嵌入,得到靶标结构图的表示向量;步骤S3,多模态表示的对比学习和表示的融合;通过最大化字符串模态和图模态的一致性来学习特征表示,分别得到药物和靶标的两种模态最终的表示之后,将其进行拼接,得到用于DTA预测的药物和靶标模态信息。3.根据权利要求2所述的用于DTA预测的多模态信息融合方法,其特征在于:步骤S1中,在对药物和靶标字符串进行整数编码之后,利用药物原子和靶标残基的排列信息来捕获字符串模态的位置信息,并通过Transformer模型从输入中学习不同级别的抽象特征,再应用最大池化层来获得药物和靶标字符串的最终向量表示。4.根据权利要求3所述的用于DTA预测的多模态信息融合方法,其特征在于:步骤S1中,采用如下公式表示字符串模态的位置信息:PE
(pos,2i)
=sin(pos/10000
2i/dmodel
)
ꢀꢀꢀꢀ
(1)...
【专利技术属性】
技术研发人员:欧阳纯萍,刘永彬,张琳琳,万亚平,田纹龙,余颖,
申请(专利权)人:南华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。