基于深度模态数据融合的药物靶标亲和度预测方法技术

技术编号:38315544 阅读:12 留言:0更新日期:2023-07-29 08:57
本发明专利技术公开了基于深度模态数据融合的药物靶标亲和度预测方法,涉及大数据技术领域,利用大量的无标签序列信息构造蛋白质与药物序列的二级序列,并对蛋白质与药物的完整序列和二级序列进行编码;然后,利用Transformer深度提取蛋白质与药物的完整序列及二级序列的特征,实现序列全局特征与局部特征的同步捕获;接着,通过交叉注意机制和十字交叉注意机制进行模态融合,实现蛋白质序列与药物序列两种模态特征之间的双向交互,进而更准确的挖掘交互后的模态特征,提升药物靶标亲和度预测的精度;最后,对模态融合结果进行解码,获得DTA预测结果。预测结果。预测结果。

【技术实现步骤摘要】
基于深度模态数据融合的药物靶标亲和度预测方法


[0001]本专利技术涉及大数据
,尤其涉及基于深度模态数据融合的药物靶标亲和度预测方法。

技术介绍

[0002]药物靶标亲和性(Drug

target affinity,DTA)预测在药物发现中发挥着重要作用,因为它能够从大量候选化合物中筛选潜在药物,并描述药物靶标对中相互作用的强度。然而,通过大规模化学或生物实验进行DTA预测的工作大多需要消耗大量的时间、资源和成本。随着药物、靶点和相互作用数据的不断积累,通过计算机辅助药物设计技术,相关领域已经开发了诸多方法来预测DTA。由于深度学习的突破和计算能力的巨大提升,基于深度学习的DTA预测模型已逐渐应用于预测药物与靶标的结合亲和力。虽然部分模型已经取得了良好的预测性能,但是仍存在一些问题。例如,现有的计算模型在预测精度、鲁棒性和泛化能力方面仍有很大的改进空间;大多数用于DTA预测的深度学习模型缺乏可解释性分析,这在一定程度上降低了它们在实际应用中的可信度。

技术实现思路

[0003]本专利技术所要解决的技术问题是针对
技术介绍
的不足提供一种基于深度模态数据融合的药物靶标亲和度预测方法。
[0004]本专利技术为解决上述技术问题采用以下技术方案:
[0005]基于深度模态数据融合的药物靶标亲和度预测方法,包含序列编码模块、特征提取模块、模态融合模块、解码模块四部分,具体包含如下步骤,
[0006]步骤1,利用大量的无标签序列信息构造蛋白质与药物序列的二级序列,并对蛋白质与药物的完整序列和二级序列进行编码;
[0007]步骤2,利用Transformer深度提取蛋白质与药物的完整序列及二级序列的特征,实现序列全局特征与局部特征的同步捕获;
[0008]步骤3,通过交叉注意机制和十字交叉注意机制进行模态融合,实现蛋白质序列与药物序列两种模态特征之间的双向交互,进而挖掘交互后的模态特征,提升药物靶标亲和度预测的精度;
[0009]步骤4,对模态融合结果进行解码,获得蛋白质和药物之间的结合亲和力的预测结果。
[0010]作为本专利技术基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案,在步骤1中,分别基于FASTA和SMILES序列对蛋白质和药物的二级序列进行表达,基于BPE算法获得的二级序列词汇表,通过对完整序列进行one

hot编码的方式来构建蛋白质和药物的二级序列。
[0011]作为本专利技术基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案,在步骤1中,利用BPE算法对序列进行分词处理,利用大量未标记序列构建蛋白质和药物
二级序列词汇表,具体如下:
[0012]步骤1.1,从PubChem、ChEMBL、DrugBank、UniProt、PDBbind和BindingDB等诸多数据库搜集、下载蛋白质FASTA序列和药物SMILES序列,其中包括无标签数据;
[0013]步骤1.2,初始化由单个氨基酸字符或SMILES字符组成的词汇表,使用BPE算法分别对所有的蛋白质和药物序列进行频繁连续二级序列挖掘,形成新的按照二级序列出现频率从高到底排序的蛋白质和药物词汇表;
[0014]步骤1.3,对于蛋白质,取前v
s
个词汇构成最终的词汇表V
T
;对于药物,取前q
s
个词汇构成最终的词汇表V
D

[0015]步骤1.4,分别利用二级序列词汇表V
T
和V
D
对蛋白质FASTA序列和药物SMILES序列进行二级序列表达,获得蛋白质的二级序列ST和药物的二级序列SD。
[0016]作为本专利技术基于深度模态数据融合的药物靶标亲和度预测方法的进一步优选方案,在步骤1中,序列编码模块的输入为蛋白质FASTA序列和药物SMILES序列的完整序列和二级序列,分别对完整序列和二级序列进行编码,获得编码输出;以蛋白质的编码过程为例,对序列编码模块的工作过程进行具体介绍:
[0017](1)完整序列编码
[0018]蛋白质FASTA序列由不同的氨基酸组成,将由氨基酸构成的原始完整序列T表示为
[0019]T={t1,t2,

,t
i
,

,t
n
},t
i
∈N
t
ꢀꢀꢀ
(1)
[0020]t
i
表示蛋白质序列中第i个氨基酸,N
t
表示氨基酸集合,包含了常见的25个氨基酸,n为输入蛋白质的长度,定义最大蛋白质的长度为l,对完整序列进行编码,包括嵌入和位置编码;
[0021]嵌入:以序列T为输入,对蛋白质完整序列进行嵌入,获得输出该过程为线性转换过程,嵌入层具有可训练权重其中v表示上述氨基酸集合的大小,e表示氨基酸嵌入的大小;
[0022]位置编码:为了添加蛋白质T中每个氨基酸的相对或绝对位置信息,还需要进行位置编码;以序列T为输入,对蛋白质完整序列进行位置编码,输出为表示了T中所有氨基酸的位置编码,定义为
[0023][0024][0025]其中,i是位置,j是维度,d是氨基酸位置编码的大小;PE
T
(i,:)是矩阵PE
T
的第i行,表示蛋白质T中第i个氨基酸的位置编码;当蛋白质的长度n<l时,n+1至l的部分为0;这里设置位置编码大小等于嵌入大小,即d=e;因此可以直接令PE
T
和E
T
两者相加;
[0026]定义X
WT
为完整序列编码的输出,结果可表示为
[0027]X
WT
=E
T
+PE
T
ꢀꢀꢀ
(4)
[0028](2)二级序列编码
[0029]在二级序列编码模块中,以蛋白质的二级序列ST为输入,对二级序列进行嵌入和位置嵌入;
[0030]嵌入:对二级序列ST进行编码,获得矩阵其中L
t
为最大蛋白质的二
级序列的长度,v
s
为蛋白质二级序列词汇表V
T
的大小;以M
ST
为输入,对二级序列进行嵌入操作,输出为其中e
s
为每个二级序列嵌入的大小;嵌入层具有可训练权重其中v
s
表示上述蛋白质二级序列词汇表的大小;
[0031]位置嵌入:对蛋白质的二级序列进行单独的hot vector位置编码,结果表示为I
ST
;以I
ST
为输入,对二级序列进行位置嵌入,输出PE
ST
可表示为
[0032][0033]其中为位置嵌入层的位置查询词典;
[0034]定义X
ST
为二级序列编码的输出,结果可表示为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度模态数据融合的药物靶标亲和度预测方法,其特征在于:包含序列编码模块、特征提取模块、模态融合模块、解码模块四部分,具体包含如下步骤,步骤1,利用大量的无标签序列信息构造蛋白质与药物序列的二级序列,并对蛋白质与药物的完整序列和二级序列进行编码;步骤2,利用Transformer深度提取蛋白质与药物的完整序列及二级序列的特征,实现序列全局特征与局部特征的同步捕获;步骤3,通过交叉注意机制和十字交叉注意机制进行模态融合,实现蛋白质序列与药物序列两种模态特征之间的双向交互,进而挖掘交互后的模态特征,提升药物靶标亲和度预测的精度;步骤4,对模态融合结果进行解码,获得蛋白质和药物之间的结合亲和力的预测结果。2.根据权利要求1所述的基于深度模态数据融合的药物靶标亲和度预测方法,其特征在于:在步骤1中,分别基于FASTA和SMILES序列对蛋白质和药物的二级序列进行表达,基于BPE算法获得的二级序列词汇表,通过对完整序列进行one

hot编码的方式来构建蛋白质和药物的二级序列。3.根据权利要求2所述的基于深度模态数据融合的药物靶标亲和度预测方法,其特征在于:在步骤1中,利用BPE算法对序列进行分词处理,利用大量未标记序列构建蛋白质和药物二级序列词汇表,具体如下:步骤1.1,从PubChem、ChEMBL、DrugBank、UniProt、PDBbind和BindingDB等诸多数据库搜集、下载蛋白质FASTA序列和药物SMILES序列,其中包括无标签数据;步骤1.2,初始化由单个氨基酸字符或SMILES字符组成的词汇表,使用BPE算法分别对所有的蛋白质和药物序列进行频繁连续二级序列挖掘,形成新的按照二级序列出现频率从高到底排序的蛋白质和药物词汇表;步骤1.3,对于蛋白质,取前v
s
个词汇构成最终的词汇表V
T
;对于药物,取前q
s
个词汇构成最终的词汇表V
D
;步骤1.4,分别利用二级序列词汇表V
T
和V
D
对蛋白质FASTA序列和药物SMILES序列进行二级序列表达,获得蛋白质的二级序列ST和药物的二级序列SD。4.根据权利要求1所述的基于深度模态数据融合的药物靶标亲和度预测方法,其特征在于:在步骤1中,序列编码模块的输入为蛋白质FASTA序列和药物SMILES序列的完整序列和二级序列,分别对完整序列和二级序列进行编码,获得编码输出;以蛋白质的编码过程为例,对序列编码模块的工作过程进行具体介绍:(1)完整序列编码蛋白质FASTA序列由不同的氨基酸组成,将由氨基酸构成的原始完整序列T表示为T={t1,t2,

,t
i
,

,t
n
},t
i
∈N
t
ꢀꢀ
(1)其中,t
i
表示蛋白质序列中第i个氨基酸,N
t
表示氨基酸集合,包含了常见的25个氨基酸,n为输入蛋白质的长度,定义最大蛋白质的长度为l,对完整序列进行编码,包括嵌入和位置编码;嵌入:以序列T为输入,对蛋白质完整序列进行嵌入,获得输出该过程为线性转换过程,嵌入层具有可训练权重其中v表示上述氨基酸集合的大小,e表示氨
基酸嵌入的大小;位置编码:为了添加蛋白质T中每个氨基酸的相对或绝对位置信息,还需要进行位置编码;以序列T为输入,对蛋白质完整序列进行位置编码,输出为表示了T中所有氨基酸的位置编码,定义为氨基酸的位置编码,定义为其中,i是位置,j是维度,d是氨基酸位置编码的大小;PE
T
(i,:)是矩阵PE
T
的第i行,表示蛋白质T中第i个氨基酸的位置编码;当蛋白质的长度n<l时,n+1至l的部分为0;这里设置位置编码大小等于嵌入大小,即d=e;因此可以直接令PE
T
和E
T
两者相加;定义X
WT
为完整序列编码的输出,结果可表示为X
WT
=E
T
+PE
T
ꢀꢀ
(4)(2)二级序列编码在二级序列编码模块中,以蛋白质的二级序列ST为输入,对二级序列进行嵌入和位置嵌入;嵌入:对二级序列ST进行编码,获得矩阵其中L
t
为最大蛋白质的二级序列的长度,v
s
为蛋白质二级序列词汇表V
T
的大小;以M
ST
为输入,对二级序列进行嵌入操作,输出为其中e
s
为每个二级序列嵌入的大小;嵌入层具有可训练权重其中v
s
表示上述蛋白质二级序列词汇表的大小;位置嵌入:对蛋白质的二级序列进行单独的hot vector位置编码,结果表示为I
ST
;以I
ST
为输入,对二级序列进行位置嵌入,输出PE
ST
可表示为其中为位置嵌入层的位置查询词典;定义X
ST
为二级序列编码的输出,结果可表示为X
ST
=E
ST
+PE
ST
ꢀꢀ
(6)(3)池化对完整序列的编码结果X
WT
进行池化操作,使其维度与二级序列编码结果X
ST
的维度相同;定义X
WT
池化的结果为X
WT1
,将该结果与X
ST
相加,获得蛋白质的序列编码模块的输出X
T
,表示为(4)药物的序列编码药物SMILES序列的序列编码过程与蛋白质FASTA序列的类似;将药物SMILES序列D的数学表达式表示为D={d1,d2,

,d
i
,

,d
m
},d
i
∈N
d
ꢀꢀ
(8)d
i
表示药物序列中第i个SMILES字符;N
d
表示包含62个SMILES字符的SMILES集合;药物D的SMILES序列长度m是不固定的;定义最大药物的长度为z,因此m≤z;药物完整序列由完整序列编码模块进行编码后得到输出表示为其中f表
示SMILES字符嵌入的大小;此处设置氨基酸和SMILES字符具有相同的嵌入大小,即f=e;药物二级序列由二级序列编码模块进行编码后得到的输出表示为其中L
d
为最大药物的二级序列的长度,且L
d
<z,f
s
为药物二级序列嵌入的大小;此处设置氨基酸和SMILES字符二级序列具有相同的嵌入大小,即f
s
=e
s
;对药物完整序列编码结果X
WD
进行池化操作,结果为X
WD1
,其维度与二级序列encoding结果X
SD
的维度相同,即最终获得药物SMILES序列的序列编码模块输出X
D
,表示为5.根据权利要求1所述的基于深度模态数据融合的药物靶标亲和度预测方法,其特...

【专利技术属性】
技术研发人员:左海维杨洋杨子琰胡景叶周鹏程
申请(专利权)人:徐州医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1