当前位置: 首页 > 专利查询>大连大学专利>正文

一种融合多视图信息的化合物-蛋白质相互作用预测方法技术

技术编号:37786274 阅读:11 留言:0更新日期:2023-06-09 09:16
本发明专利技术提供了一种融合多视图信息的化合物

【技术实现步骤摘要】
一种融合多视图信息的化合物

蛋白质相互作用预测方法


[0001]本专利技术涉及医学人工智能
,具体涉及一种融合多视图信息的化合物

蛋白质相互作用预测方法。

技术介绍

[0002]在医学领域和全球制药行业中,新药物的研发是一个复杂、漫长且成功率非常低的过程。在现有药物疗效有限的情况下,发掘现有药物新的适用症可以大大减少新药研发的成本,在一定程度上缓解药物疗效有限的问题。在传统药物研发过程中,三分之一的时间和资金都花费在早期的化合物作用标靶筛选和发现中,如何快速识别化合物蛋白质相互作用成为药物发现过程中的关键任务。
[0003]近年来,随着可用的生物医学数据量显著增长,更大的数据量和更多的计算资源使得深度学习在化合物蛋白质相互作用中广泛应用。在化合物蛋白质相互作用预测任务中,化合物和蛋白质常常以序列的形式作为输入,并使用优于浅层机器学习的深度学习算法来提取分子化合物的SMILES和蛋白质序列的特征信息,如卷积神经网络、循环神经网络等。然而,由于生物特征的复杂性,这些方法未能挖掘具有可解释性和更深层次的生物特征。
[0004]在深度学习技术的辅助下,药物发现的许多方面都取得了显著进展。虽然深度学习在化合物蛋白质相互作用的研究中展现了其强大且高效的学习能力,但目前方法仍然具有一定的局限性。例如,化合物蛋白质相互作用中的蛋白质由20种氨基酸组成序列,不同的排列顺序表示生物的遗传信息,因此,氨基酸序列的上下文信息表示着蛋白质的生物信息,蕴含着生命的奥秘。然而,基于深度学习的化合物

蛋白质相互作用方法大多都使用经典的卷积神经网络和循环神经网络来提取蛋白质信息,这样难以提取到氨基酸序列中的复杂生物信息;且化合物和蛋白质的交互过程中,目前许多预测方法直接拼接编码获得的化合物和蛋白质的表示向量,作为CPI的交互向量表示,这些方法只模拟了化合物和蛋白质之间的相互作用,缺失了子结构间的交互信息。

技术实现思路

[0005]本专利技术的目的在于,提出一种多视角信息融合的化合物

蛋白质相互作用预测模型,其对化合物和蛋白质的相互作用关系进行预测,提高了验证效率,降低了验证成本。
[0006]为实现上述目的,本申请的技术方案为:一种融合多视图信息的化合物

蛋白质相互作用预测方法,包括:
[0007]步骤1:将化合物SMILES字符串表示为分子图结构,使用图注意力网络提取化合物特征信息;
[0008]步骤2:将蛋白质序列划分为氨基酸子序列,使用多层Transformer编码器提取蛋白质特征信息;
[0009]步骤3:对提取到的化合物特征信息和蛋白质特征信息分别进行微观和宏观交互,
并融合多视图交互信息;
[0010]步骤4:将融合的化合物蛋白质多视图交互信息送入分类模型中进行训练,然后保存模型;
[0011]步骤5:加载所述模型,输入待预测的化合物和蛋白质信息,对化合物和蛋白质相互作用进行预测并输出预测结果。
[0012]进一步地,步骤1具体包括:
[0013]步骤1.1:使用RDKit工具包将化合物SMILES字符串构建为二维图结构;所述二维图结构表示为G={V,E},其中,V是原子节点集合,E是边的集合,v
i
∈V表示第i个原子,e
ij
∈E表示原子i和原子j之间的边;使用随机生成的向量表示原子的初始向量其中,S
c
和D
c
分别为化合物的原子数和向量初始维度;
[0014]步骤1.2:采用图注意力网络提取化合物的特征信息。
[0015]进一步地,步骤1.2具体包括:
[0016]步骤1.2.1:获取邻居节点对于原子v
i
的注意力系数α,α
ij
表示节点v
j
对于节点v
i
的重要程度,通过以下公式计算:
[0017][0018]其中W为共享参数矩阵,对顶点特征进行线性变换,||表示将变换后的特征向量进行拼接,a(
·
)表示将拼接后的特征向量映射到一个实数上,Ν
i
为顶点v
i
的邻居节点集合,LeakyReLU(
·
)进行归一化表示;
[0019]步骤1.2.2:使用注意力系数α更新节点的潜在向量表示,作为顶点v
i
的最终表示:
[0020][0021]其中,v
i
'为融合节点i邻域信息的嵌入表示,v
j
为节点v
i
的邻居节点,W为参数矩阵,σ(
·
)是激活函数;
[0022]步骤1.2.3:使用多头注意力机制将K层图注意力网络的输出向量进行特征聚合,K中设置为3:
[0023][0024]其中,是化合物中原子的特征表示,v
i
'(K)为聚合K层图注意力网络的输出顶点向量,为第k层图注意力网络中原子i和原子j之间的注意力系数,W
k
为第k层图注意力网络的矩阵参数,n为化合物的原子数,d为原子特征表示维度,σ(
·
)是激活函数。
[0025]进一步地,步骤2具体包括:
[0026]步骤2.1:参见图2,将蛋白质划分为重叠的n

gram氨基酸子序列,例如n取值为3时,氨基酸序列“MNPAAEA

ATDSY”将被划分为“MNP”,“NPA”,“PAA”,

,“ATD”,“TDS”,“DSY”的子序列;
[0027]步骤2.2:将蛋白质序列表示为S=s1,s2,...,s
p

n+1
,其中s
i
为第i个子序列,p为氨
基酸序列的总长度;
[0028]步骤2.3:采用随机初始化方式获得词嵌入表示其中,m=n

p+1,m为划分后的子序列数,d
x
为x
embedding
的维度;
[0029]步骤2.4:词嵌入表示x
embedding
通过n层Transformer编码器,提取蛋白质子序列的嵌入表示。
[0030]进一步地,所述步骤2.4具体包括:
[0031]步骤2.4.1:通过Attention机制学习氨基酸序列不同位置的重要性:
[0032][0033]其中,Q=K=V=x
embedding
,h为注意力的头数,d
x
为x
embedding
的维度,softmax(
·
)将分数进行归一化处理,使得计算出的值均为正数,且和为1;
[0034]步骤2.4.2:采用多头机制捕捉氨基酸不同维度的特征,学习氨基酸序列不同空间丰富的特征信息:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合多视图信息的化合物

蛋白质相互作用预测方法,其特征在于,包括:步骤1:将化合物SMILES字符串表示为分子图结构,使用图注意力网络提取化合物特征信息;步骤2:将蛋白质序列划分为氨基酸子序列,使用多层Transformer编码器提取蛋白质特征信息;步骤3:对提取到的化合物特征信息和蛋白质特征信息分别进行微观和宏观交互,并融合多视图交互信息;步骤4:将融合的化合物蛋白质多视图交互信息送入分类模型中进行训练,然后保存模型;步骤5:加载所述模型,输入待预测的化合物和蛋白质信息,对化合物和蛋白质相互作用进行预测并输出预测结果。2.根据权利要求1所述一种融合多视图信息的化合物

蛋白质相互作用预测方法,其特征在于,步骤1具体包括:步骤1.1:使用RDKit工具包将化合物SMILES字符串构建为二维图结构;所述二维图结构表示为G={V,E},其中,V是原子节点集合,E是边的集合,v
i
∈V表示第i个原子,e
ij
∈E表示原子i和原子j之间的边;使用随机生成的向量表示原子的初始向量其中,S
c
和D
c
分别为化合物的原子数和向量初始维度;步骤1.2:采用图注意力网络提取化合物的特征信息。3.根据权利要求2所述一种融合多视图信息的化合物

蛋白质相互作用预测方法,其特征在于,步骤1.2具体包括:步骤1.2.1:获取邻居节点对于原子v
i
的注意力系数α,α
ij
表示节点v
j
对于节点v
i
的重要程度,通过以下公式计算:其中W为共享参数矩阵,对顶点特征进行线性变换,||表示将变换后的特征向量进行拼接,a(
·
)表示将拼接后的特征向量映射到一个实数上,Ν
i
为顶点v
i
的邻居节点集合,Leaky ReLU(
·
)进行归一化表示;步骤1.2.2:使用注意力系数α更新节点的潜在向量表示,作为顶点v
i
的最终表示:其中,v'
i
为融合节点i邻域信息的嵌入表示,v
j
为节点v
i
的邻居节点,W为参数矩阵,σ(
·
)是激活函数;步骤1.2.3:使用多头注意力机制将K层图注意力网络的输出向量进行特征聚合:其中,是化合物中原子的特征表示,v'
i
(K)为聚合K层图注意力网络的输出
顶点向量,为第k层图注意力网络中原子i和原子j之间的注意力系数,W
k
为第k层图注意力网络的矩阵参数,n为化合物的原子数,d为原子特征表示维度,σ(
·
)是激活函数。4.根据权利要求1所述一种融合多视图信息的化合物

蛋白质相互作用预测方法,其特征在于,步骤2具体包括:步骤2.1:将蛋白质划分为重叠的n

gram氨基酸子序列;步骤2.2:将蛋白质序列表示为S=s1,s2,...,s
p

n+1
,其中s
i
为第i个子序列,p为氨基酸序列的总长度;步骤2.3:采用随机初始化方式获得词嵌入表示其中,m=n

p+1,m为划分后的子序列数,d
x
为x
embedding
的维度;步骤2.4:词嵌入表示x
embedding
通过n层Transformer编码器,提取蛋白质子序列的嵌入表示。5.根据权利要求4所述一种融合多视图信息的化合物

蛋白质相互作用预测方法,其特征在于,所述步骤2.4具体包括:步骤2.4.1:通过Attention机制学习氨基酸序列不同位置的重要性:其中,Q=K=V=x
embedding
,h为注意力的头数,d
x
为x
embedding
的维度,softmax(
·
)将分数进行归一化处理,使得计算出的值均为正数,且和为1;步骤2.4.2:采用多头机制捕捉氨基酸不同维度的特征,学习氨基酸序列不同空间丰富的特征信息:head
h
=Attention(QW
iQ
,KW
iK
,VW
iV
),
ꢀꢀꢀꢀꢀꢀ
(6)其中,W
iQ
,W
iK
,是可学习的参数矩阵,||表示将H个head拼接;步骤2.4.3:每个位置的词都单独经过Position

wiseFeed

ForwardNetwork层,先通过ReLU激活函数,再进行一次线性变换,最后得到氨基酸子序列的特征表示FFN(x)=max(0,xW1+b1)W2+b2,(7)X
residue
=FFN(MultiHead(x
embedding
)).(8)其中,W1和W2为参数矩阵,b1和b2为偏差向量。6.根据权利要求1所述一种融合多视图信息的化合物

蛋白质相互作用预测方法,其特征在于,所述步骤3具体包括:步骤3.1:在微观视图,提取化合物原子和蛋白质氨基酸的...

【专利技术属性】
技术研发人员:车超问伯竹
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1