当前位置: 首页 > 专利查询>武汉大学专利>正文

基于二级结构特征编码的药物-蛋白亲和力预测方法及装置制造方法及图纸

技术编号:34262450 阅读:24 留言:0更新日期:2022-07-24 14:08
本发明专利技术提供了一种基于二级结构特征编码的药物

Method and device for predicting drug protein affinity based on secondary structure feature coding

【技术实现步骤摘要】
基于二级结构特征编码的药物

蛋白亲和力预测方法及装置


[0001]本专利技术涉及药物虚拟筛选领域,尤其涉及一种基于二级结构特征编码的药物

蛋白亲和力预测方法及装置,属于机器学习神经网络模型在生物信息学中的应用。

技术介绍

[0002]在现今药物发现领域中,由于生物实验的不可避免并且过程繁琐,药物发现成本极其高昂且耗时。究其根本是因为候选药物的数量过于庞大,需要实验一一进行验证。新药的发现伴随着冗长的周期,首先从海量的小分子药物中进行生物实验的初筛,紧接是多种功能域的验证以及临床实验。以上每一步无不伴随着高额的花费和巨大的风险。
[0003]药物虚拟筛选是利用计算机强大的模拟能力和现有海量的生物数据进行生物实验的模拟,基于计算机的强大计算能力,根据药物和靶标的相关生物数据,进行虚拟的筛选。例如,模拟药物和靶标蛋白的立体结构,并尝试对药物和靶标的分子进行对接试验。分子对接试验可以在物理层面验证药物和蛋白是否会结合。或者,通过特征计算的方式如矩阵分解对药物和靶标的各项生化指标进行计算预测亲和分数。与传统方法相比,药物虚拟筛选可以节省大量时间和资源。在进行生物实验之前,对药物进行虚拟筛选可以为生物实验提供指导。在各种方法中,高通量筛选和分子对接作为虚拟预筛选的两种主要方法被广泛应用。然而,这些方法都依赖于药物和蛋白质的结构信息,这些信息是通过复杂的实验获得,所以需要借助深度学习实现亲和力的预测。
[0004]深度学习框架可以利用有限的数据来实现与现代主流的药物虚拟筛选方法相当的性能。并且现有的深度学习药物虚拟筛选方法主要侧重于对药物和靶标的亲和力分数进行建模。具体来说,首先通过编码有限的药物和靶标,将序列信息特征到矩阵中,获得药物和靶标的特征表示,然后搭建神经网络对特征矩阵进行运算,即这些特征被输入神经网络以预测亲和力分数。尽管现有的一些工作表现出了不错的性能,但计算过程是无法解释的,并且也没有对药物蛋白亲和的生物过程进行建模。
[0005]有些工作注意到了深度学习框架的这些弊端,它们通过在计算过程中对实际生物过程进行建模,使得计算过程更具有可解释性,并且因此提升了效果。比如,在经典双塔计算模型中融合了注意力块模块,使得模型更关注于结合的区域,使计算更接近实际生物过程中的分子对接,虽然这些改变是可以提高模型的性能。但是模型对于实际生物过程进行显式的建模,因此仍然导致预测的效果不太理想。
[0006]由此可知,现有技术中的方法存在预测效果不佳的技术问题。

技术实现思路

[0007]为了解决上述技术问题,本专利技术提供了一种二级结构特征编码的药物蛋白亲和分数预测方法,该方法首先采用二级结构作为最小的编码单位,并且对模型进行二级结构关系理解预训练,在此基础上获得更具有可解释性、性能更好的亲和分数预测模型,并用于药物

蛋白亲和力的预测,以提升预测效果。
[0008]本专利技术采用的技术方案为:
[0009]第一方面提供了基于二级结构特征编码的药物

蛋白亲和力预测方法,其包括:
[0010]S1:获取蛋白氨基酸序列和药物SMILES序列,对蛋白氨基酸序列和药物SMILES序列进行拼接,并根据二级结构进行切分,转换得到代表蛋白和药物序列的向量X;
[0011]S2:将X进行随机掩码,得到部分二级结构掩码表示X
m

[0012]S3:搭建多头注意力模型,作为预测模型A,随机初始化预测模型A中的参数;
[0013]S4:将X
m
作为训练数据输入预测模型A,对预测模型A进行训练,以预测掩码的二级结构为训练目标,直至预测模型A收敛,得到训练好的预测模型A;
[0014]S5:在预测模型A的基础上增加分数拟合层,作为拟合模型B,并以训练好的模型A作为初始化参数;
[0015]S6:将X作为训练数据输入拟合模型B,对拟合模型B进行训练,以预测药物蛋白亲和分数为训练目标,直至拟合模型B收敛,得到训练好的拟合模型B;
[0016]S7:将需要预测的药物和蛋白输入训练好的拟合模型B,进行药物

蛋白亲和力预测。
[0017]在一种实施方式中,步骤S1中根据二级结构进行切分的方法为:
[0018]使用FCS算法挖掘序列中的多个二级结构,并整理得到二级结构的词表,FCS算法为二级结构挖掘算法;
[0019]将词表中的二级结构作为序列中的最小单位,并根据词表序号对蛋白氨基酸序列和药物SMILES序列中的二级结构进行替换,得到代表蛋白和药物序列的向量X。
[0020]在一种实施方式中,步骤S2中将X进行随机掩码的方法为:
[0021]通过使用预设标记对需要掩码的区域进行统一替换。
[0022]在一种实施方式中,步骤S3中搭建的多头注意力模型包括:6个堆叠的多头注意力模块,其中,每个多头注意力模块由多头注意力层,标准化层和前向传播层组成,多头注意力层用于进行注意力计算,得到输入数据的特征,标准化层用于对特征进行归一化处理,前向传播层用于将计算得到特征映射到输出空间。
[0023]在一种实施方式中,多头注意力层为由W
Q
/W
K
/W
V
三个线性层组成的注意力计算模块,三个线性层多头通过多个并行的W
Q
/W
K
/W
V
同时进行计算,计算得到查询向量Q以及键值对K/V,具体计算公式为:
[0024][0025]其中,d为模型隐藏层大小,softmax为归一化函数,W
Q
/W
K
/W
V
为学习的参数,Q/K/V为对应线性层输出,Attention(Q,K,V)为一个单头的计算方式。
[0026]在一种实施方式中,步骤S4中以预测掩码的二级结构为训练目标包括:将掩码位置的输出通过分类头映射为词表维度的概率,词表中每一个二级结构对应一个概率,词表中概率最高的为预测的二级结构,训练过程中的目标函数表示为:
[0027][0028][0029]其中,h
i
表示第i个被掩码的二级结构所在位置的模型输出,softmax为归一化函数,W
c
和b
c
为分类头中可训练的参数,为被掩码的二级结构在词表中的序号,为模型预测对应未知二级结构的概率值。
[0030]在一种实施方式中,步骤S6中以拟合亲和力分数为训练目标包括:将拟合模型B第一个位置的输出经过分数拟合层输出预测分数,然后计算实际亲和分数和预测的分数的差距,采用的目标函数为:
[0031][0032]y
p
=h0W
f
+b
f
[0033]其中,MSE表示均方差计算,y
p
表示预测得到的亲和分数,y
t
表示真实的预测分数,h0表示多头注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于二级结构特征编码的药物

蛋白亲和力预测方法,其特征在于,包括:S1:获取蛋白氨基酸序列和药物SMILES序列,对蛋白氨基酸序列和药物SMILES序列进行拼接,并根据二级结构进行切分,转换得到代表蛋白和药物序列的向量X;S2:将X进行随机掩码,得到部分二级结构掩码表示X
m
;S3:搭建多头注意力模型,作为预测模型A,随机初始化预测模型A中的参数;S4:将X
m
作为训练数据输入预测模型A,对预测模型A进行训练,以预测掩码的二级结构为训练目标,直至预测模型A收敛,得到训练好的预测模型A;S5:在预测模型A的基础上增加分数拟合层,作为拟合模型B,并以训练好的模型A作为初始化参数;S6:将X作为训练数据输入拟合模型B,对拟合模型B进行训练,以预测药物蛋白亲和分数为训练目标,直至拟合模型B收敛,得到训练好的拟合模型B;S7:将需要预测的药物和蛋白输入训练好的拟合模型B,进行药物

蛋白亲和力预测。2.如权利要求1所述的基于二级结构特征编码的药物

蛋白亲和力预测方法,其特征在于,步骤S1中根据二级结构进行切分的方法为:使用FCS算法挖掘序列中的多个二级结构,并整理得到二级结构的词表,FCS算法为二级结构挖掘算法;将词表中的二级结构作为序列中的最小单位,并根据词表序号对蛋白氨基酸序列和药物SMILES序列中的二级结构进行替换,得到代表蛋白和药物序列的向量X。3.如权利要求1所述的基于二级结构特征编码的药物

蛋白亲和力预测方法,其特征在于,步骤S2中将X进行随机掩码的方法为:通过使用预设标记对需要掩码的区域进行统一替换。4.如权利要求1所述的基于二级结构特征编码的药物

蛋白亲和力预测方法,其特征在于,步骤S3中搭建的多头注意力模型包括:6个堆叠的多头注意力模块,其中,每个多头注意力模块由多头注意力层,标准化层和前向传播层组成,多头注意力层用于进行注意力计算,得到输入数据的特征,标准化层用于对特征进行归一化处理,前向传播层用于将计算得到特征映射到输出空间。5.如权利要求4所述的基于二级结构特征编码的药物

蛋白亲和力预测方法,其特征在于,多头注意力层为由W
Q
/W
K
/W
V
三个线性层组成的注意力计算模块,三个线性层多头通过多个并行的W
Q
/W
K
/W
V
同时进行计算,计算得到查询向量Q以及键值对K/V,具体计算公式为:其中,d为模型隐藏层大小,softmax为归一化函数,W
Q

【专利技术属性】
技术研发人员:刘娟朱学凯
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1