当前位置: 首页 > 专利查询>中南大学专利>正文

基于残差注意力的多通路的蛋白质与蛋白质作用位点预测方法、设备和介质技术

技术编号:37746478 阅读:12 留言:0更新日期:2023-06-05 23:32
本发明专利技术公开了一种基于残差注意力的多通路的蛋白质与蛋白质作用位点预测方法、设备和介质,方法包括:基于蛋白质序列提取蛋白质的生物理化特性;使用两个不同的通路模块,分别根据生物理化特性预测蛋白质的相互作用位点;其中,两个通路模块均基于残差注意力从特征理化特性中提取隐特征向量,以及采用多层感知机根据隐特征向量预测相互作用位点,且第一通路模块使用稳定结构蛋白质样本训练得到,第二通路模块使用无序蛋白质样本训练得到;根据两个通路模块得到的相互作用位点预测结果,以及蛋白质无序倾向性,最终确定蛋白质的相互作用位点。本方法预测效果好、适用性强,且具有较强泛化能力。化能力。化能力。

【技术实现步骤摘要】
基于残差注意力的多通路的蛋白质与蛋白质作用位点预测方法、设备和介质


[0001]本专利技术涉及生物信息学领域,具体涉基于残差注意力的多通路的蛋白质与蛋白质作用位点预测方法、设备和介质。

技术介绍

[0002]蛋白质与蛋白质的相互作用(PPI)对许多细胞功能至关重要,包括对细胞周期、信号传导和代谢的调节。对PPI的了解促进了对细胞过程的理解、蛋白质对接的发展和应用、PPI网络的发展、药物设计工作以及对某些疾病背后的分子机制的探索。有关PPI的信息可以在多个数据库中找到,包括提供原子级细节的蛋白质数据库(PDB)和BioLiP侧重于氨基酸水平的注释,以及STRING、mentha和BioGRID在蛋白质水平注释这些相互作用。虽然数十亿的相互作用已经在蛋白质水平上进行了注释,但只有一小部分的相互作用残基有更详细的注释。
[0003]这一巨大的知识差距促使人们开发了几十种预测蛋白质序列中蛋白质结合残基(PBRs)的计算方法。最近的工作将这些方法分为两大类:使用结构化蛋白质

蛋白质复合物的训练数据集开发的方法与使用内在无序的PBRs注释开发的方法。最近的工作表明,基于结构蛋白质训练和无序蛋白质训练的预测器对另外一种类型蛋白质的相互作用预测结果偏差,即结构训练的预测器对无序PBRs的预测表现很差,反之亦然。

技术实现思路

[0004]针对目前蛋白质与蛋白质相互作用位点预测方法在结构蛋白质和无序蛋白质上泛化性能差问题,本专利技术提供一种基于残差注意力的多通路的蛋白质与蛋白质作用位点预测方法、设备和介质,可以在结构蛋白质和无序蛋白质上都取得准确的预测结果。
[0005]为实现上述技术目的,本专利技术采用如下技术方案:
[0006]一种基于残差注意力的多通路的蛋白质与蛋白质作用位点预测方法,包括:
[0007]基于蛋白质序列提取蛋白质的生物理化特性;
[0008]使用两个不同的通路模块,分别根据生物理化特性预测蛋白质的相互作用位点;其中,两个通路模块均基于残差注意力从特征理化特性中提取隐特征向量,以及采用多层感知机根据隐特征向量预测相互作用位点,且第一通路模块使用稳定结构蛋白质样本训练得到,第二通路模块使用无序蛋白质样本训练得到;
[0009]根据两个通路模块得到的相互作用位点预测结果,以及蛋白质无序倾向性,最终确定蛋白质的相互作用位点。
[0010]进一步地,所述生物理化特性包括蛋白质的序列特征E1、数值特征E2、蛋白质水平的集合特征E3和窗口水平的集合特征E4;
[0011]所述序列特征E1包括各氨基酸的溶剂可及性、保守性、无序倾向性、无序区结合倾向性、结合倾向性以及蛋白质的二级结构信息;
[0012]所述数值特征E2,通过对蛋白质序列中各氨基酸进行one

hot编码得到;
[0013]所述蛋白质水平的集合特征E3,通过对每种序列特征取所有氨基酸的平均值得到;
[0014]所述窗口水平的集合特征E4,通过对蛋白质序列设置滑动窗口,再取滑动窗口内中间区域序列特征均值与两侧翼区域序列特征均值的差值,所有滑动窗口所得值作为窗口水平的集合特征。
[0015]进一步地,第一通路模块根据生物理化特性预测蛋白质的相互作用位点,具体为:
[0016]以蛋白质的序列特征E1和数值特征E2为输入,分别通过三个不同尺度CNN层捕获不同大小领域特征信息;各CNN层后分别连接一个激活单元;将激活单元的输出P1传入带注意力机制的残差模块;在每个残差模块中,将激活单元的输出P1依次通过两个CNN层、一个注意力层和一个卷积核大小等于窗口大小的CNN层,得到特征向量P2;此外还将激活单元的输出P1输入到一个注意力层得到特征向量P3;最终将特征向量P2和P3合并,三个不同尺度CNN层对应得到隐特征向量S1、S2、S3;
[0017]拼接蛋白质水平的集合特征E3和窗口水平的集合特征E4,然后使用CNN层和多头注意力模块从拼接的集合特征中提取隐特征向量G1;
[0018]将隐特征向量S1、S2、S3、G1传递给两层感知机,预测蛋白质的相互作用位点。
[0019]进一步地,第二通路模块根据生物理化特性预测蛋白质的相互作用位点,具体为:
[0020]以蛋白质的序列特征E1和数值特征E2为输入,分别通过三个不同尺度CNN层捕获不同大小领域特征信息;各CNN层后分别连接一个激活单元;将激活单元的输出M1传入带注意力机制的残差模块;在每个残差模块中,将激活单元的输出M1依次通过两个CNN层、一个注意力层和一个卷积核大小等于窗口大小的CNN层,得到特征向量M2;此外还将激活单元的输出M1输入到一个注意力层得到特征向量M3;最终将特征向量M2和M3合并,三个不同尺度CNN层对应得到隐特征向量D1、D2、D3;
[0021]将隐特征向量D1、D2、D3传递给两层感知机,预测蛋白质的相互作用位点。
[0022]进一步地,最终确定蛋白质的相互作用位点,具体为:
[0023]对两个通路模块得到的相互作用位点预测结果,即蛋白质各氨基酸的结合倾向性,进行标准化处理;
[0024]将标准化处理得到的结合倾向性与对应给定阈值比较,确定各通路模块预测结果对应的0

1值,即蛋白质各氨基酸是否为相互作用位点;
[0025]若至少有一个通路模块对应预测某氨基酸为相互作用位点,则判定该氨基酸为相互作用位点,并选择两个通路模块输出的结合倾向性值中的较大值作为该氨基酸的最终结合倾向性值;
[0026]若两个通路模块对应预测某氨基酸均不是相互作用位点,则将该氨基酸的无序倾向性与对应给定阈值比较,若大于等于对应给定阈值,则选择第二通路模块的预测结果作为该氨基酸的最终结合倾向性值,否则选择第一通路模块的预测结果作为该氨基酸的最终结合倾向性值。
[0027]进一步地,在确定各通路模块预测结果对应的0

1值时,与结合倾向性比较的对应给定阈值为0.5,若结合倾向性大于等于0.5则通路模块预测该氨基酸为相互作用位点,否则为非相互作用位点。
[0028]进一步地,在选择通路模块预测结果时,与无序倾向性比较的对应给定阈值为0.13。
[0029]一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一项所述的基于残差注意力的多通路的蛋白质与蛋白质作用位点预测方法。
[0030]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的基于残差注意力的多通路的蛋白质与蛋白质作用位点预测方法。
[0031]有益效果
[0032]本专利技术提出了一个基于残差注意力的多通路模型,预测蛋白质与蛋白质作用位点。首先针对具有稳定结构蛋白质和无序蛋白质分别构建了预测通路,保证模型能够同时适用于具有稳定结构蛋白质和无序蛋白质的作用位点预测。此外,不同的预测通路使用不同的输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于残差注意力的多通路的蛋白质与蛋白质作用位点预测方法,其特征在于,包括:基于蛋白质序列提取蛋白质的生物理化特性;使用两个不同的通路模块,分别根据生物理化特性预测蛋白质的相互作用位点;其中,两个通路模块均基于残差注意力从特征理化特性中提取隐特征向量,以及采用多层感知机根据隐特征向量预测相互作用位点,且第一通路模块使用稳定结构蛋白质样本训练得到,第二通路模块使用无序蛋白质样本训练得到;根据两个通路模块得到的相互作用位点预测结果,以及蛋白质无序倾向性,最终确定蛋白质的相互作用位点。2.根据权利要求1所述的方法,其特征在于,所述生物理化特性包括蛋白质的序列特征E1、数值特征E2、蛋白质水平的集合特征E3和窗口水平的集合特征E4;所述序列特征E1包括各氨基酸的溶剂可及性、保守性、无序倾向性、无序区结合倾向性、结合倾向性以及蛋白质的二级结构信息;所述数值特征E2,通过对蛋白质序列中各氨基酸进行one

hot编码得到;所述蛋白质水平的集合特征E3,通过对每种序列特征取所有氨基酸的平均值得到;所述窗口水平的集合特征E4,通过对蛋白质序列设置滑动窗口,再取滑动窗口内中间区域序列特征均值与两侧翼区域序列特征均值的差值,所有滑动窗口所得值作为窗口水平的集合特征。3.根据权利要求1所述的方法,其特征在于,第一通路模块根据生物理化特性预测蛋白质的相互作用位点,具体为:以蛋白质的序列特征E1和数值特征E2为输入,分别通过三个不同尺度CNN层捕获不同大小领域特征信息;各CNN层后分别连接一个激活单元;将激活单元的输出P1传入带注意力机制的残差模块;在每个残差模块中,将激活单元的输出P1依次通过两个CNN层、一个注意力层和一个卷积核大小等于窗口大小的CNN层,得到特征向量P2;此外还将激活单元的输出P1输入到一个注意力层得到特征向量P3;最终将特征向量P2和P3合并,三个不同尺度CNN层对应得到隐特征向量S1、S2、S3;拼接蛋白质水平的集合特征E3和窗口水平的集合特征E4,然后使用CNN层和多头注意力模块从拼接的集合特征中提取隐特征向量G1;将隐特征向量S1、S2、S3、G1传递给两层感知机,预测蛋白质的相互作用位点。4.根据权利要求1所述的方法,其特征在于,第二通路模块根据生物理化特性预测蛋白质的相...

【专利技术属性】
技术研发人员:李敏张富豪
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1