当前位置: 首页 > 专利查询>江南大学专利>正文

基于多视角多尺度多注意力机制的蛋白质功能预测方法技术

技术编号:38133734 阅读:6 留言:0更新日期:2023-07-08 09:43
本发明专利技术属于蛋白质序列智能功能预测领域,涉及一种基于多视角多尺度多注意力机制的蛋白质功能预测方法。该方法包括训练阶段和使用阶段两部分,训练阶段初始多视角特征提取模块、多视角深度多尺度多注意力分类器学习模型和多视角自适应决策网络。初始多视角特征提取模块使用四种编码特征从蛋白质序列中提取特征,分别为基于独热编码的序列特征、基于进化信息的序列特征、基于深度语义模型的序列特征以及基于重叠理化特性编码的序列特征。本发明专利技术为每个视角设计特定的多尺度多注意力深度神经网络模型,提取深度特征并完成对蛋白质功能的初步预测。最后,引入了多视角自适应决策机制,以平衡每个视角对最终预测结果的相对重要性。性。性。

【技术实现步骤摘要】
基于多视角多尺度多注意力机制的蛋白质功能预测方法


[0001]本专利技术属于智能蛋白质功能预测领域,涉及一种基于多视角多尺度多注意力机制的蛋白质功能预测方法。

技术介绍

[0002]蛋白质是生命体内的重要分子,具有多种生物学功能,在生物体内发挥着不可获取的作用。随着人们对蛋白质组学的研究愈发深入,许多蛋白质在生物调控过程中所发挥的作用被揭示。例如,蛋白质在许多疾病的发生和发展中起着重要作用,如癌症、心血管疾病和神经退行性疾病等。此外,许多药物的作用机制也涉及到蛋白质的结构和功能。因此,对蛋白质功能的研究具有重大意义,涉及生命科学、药物研发、基因工程和生物技术等多个领域。
[0003]蛋白质的功能是一个多方面的概念,通常被用来描述目标蛋白质在生物体内部的生化反应、细胞活动和生物表现型等场景下所发挥的作用。后基因组时代,随着序列基因组学项目识别的蛋白质数量的爆炸式增长,早期基于定量生化实验验证的蛋白质功能预测的方法已经无法满足需求。然而,随着序列基因组项目识别的蛋白质数量的爆炸式增长,通过实验来验证蛋白质的功能已经远远不能满足序列数量日益增长的实际需求。研究发现,计算方法可以通过蛋白质的序列、结构、基因表达谱、蛋白质

蛋白质相关作用网络、组学数据以及已知功能蛋白质的功能信息等数据推断目标蛋白质的功能。因此寻找能够从蛋白质数据中挖掘功能信息的智能方法成为蛋白质组学研究的一个很重要的研究方向。
[0004]现在有很多方法可以利用机器学习模型从蛋白质序列中预测蛋白质功能,但大多局限于能够获取此类完整数据的少数蛋白质组学。很少有方法仅使用蛋白质序列信息进行蛋白质功能预测研究。如何合理有效的利用蛋白质序列层面的特征对蛋白质功能进行推断依然是一个重要的挑战。

技术实现思路

[0005]本专利技术实现了一种基于多视角多尺度多注意力机制的蛋白质功能预测方法,该方法包括训练阶段和使用阶段两部分,训练阶段包括初始多视角特征提取模块、多视角深度多尺度多注意力分类器学习模型和多视角自适应决策网络。
[0006]训练阶段:初始多视角特征提取模块使用四种不同理论基础的蛋白质序列编码技术将蛋白质序列转换为机器可读的数值型特征,四种编码特征分别为:基于独热编码的序列特征、基于进化信息的序列特征、基于深度语义模型的序列特征以及基于重叠理化特性编码的序列特征;然后对初始的四个序列视角特征构建出四个深度多尺度多注意力分类器学习模型,分别对各个视角特征进行训练,以获得不同视角子模型对目标蛋白质序列的初步功能预测结果;获取的初步预测结果用于多视角自适应决策网络,以学习各个视角结果对最终决策的平衡权重;
[0007]使用阶段:获取待测蛋白质序列,利用四种编码特征技术构建出目标序列的初始
多视角特征;再利用针对多视角特征集合训练出来的四个深度多尺度多注意力分类器获取的4个视角的初步预测结果;接着使用训练出来的自适应决策网络综合4个视角的预测结果,自适应学习各个视角的平衡权重,得到最终的预测结果;
[0008]所述的基于多视角多尺度多注意力机制的蛋白质功能预测方法集合深度学习技术和多视角决策机制等技术,从蛋白质序列中有效的识别了序列中蕴含的功能鉴别信息,它将深度学习与蛋白质的多视角序列特征联系起来,更全面的表达了序列的功能鉴别信息。
[0009]蛋白质序列是一段用氨基酸描述的生物遗传物质,深度卷积模型无法处理字符信息,所以需要先将氨基酸序列进行预处理,转换成程序所能接受的数值形式。独热编码是目前较为流行的编码技术,其原理是将一条由n种元素组成的长度为m的文字序列构建为一个n*m的矩阵,其中把每种元素转化成n维的标准正交基向量填充至m长度中的对应位置。人类体内最常见的氨基酸一共有20种,然而在实际测序过程中,部分蛋白质序列中存在目前还未确定的氨基酸,在序列中通常以X表示。因此,以蛋白质序列来说,独热编码会对序列中的氨基酸进行逐一编码,每个氨基酸都会输出一个21维向量,向量中对应氨基酸的位置会被设为“1”,其它所有位置的元素都为“0”。这样对于一个长度为L的氨基酸序列,得到的独热编码特征是一个L
×
21的二维矩阵。编码效果如图1所示。
[0010]上述方法构建的初始特征矩阵虽然对提取特征有帮助,但由于任意两个氨基酸向量乘积为0,完全忽略了氨基酸之间的相关性,所以使用进化信息得到的位置特异性得分矩阵可能会更好的表达序列信息。我们使用本地化局部序列比对工具(Basic Local Alignment Search Tool,BLAST)获得蛋白质序列的同源性图谱。对于每条目标氨基酸序列,我们进行迭代次数为3且敏感度阈值为0.001的同源比对。比对完成后,序列中的每个氨基酸字符会输出20个得分,从而得到一个20维矢量的PSSM。这样对于一个长度为L的氨基酸序列,得到的位置特异性得分矩阵是一个L
×
20的二维矩阵。
[0011]近年来,分布式表征技术在自然语言处理领域得到了迅速的发展。分布式表征技术使用稠密向量表示文本序列,可以一定程度上描述文本之间的语义距离。对于蛋白质序列,由于不同的氨基酸片段往往有着不同的生物学功能,因此对序列语义信息的描述也极为重要。本专利所采用的语义特征为微调后的ProtBERT模型从目标序列中抽取出的分布式特征。ProtBERT是一种基于BERT的深度无监督的氨基酸序列语言模型,它在原始BERT的基础上增加了层数,并在UniRef100蛋白质序列数据集上完成预训练。与基于卷积神经网络的模型和基于循环神经网络的模型相比,ProtBERT使用自注意力机制对序列中的每个字符与并行的其他序列字符相比较,从而扩大了全局感受野,能够更有效的捕捉全局上下文信息。具体来说,对于长度为L的序列,首先使用ProtBERT模型提取语义层级的特征,得到大小为L
×
1024的特征矩阵。然后,使用主元比例为95%的主成分分析模型对语义特征进行降维,最后得到大小为L
×
292的特征矩阵。
[0012]此外,根据氨基酸的理学性质,可将具有共同特性的氨基酸归为一组。根据理化性质的不同,可将氨基酸分为10类,包括:Polar(NQSDECTKRHYW),Positive(KHR),Negative(DE),Charged(KHRDE),Hydrophobic(AGCTIVLKHFYWM),Aliphatic(IVL),Aromatic(FYWH),Small(PNDTCAGSV),Tiny(ASGC)以及Proline(P)。特别地,一种氨基酸可以同时拥有多个理化性质,如残基A,它同时拥有:Hydrophobic、Aliphatic、Small和Tiny等性质。为此,需要设
计一个10维向量(由0/1组成)来表示每个氨基酸的理化性质。具体来说,若氨基酸具有某个理化性质,则该10维向量对应位置的值设为1,反之设为0。最终,对于长度为L的氨基酸序列,将得到大小为L
×
10的特征矩阵。
[0013]该部分的具体步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多视角多尺度多注意力机制的蛋白质功能预测方法,其特征在于,步骤如下:第一步:使用独热编码技术将原始蛋白质序列编码为数值矩阵,作为初始蛋白质序列特征X1;第二步:使用BLAST获取原始蛋白质序列的序列相似性图谱,并使用Sigmoid函数对图谱中元素进行归一化,得到蛋白质进化信息初始特征X2;第三步:使用微调后的ProtBERT语言模型从原始蛋白质序列中提取蛋白质语义信息初始特征X3;第四步:使用原始蛋白质序列的重叠特性编码技术得到蛋白质理化性质初始特征X4;得到初步多视角数据集D={X1,X2,X3,X4,y}第五步:利用X1,y对目标蛋白质序列进行多尺度多注意力机制分类器训练,取网络的最终输出用做目标氨基酸序列的初步预测结果第六步:利用X2,y对目标蛋白质序列进行多尺度多注意力机制分类器训练,取网络的最终输出用做目标氨基酸序列的初步预测结果第七步:利用X3,y对目标蛋白质序列进行多尺度多注意力机制分类器训练,取网络的最终输出用做目标氨基酸序列的初步预测结果第八步:利用X4,y对目标蛋白质序列进行多尺度多注意力机制分类器训练,取网络的最终输出用做目标氨基酸序列的初步预测结果得到多视角初步预测结果集D=第九步:对测试数据使用初始多视角特征构建模型构建初步多视角测试数据集第十步:使用多视角多尺度多注意力机制分类器得到多视角初步预测结果集第十步:使用多视角多尺度多注意力机制分类器得到多视角初步预测结果集第十一步:使用训练好的自适应决策网络对多视角测试初步预测结果集进行综合决策,得到多视角预测结果第十二步:使用Diamond工具获取测试集中序列与训练集中序列之间的相似度,得到基于同源性方法的预测结果第十三步:使用加权模型综合多视角预测结果和同源性方法预测结果得到最终预测结果。2.如权利要求1所述的基于多视角多尺度多注意力机制的蛋...

【专利技术属性】
技术研发人员:邓赵红王中宇吴敬未志胜王蕾王士同
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1