基于多视角多尺度多注意力机制的蛋白质功能预测方法技术

技术编号：38133734 阅读：6 留言：0更新日期：2023-07-08 09:43

本发明专利技术属于蛋白质序列智能功能预测领域，涉及一种基于多视角多尺度多注意力机制的蛋白质功能预测方法。该方法包括训练阶段和使用阶段两部分，训练阶段初始多视角特征提取模块、多视角深度多尺度多注意力分类器学习模型和多视角自适应决策网络。初始多视角特征提取模块使用四种编码特征从蛋白质序列中提取特征，分别为基于独热编码的序列特征、基于进化信息的序列特征、基于深度语义模型的序列特征以及基于重叠理化特性编码的序列特征。本发明专利技术为每个视角设计特定的多尺度多注意力深度神经网络模型，提取深度特征并完成对蛋白质功能的初步预测。最后，引入了多视角自适应决策机制，以平衡每个视角对最终预测结果的相对重要性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
基于多视角多尺度多注意力机制的蛋白质功能预测方法

[0001]本专利技术属于智能蛋白质功能预测领域，涉及一种基于多视角多尺度多注意力机制的蛋白质功能预测方法。

技术介绍

[0002]蛋白质是生命体内的重要分子，具有多种生物学功能，在生物体内发挥着不可获取的作用。随着人们对蛋白质组学的研究愈发深入，许多蛋白质在生物调控过程中所发挥的作用被揭示。例如，蛋白质在许多疾病的发生和发展中起着重要作用，如癌症、心血管疾病和神经退行性疾病等。此外，许多药物的作用机制也涉及到蛋白质的结构和功能。因此，对蛋白质功能的研究具有重大意义，涉及生命科学、药物研发、基因工程和生物技术等多个领域。
[0003]蛋白质的功能是一个多方面的概念，通常被用来描述目标蛋白质在生物体内部的生化反应、细胞活动和生物表现型等场景下所发挥的作用。后基因组时代，随着序列基因组学项目识别的蛋白质数量的爆炸式增长，早期基于定量生化实验验证的蛋白质功能预测的方法已经无法满足需求。然而，随着序列基因组项目识别的蛋白质数量的爆炸式增长，通过实验来验证蛋白质的功能已经远远不能满足序列数量日益增长的实际需求。研究发现，计算方法可以通过蛋白质的序列、结构、基因表达谱、蛋白质
‑
蛋白质相关作用网络、组学数据以及已知功能蛋白质的功能信息等数据推断目标蛋白质的功能。因此寻找能够从蛋白质数据中挖掘功能信息的智能方法成为蛋白质组学研究的一个很重要的研究方向。
[0004]现在有很多方法可以利用机器学习模型从蛋白质序列中预测蛋白质功能，但大多局限于能够获取...

【技术保护点】

【技术特征摘要】
1.基于多视角多尺度多注意力机制的蛋白质功能预测方法，其特征在于，步骤如下：第一步：使用独热编码技术将原始蛋白质序列编码为数值矩阵，作为初始蛋白质序列特征X1；第二步：使用BLAST获取原始蛋白质序列的序列相似性图谱，并使用Sigmoid函数对图谱中元素进行归一化，得到蛋白质进化信息初始特征X2；第三步：使用微调后的ProtBERT语言模型从原始蛋白质序列中提取蛋白质语义信息初始特征X3；第四步：使用原始蛋白质序列的重叠特性编码技术得到蛋白质理化性质初始特征X4；得到初步多视角数据集D＝{X1,X2,X3,X4,y}第五步：利用X1，y对目标蛋白质序列进行多尺度多注意力机制分类器训练，取网络的最终输出用做目标氨基酸序列的初步预测结果第六步：利用X2，y对目标蛋白质序列进行多尺度多注意力机制分类器训练，取网络的最终输出用做目标氨基酸序列的初步预测结果第七步：利用X3，y对目标蛋白质序列进行多尺度多注意力机制分类器训练，取网络的最终输出用做目标氨基酸序列的初步预测结果第八步：利用X4，y对目标蛋白质序列进行多尺度多注意力机制分类器训练，取网络的最终输出用做目标氨基酸序列的初步预测结果得到多视角初步预测结果集D＝第九步：对测试数据使用初始多视角特征构建模型构建初步多视角测试数据集第十步：使用多视角多尺度多注意力机制分类器得到多视角初步预测结果集第十步：使用多视角多尺度多注意力机制分类器得到多视角初步预测结果集第十一步：使用训练好的自适应决策网络对多视角测试初步预测结果集进行综合决策，得到多视角预测结果第十二步：使用Diamond工具获取测试集中序列与训练集中序列之间的相似度，得到基于同源性方法的预测结果第十三步：使用加权模型综合多视角预测结果和同源性方法预测结果得到最终预测结果。2.如权利要求1所述的基于多视角多尺度多注意力机制的蛋...

【专利技术属性】
技术研发人员：邓赵红，王中宇，吴敬，未志胜，王蕾，王士同，
申请(专利权)人：江南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人