一种融合特征的深度学习网络的蛋白质SNO位点预测方法技术

技术编号：41225114 阅读：4 留言：0更新日期：2024-05-09 23:43

本发明专利技术公开了一种融合特征的深度学习网络的蛋白质SNO位点预测方法，涉及蛋白质SNO位点识别技术领域，包括对蛋白质SNO修饰序列数据收集和预处理；通过数据集获取蛋白质接触图并转换为矩阵表示，使用预训练模型计算蛋白质的高维特征表示；构建第一路深度学习通道和第二路深度学习通道，融合双路深度学习通道计算蛋白质SNO修饰位点的预测概率，对结果进行分析评估。本发明专利技术所述方法通过数据集获取蛋白质接触图并转换为矩阵表示，使用预训练模型计算蛋白质的高维特征表示，提高对蛋白质性质和功能的预测能力；通过融合蛋白质图表征信息和上下文语义信息，能够更全面地描述蛋白质的特征，提高对蛋白质性质和功能的理解和预测能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及蛋白质sno位点识别，具体为一种融合特征的深度学习网络的蛋白质sno位点预测方法。

技术介绍

1、s-亚硝基化修饰是指一氧化氮与蛋白质中的半胱氨酸残基结合形成s-亚硝基半胱氨酸，这种修饰过程广泛存在于生物体，并且主要在细胞中发生，由于一氧化氮是一种强大的生物活性分子，在许多生理和病理过程中发挥着重要作用，所以由一氧化氮与蛋白质中半胱氨酸残基结合形成的sno修饰是一种尤为重要的生物过程，可以通过改变蛋白质的结构和功能来影响细胞信号传导、代谢途径等生物过程，研究表明，多种生物学过程与蛋白质sno修饰有关，如细胞周期调控、抗炎性形成和抗氧化应激等，已证实sno在植物免疫调节、细胞衰老、糖尿病等生理病理方面发挥着关键作用，了解蛋白质sno修饰机制和功能对于深入了解一氧化氮的信号传导、疾病机制以及加快推进相关疾病的研究进程具有重要意义，在过去的研究中，蛋白质中sno位点的预测主要依靠质谱、突变实验等技术，然而，传统预测sno的实验方法通常需要花费高昂的仪器成本，并且通常由人工操作，耗时耗力且无法高通量、大规模的进行sno预测，因此，需要探寻开发准确且高效的计算方法以辅助研究人员在设计实验时更加高效地筛选和鉴定潜在的sno修饰位点，从而提高实验的效率和准确性，近年来，深度学习技术在蛋白质sno位点预测中取得了显著的进展，通过对大量人类目前已知的sno位点数据的训练学习，深度学习模型可以学习到蛋白质序列中与sno位点相关的复杂特征表示以及潜在形成模式，尽管深度学习方法在蛋白质sno修饰预测中已经取得了显著进展，但仍然存在一些困难

技术实现思路

1、鉴于上述存在的问题，提出了本专利技术。

2、因此，本专利技术解决的技术问题是：现有的蛋白质sno位点识别方法存在效率低，准确性低，泛化能力低，以及如何充分捕捉蛋白质序列中的图表征信息、语义和上下文信息进行蛋白质sno位点的预测的问题。

3、为解决上述技术问题，本专利技术提供如下技术方案：一种融合特征的深度学习网络的蛋白质sno位点预测方法，包括对蛋白质sno修饰序列数据收集和预处理；通过数据集获取蛋白质接触图并转换为矩阵表示，使用预训练模型计算蛋白质的高维特征表示；构建第一路深度学习通道和第二路深度学习通道，融合双路深度学习通道计算蛋白质sno修饰位点的预测概率，对结果进行分析评估。

4、作为本专利技术所述的融合特征的深度学习网络的蛋白质sno位点预测方法的一种优选方案，其中：所述对蛋白质sno修饰序列数据收集和预处理包括采集蛋白质sno修饰序列的数据集，采用cd-hit去重软件，保留阈值设定为30％，相似度大于70％的序列被移除。

5、作为本专利技术所述的融合特征的深度学习网络的蛋白质sno位点预测方法的一种优选方案，其中：所述获取蛋白质接触图并转换为矩阵表示包括从数据集中获取蛋白质序列，基于深度学习的蛋白质结构预测方法alphafold，生成蛋白质结构预测，alphafold的输出结果为一个包含蛋白质的结构预测信息的文件，文件为pdb格式，通过python库pycontact，计算和分析蛋白质间的接触图，通过将alphafold生成的保存蛋白质结构信息的pdb文件输入pycontact，计算并获取蛋白质的接触图信息，接触图信息包括蛋白质中不同氨基酸间的接触情况，描述蛋白质的结构特征和功能，计算蛋白质接触图矩阵a表示为：

6、

7、其中，cl,l为接触图矩阵中的l行和l列对应蛋白质的残基，l为蛋白质序列的长度，cl,l的数值表示两个残基间的接触关系；当cl,l残基数值为1时，接触关系为接触，蛋白质中第l个和第l个氨基酸存在接触关系；当cl,l残基数值为0时，接触关系为非接触，蛋白质中第l个和第l个氨基酸不存在接触关系。

8、作为本专利技术所述的融合特征的深度学习网络的蛋白质sno位点预测方法的一种优选方案，其中：所述计算蛋白质的高维特征表示包括基于蛋白质接触图的矩阵，使用预训练模型计算蛋白质的高维特征表示，预训练模型通过在蛋白质序列和结构数据上进行训练，提供对蛋白质特征的预测和编码，基于prot-t5和esm-2预训练模型分别对蛋白质进行特征编码，使用prot-t5获得的蛋白质特征向量为l*1024维，使用esm-2获得的蛋白质特征向量为l*1024维，计算prot-t5和esm-2特征向量，表示为：

9、

10、

11、其中，pl,1024为prot-t5第l行第1024列的特征，el,1024为esm-2的第l行第1024列的特征。

12、作为本专利技术所述的融合特征的深度学习网络的蛋白质sno位点预测方法的一种优选方案，其中：所述构建第一路深度学习通道和第二路深度学习通道包括构建第一路深度学习通道时，将蛋白质的接触图数据转换为图结构，每个氨基酸为图中的节点，接触关系为节点间的边，计算图g表示为：

13、g＝(v,b)

14、其中，v为节点的集合，b为边的集合，v集合中包括的节点对应蛋白质的氨基酸位点，b集合包括的边对应氨基酸接触关系，定义图卷积神经网络模型gcn包括图卷积层和非线性激活函数，将图数据和蛋白质接触图矩阵输入到图卷积神经网络模型中，进行图卷积操作，在每个图卷积层中，节点基于邻居节点的特征进行信息传播和更新，通过图卷积层计算具有上下文感知的节点特征表示，图卷积的计算包括对于维度为l*l的蛋白质接触图矩阵，一共包括l个节点，每个节点中h(l)表示节点在l层的特征向量矩阵，h(l+1)表示节点经过一次卷积操作后的特征向量矩阵，表示为：

15、

16、其中，a为蛋白质接触图矩阵，为修改后的蛋白质接触图矩阵，i为单位矩阵，σ为relu非线性激活函数，w(l)为l层图卷积计算时的参数矩阵，为的度矩阵，表示为：

17、

18、在图卷积神经网络的输出结果上使用自注意力机制计算，自注意力机制使用注意力权重加权聚合图中每个节点的特征，注意力权重通过节点间的相互作用和相似性进行计算，动态地对不同节点的特征进行加权，捕捉图表征信息，自注意力机制selfattention的计算表示为：

19、

20、其中，q＝k＝v均为图神经网络计算后的输出特征向量，kt表示k的转置向量，softmax为归一化函数，dk为特征向量的维度；构建第二路深度学习通道时，基于预训练获得蛋白质的预训练特征表示，构建长短期记忆神经网络模型lstm，lstm包括长短期记忆神经层处理蛋白质预训练特征表示，lstm网络包括遗忘门、输入门、输出门；计算遗忘门表示为：<本文档来自技高网...

【技术保护点】

1.一种融合特征的深度学习网络的蛋白质SNO位点预测方法，其特征在于，包括：

2.如权利要求1所述的融合特征的深度学习网络的蛋白质SNO位点预测方法，其特征在于：所述对蛋白质SNO修饰序列数据收集和预处理包括采集蛋白质SNO修饰序列的数据集，采用CD-HIT去重软件，保留阈值设定为30％，相似度大于70％的序列被移除。

3.如权利要求2所述的融合特征的深度学习网络的蛋白质SNO位点预测方法，其特征在于：所述获取蛋白质接触图并转换为矩阵表示包括从数据集中获取蛋白质序列，基于深度学习的蛋白质结构预测方法AlphaFold，生成蛋白质结构预测，AlphaFold的输出结果为一个包含蛋白质的结构预测信息的文件，文件为PDB格式，通过Python库PyContact，计算和分析蛋白质间的接触图，通过将AlphaFold生成的保存蛋白质结构信息的PDB文件输入PyContact，计算并获取蛋白质的接触图信息，接触图信息包括蛋白质中不同氨基酸间的接触情况，描述蛋白质的结构特征和功能，计算蛋白质接触图矩阵A表示为：

4.如权利要求3所述的融合特征的深度学习网络

5.如权利要求4所述的融合特征的深度学习网络的蛋白质SNO位点预测方法，其特征在于：所述构建第一路深度学习通道和第二路深度学习通道包括构建第一路深度学习通道时，将蛋白质的接触图数据转换为图结构，每个氨基酸为图中的节点，接触关系为节点间的边，计算图G表示为：

6.如权利要求5所述的融合特征的深度学习网络的蛋白质SNO位点预测方法，其特征在于：所述计算蛋白质SNO修饰位点的预测概率包括基于第一路深度学习通道和第二路深度学习通道，融合双路深度学习通道计算蛋白质SNO修饰位点的预测概率，使用多头注意力机制，基于两个通道的数据自适应地给予不同的权重，将加权的数据融合，通过输入数据的重要性动态地调整不同通道数据的贡献，调整蛋白质结构的图表征信息和蛋白质序列的上下文语义信息的权重，多头注意力机制计算表示为：

7.如权利要求6所述的融合特征的深度学习网络的蛋白质SNO位点预测方法，其特征在于：所述对结果进行分析评估包括在测试集上计算评价指标进行比较；

8.一种采用如权利要求1～7任一所述的融合特征的深度学习网络的蛋白质SNO位点预测方法的系统，其特征在于：包括数据处理模块，特征表示计算模块，分析评估模块；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的融合特征的深度学习网络的蛋白质SNO位点预测方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的融合特征的深度学习网络的蛋白质SNO位点预测方法的步骤。

...

【技术特征摘要】

1.一种融合特征的深度学习网络的蛋白质sno位点预测方法，其特征在于，包括：

2.如权利要求1所述的融合特征的深度学习网络的蛋白质sno位点预测方法，其特征在于：所述对蛋白质sno修饰序列数据收集和预处理包括采集蛋白质sno修饰序列的数据集，采用cd-hit去重软件，保留阈值设定为30％，相似度大于70％的序列被移除。

3.如权利要求2所述的融合特征的深度学习网络的蛋白质sno位点预测方法，其特征在于：所述获取蛋白质接触图并转换为矩阵表示包括从数据集中获取蛋白质序列，基于深度学习的蛋白质结构预测方法alphafold，生成蛋白质结构预测，alphafold的输出结果为一个包含蛋白质的结构预测信息的文件，文件为pdb格式，通过python库pycontact，计算和分析蛋白质间的接触图，通过将alphafold生成的保存蛋白质结构信息的pdb文件输入pycontact，计算并获取蛋白质的接触图信息，接触图信息包括蛋白质中不同氨基酸间的接触情况，描述蛋白质的结构特征和功能，计算蛋白质接触图矩阵a表示为：

4.如权利要求3所述的融合特征的深度学习网络的蛋白质sno位点预测方法，其特征在于：所述计算蛋白质的高维特征表示包括基于蛋白质接触图的矩阵，使用预训练模型计算蛋白质的高维特征表示，预训练模型通过在蛋白质序列和结构数据上进行训练，提供对蛋白质特征的预测和编码，基于prot-t5和esm-2预训练模型分别对蛋白质进行特征编码，使用prot-t5获得的蛋白质特征向量为l*1024维，使用esm-2获得的蛋白质特征向量为l*1024维，计算prot-t5和esm-2特征向量，表示为：

5...

【专利技术属性】
技术研发人员：杨森，杨泽熙，卢嘉毅，倪嘉琦，聂琪，陈宏，
申请(专利权)人：常州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人