System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种蛋白残基接触预测方法及相关设备技术_技高网

一种蛋白残基接触预测方法及相关设备技术

技术编号:41417569 阅读:5 留言:0更新日期:2024-05-21 20:50
本发明专利技术公开了一种蛋白残基接触预测方法及相关设备,方法包括:获取待预测蛋白质的氨基酸序列的多序列比对文件,根据氨基酸序列的多序列比对文件构建输入特征,其中,输入特征包括互补的第一特征和第二特征,氨基酸序列的第一特征基于氨基酸序列的多序列比对结果的二维直接耦合特征得到,氨基酸序列的第二特征基于该氨基酸序列一维特征得到;将输入特征输入至已训练的神经网络模型,根据神经网络模型的输出结果得到待预测蛋白质的残基距离预测结果,根据残基距离预测结果得到残基接触预测结果。本发明专利技术能够提升蛋白残基接触预测的精度。

【技术实现步骤摘要】

本专利技术涉及生物学,特别涉及一种蛋白残基接触预测方法及相关设备


技术介绍

1、残基-残基接触是指在那些在序列中远离,但是在三维蛋白质结构空间中在特定距离阈值内接近的残基对,一般残基对的cβ-cβ原子之间距离小于或等于就被认为是接触的。蛋白质的接触图以二进制的形式告诉残基之间的约束条件。与接触图不同,蛋白质的距离图包含更细粒度的信息,因此提供了更多的蛋白质结构的物理约束。蛋白质接触/距离图是3d蛋白质结构的“简化”二维表示,被认为是现代蛋白质结构预测包中最重要的组成部分之一。基于氨基酸序列预测蛋白质中残基是否接触在许多生物学应用发挥着至关重要的作用,如蛋白质结构重建、蛋白质相互作用预测和蛋白质设计等。在氨基酸序列中包含了蛋白质的结构信息和进化信息,从序列出发可以挖掘出蛋白中残基之间的距离进而判断是否接触。然而,现有的残基接触预测方法通常采用局部策略,即一个残基对在统计上独立于其他残差对,残基接触预测的精度不高。

2、因此,现有技术还有待改进和提高。


技术实现思路

1、针对现有技术的上述缺陷,本专利技术提供一种蛋白残基接触预测方法及相关设备,旨在解决现有技术中残基接触预测精度不高的问题。

2、为了解决上述技术问题,本专利技术所采用的技术方案如下:

3、本专利技术的第一方面,提供一种蛋白残基接触预测方法,所述方法包括:

4、获取待预测蛋白质的氨基酸序列的多序列比对文件,根据所述多序列比对文件构建输入特征,其中,所述输入特征包括互补的第一特征和第二特征,氨基酸序列的所述第一特征基于该氨基酸序列的多序列比对结果的二维直接耦合特征得到,氨基酸序列的所述第二特征基于该氨基酸序列的一维特征得到;

5、将所述输入特征输入至已训练的神经网络模型,根据所述神经网络模型的输出结果得到所述待预测蛋白质的残基距离预测结果,根据所述残基距离预测结果得到残基接触预测结果。

6、所述的蛋白残基接触预测方法,其中,所述多序列比对文件包括第一序列文件和第二序列文件;所述获取待预测蛋白质的氨基酸序列的多序列比对文件,包括:

7、依照所述待预测蛋白质的氨基酸序列查找序列数据库,生成初始多序列比对文件;

8、将所述初始多序列比对文件中同一性高于预设阈值的文件保留,作为所述第一序列文件;

9、将所述第一序列文件中序列一致度排序结果中的前n个序列作为所述第二序列文件,其中,n为正整数。

10、所述的蛋白残基接触预测方法,其中,氨基酸序列的第一特征包括该氨基酸序列的独热编码、位置特异性打分矩阵、位置熵、该氨基酸序列考虑两个残基的多序列比对的二维耦合特征;氨基酸序列的第二特征包括该氨基酸序列的独热编码、位置特异性打分矩阵、隐马尔科夫模型特征谱剖面、互信息、二级结构、溶剂可及表面积、统计配对接触电位。

11、所述的蛋白残基接触预测方法,其中,所述神经网络模型包括至少一个第一模型和至少一个第二模型;所述第一模型的输入为所述第一特征,所述第二模型的输入为所述第二特征;所述根据所述神经网络模型的输出结果得到所述待预测蛋白质的残基距离预测结果,包括:

12、对各个所述第一模型和各个所述第二模型的输出结果进行加权求和得到所述待预测蛋白质的残基距离预测结果;

13、其中,每个所述神经网络模型的输出层采用回归思想预测真实距离图谱,所述神经网络模型的输出结果为二维实数矩阵。

14、所述的蛋白残基接触预测方法,其中,所述第一模型的数量为2,2个所述第一模型的输入分别为第一输入数据和第二输入数据,所述第一输入数据为基于所述第一序列文件生成的所述第一特征,所述第二输入数据为基于部分所述第二序列文件生成的第一特征。

15、所述的蛋白残基接触预测方法,其中,所述第二模型的数量为3,3个所述第二模型的输入分别为第三输入数据、第四输入数据和第五输入数据,所述第三输入数据为根据所述第一序列文件生成的所述第二特征,所述第四输入数据为随机选择所述第二序列文件中的文件生成的所述第二特征,所述第五输入数据为随机选择所述第二序列文件中的文件的所述第二特征,其中,所述第四输入数据和所述第五输入数据采用的所述第二序列文件互斥。

16、所述的蛋白残基接触预测方法,其中,各个所述神经网络模型的训练过程中,采用的损失计算公式为:

17、

18、其中,loss表示模型训练损失,wij表示权重,yij表示输入的样本蛋白质中第i个氨基酸和第j个氨基酸之间的距离标签,表示模型输出的样本蛋白质中第i个氨基酸和第j个氨基酸之间的距离预测结果,n表示样本蛋白质的氨基酸数量。

19、本专利技术的第二方面,提供一种蛋白残基接触预测装置,包括:

20、特征提取模块,用于获取待预测蛋白质的氨基酸序列的多序列比对文件,根据所述多序列比对文件构建输入特征,其中,所述输入特征包括互补的第一特征和第二特征,氨基酸序列的所述第一特征基于该氨基酸序列的多序列比对结果的二维直接耦合特征得到,氨基酸序列的所述第二特征基于该氨基酸序列的一维特征得到;

21、预测模块,用于将所述输入特征输入至已训练的神经网络模型,根据所述神经网络模型的输出结果得到所述待预测蛋白质的残基距离预测结果,根据所述残基距离预测结果得到残基接触预测结果。

22、本专利技术的第三方面,提供一种终端,所述终端包括处理器、与处理器通信连接的计算机可读存储介质,所述计算机可读存储介质适于存储多条指令,所述处理器适于调用所述计算机可读存储介质中的指令,以执行实现上述任一项所述的蛋白残基接触预测方法的步骤。

23、本专利技术的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的蛋白残基接触预测方法的步骤。

24、与现有技术相比,本专利技术提供了一种蛋白残基接触预测方法,将蛋白质的氨基酸序列的两种类型的特征作为神经网络的输入,两种特征的预测结果可以实现互补,并且相对于现有的是否接触的二进制值的接触预测结果,本专利技术中神经网络输出的是残基距离预测结果,能够提升蛋白残基接触预测的精度。

本文档来自技高网...

【技术保护点】

1.一种蛋白残基接触预测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的蛋白残基接触预测方法,其特征在于,所述多序列比对文件包括第一序列文件和第二序列文件;所述获取待预测蛋白质的氨基酸序列的多序列比对文件,包括:

3.根据权利要求1所述的蛋白残基接触预测方法,其特征在于,氨基酸序列的第一特征包括该氨基酸序列的独热编码、位置特异性打分矩阵、位置熵、该氨基酸序列考虑两个残基的多序列比对的二维耦合特征;氨基酸序列的第二特征包括该氨基酸序列的独热编码、位置特异性打分矩阵、隐马尔科夫模型特征谱剖面、互信息、二级结构、溶剂可及表面积、统计配对接触电位。

4.根据权利要求1所述的蛋白残基接触预测方法,其特征在于,所述神经网络模型包括至少一个第一模型和至少一个第二模型;所述第一模型的输入为所述第一特征,所述第二模型的输入为所述第二特征;所述根据所述神经网络模型的输出结果得到所述待预测蛋白质的残基距离预测结果,包括:

5.根据权利要求4所述的蛋白残基接触预测方法,其特征在于,所述第一模型的数量为2,2个所述第一模型的输入分别为第一输入数据和第二输入数据,所述第一输入数据为基于所述第一序列文件生成的所述第一特征,所述第二输入数据为基于部分所述第二序列文件生成的第一特征。

6.根据权利要求4所述的蛋白残基接触预测方法,其特征在于,所述第二模型的数量为3,3个所述第二模型的输入分别为第三输入数据、第四输入数据和第五输入数据,所述第三输入数据为根据所述第一序列文件生成的所述第二特征,所述第四输入数据为随机选择所述第二序列文件中的文件生成的所述第二特征,所述第五输入数据为随机选择所述第二序列文件中的文件的所述第二特征,其中,所述第四输入数据和所述第五输入数据采用的所述第二序列文件互斥。

7.根据权利要求4所述的蛋白残基接触预测方法,其特征在于,各个所述神经网络模型的训练过程中,采用的损失计算公式为:

8.一种蛋白残基接触预测装置,其特征在于,包括:

9.一种终端,其特征在于,所述终端包括:处理器、与处理器通信连接的计算机可读存储介质,所述计算机可读存储介质适于存储多条指令,所述处理器适于调用所述计算机可读存储介质中的指令,以执行实现上述权利要求1-7任一项所述的蛋白残基接触预测方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7任一项所述的蛋白残基接触预测方法的步骤。

...

【技术特征摘要】

1.一种蛋白残基接触预测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的蛋白残基接触预测方法,其特征在于,所述多序列比对文件包括第一序列文件和第二序列文件;所述获取待预测蛋白质的氨基酸序列的多序列比对文件,包括:

3.根据权利要求1所述的蛋白残基接触预测方法,其特征在于,氨基酸序列的第一特征包括该氨基酸序列的独热编码、位置特异性打分矩阵、位置熵、该氨基酸序列考虑两个残基的多序列比对的二维耦合特征;氨基酸序列的第二特征包括该氨基酸序列的独热编码、位置特异性打分矩阵、隐马尔科夫模型特征谱剖面、互信息、二级结构、溶剂可及表面积、统计配对接触电位。

4.根据权利要求1所述的蛋白残基接触预测方法,其特征在于,所述神经网络模型包括至少一个第一模型和至少一个第二模型;所述第一模型的输入为所述第一特征,所述第二模型的输入为所述第二特征;所述根据所述神经网络模型的输出结果得到所述待预测蛋白质的残基距离预测结果,包括:

5.根据权利要求4所述的蛋白残基接触预测方法,其特征在于,所述第一模型的数量为2,2个所述第一模型的输入分别为第一输入数据和第二输入数据,所述第一输入数据为基于所述第一序列文件生成的所述第一特征,所述第二输入数据为基于部分所述第二序列文...

【专利技术属性】
技术研发人员:黄莹张慧玲郗文辉魏彦杰
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1