一种基于深度神经网络的蛋白质二级结构预测方法技术

技术编号：13675390 阅读：127 留言：0更新日期：2016-09-08 01:05

本发明专利技术公开了一种基于深度学习及神经网络方法的蛋白质二级结构预测方法，本发明专利技术涉及神经网络及蛋白质二级结构预测技术领域。该方法以蛋白质特征序列为输入，通过设计的深度回复式神经网络模型，预测序列各个位点氨基酸残基的空间二级结构。本发明专利技术实现了基于输入特征的二级结构自动预测，具有很好的泛化能力，能够根据不同输入特征训练特定模型并实现高准确度的二级结构预测。

全部详细技术资料下载

【技术实现步骤摘要】
技术邻域本专利技术涉及特征学习、神经网络、深度学习、蛋白质结构预测和序列学习等领域，具体涉及一种基于深度神经网络的蛋白质二级结构预测方法。
技术介绍
蛋白质结构预测问题是计算生物学的重要研究问题之一，其能够发现蛋白质序列结构和其功能间的复杂关系，其中二级结构预测问题又是各种更高级结构预测问题的基础。通过准确的蛋白质二级结构预测，研究者能够快速获取蛋白质序列中氨基酸残基的二级结构构象信息，如α-螺旋、β-折叠以及不规则卷曲等，这为基于序列的蛋白质结构及功能分析提供了有效的数据参考并被广泛采用。通过实验测定蛋白质结构费时费力，随着人类基因组及全基因组计划的顺利实施，海量待分析蛋白质序列数据对蛋白质二级结构预测方法提出了挑战。蛋白质二级结构预测方法研究开展较早，主要包括支撑矢量机(SVM，Support Vector Machines)方法、贝叶斯分类法、最近邻法和神经网络方法等。SVM法的基本原理是：对于分析的蛋白质输入序列，构建基于SVM的分类器对不同位点残基的输入特征进行结构分类，进而实现结构预测；贝叶斯分类法通过蛋白质序列输入特征构造贝叶斯网络进行二级结构预测，能够在一定程度上考虑蛋白质序列残基间的相互作用关系；传统神经网络方法通过多层神经网络对输入蛋白质序列进行分类预测，其收敛速度及网络参数选择十分困难。传统的蛋白质二级结构预测方法已经难以适应大数据环境下结构预测任务对计算效率及准确性的要求。
技术实现思路
针对上述技术问题，本专利技术提供一种高效的蛋白质二级结构预测方法，能更准确的预测蛋白质序列中氨基酸残基的二级结构；其旨在解决现有技术不能充分利用序列间残基信...

【技术保护点】
一种基于深度神经网络的蛋白质二级结构预测方法，其特征包括如下步骤：步骤1、获取蛋白质序列组合特征作为自编码器网络的输入，并提取出表征蛋白质序列组合特征的有效特征编码，再预训练自编码器网络；步骤2、使用预训练的自编码器网络初始化回复式深度网络前端输入层，采用反向传导算法，通过有监督学习方式训练深度回复式神经网络，所述神经网络的学习算法将蛋白质序列组合特征作为所述神经网络的输入、对应蛋白质的二级结构序列作为其目标输出，训练二级结构预测模型，训练完成后能够预测蛋白质各个残基位点的二级结构，获得蛋白质二级结构预测模型；步骤3、利用已训练的蛋白质二级结构预测模型，输入待分析蛋白质序列特征，预测待分析蛋白质各个位点残基的二级结构。

【技术特征摘要】
1.一种基于深度神经网络的蛋白质二级结构预测方法，其特征包括如下步骤：步骤1、获取蛋白质序列组合特征作为自编码器网络的输入，并提取出表征蛋白质序列组合特征的有效特征编码，再预训练自编码器网络；步骤2、使用预训练的自编码器网络初始化回复式深度网络前端输入层，采用反向传导算法，通过有监督学习方式训练深度回复式神经网络，所述神经网络的学习算法将蛋白质序列组合特征作为所述神经网络的输入、对应蛋白质的二级结构序列作为其目标输出，训练二级结构预测模型，训练完成后能够预测蛋白质各个残基位点的二级结构，获得蛋白质二级结构预测模型；步骤3、利用已训练的蛋白质二级结构预测模型，输入待分析蛋白质序列特征，预测待分析蛋白质各个位点残基的二级结构。2.根据权利要求1所述的一种基于深度神经网络的蛋白质二级结构预测方法，其特征在于，所述的步骤1，其中自编码器网络预训练提取出的有效特征编码，包括如下步骤：21)、以蛋白质序列组合特征作为自编码器网络的输入层输入，根据回复式深度网络前端输入层结构，采用逐层训练方式训练对应的多层自编码器深度神经网络；22)、自编码器网络收敛条件为：自编码器网络整体重构误差小于收敛阈值或其...

【专利技术属性】
技术研发人员：毛华，陈媛媛，罗川，汪洋旭，陈盈科，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人