当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于深度神经网络的蛋白质二级结构预测方法技术

技术编号:13675390 阅读:127 留言:0更新日期:2016-09-08 01:05
本发明专利技术公开了一种基于深度学习及神经网络方法的蛋白质二级结构预测方法,本发明专利技术涉及神经网络及蛋白质二级结构预测技术领域。该方法以蛋白质特征序列为输入,通过设计的深度回复式神经网络模型,预测序列各个位点氨基酸残基的空间二级结构。本发明专利技术实现了基于输入特征的二级结构自动预测,具有很好的泛化能力,能够根据不同输入特征训练特定模型并实现高准确度的二级结构预测。

【技术实现步骤摘要】
技术邻域本专利技术涉及特征学习、神经网络、深度学习、蛋白质结构预测和序列学习等领域,具体涉及一种基于深度神经网络的蛋白质二级结构预测方法
技术介绍
蛋白质结构预测问题是计算生物学的重要研究问题之一,其能够发现蛋白质序列结构和其功能间的复杂关系,其中二级结构预测问题又是各种更高级结构预测问题的基础。通过准确的蛋白质二级结构预测,研究者能够快速获取蛋白质序列中氨基酸残基的二级结构构象信息,如α-螺旋、β-折叠以及不规则卷曲等,这为基于序列的蛋白质结构及功能分析提供了有效的数据参考并被广泛采用。通过实验测定蛋白质结构费时费力,随着人类基因组及全基因组计划的顺利实施,海量待分析蛋白质序列数据对蛋白质二级结构预测方法提出了挑战。蛋白质二级结构预测方法研究开展较早,主要包括支撑矢量机(SVM,Support Vector Machines)方法、贝叶斯分类法、最近邻法和神经网络方法等。SVM法的基本原理是:对于分析的蛋白质输入序列,构建基于SVM的分类器对不同位点残基的输入特征进行结构分类,进而实现结构预测;贝叶斯分类法通过蛋白质序列输入特征构造贝叶斯网络进行二级结构预测,能够在一定程度上考虑蛋白质序列残基间的相互作用关系;传统神经网络方法通过多层神经网络对输入蛋白质序列进行分类预测,其收敛速度及网络参数选择十分困难。传统的蛋白质二级结构预测方法已经难以适应大数据环境下结构预测任务对计算效率及准确性的要求。
技术实现思路
针对上述技术问题,本专利技术提供一种高效的蛋白质二级结构预测方法,能更准确的预测蛋白质序列中氨基酸残基的二级结构;其旨在解决现有技术不能充分利用序列间残基信息,不能符合大数据环境系结构预测任务对计算效率及准确性的要求,选择收敛速度及网络参数困难且可靠性差等技术问题。本专利技术采用如下技术方案:基于深度神经网络的蛋白质二级结构预测方法,包括如下步骤:步骤1、获取蛋白质序列组合特征作为自编码器网络的输入,提取出表征蛋
白质序列组合特征的有效特征编码,再训练自编码器网络;步骤2、使用预训练的自编码器网络初始化回复式深度网络前端输入层,采用反向传导算法,通过有监督学习方式训练深度回复式神经网络,所述神经网络的学习算法将蛋白质序列组合特征作为所述神经网络的输入、对应蛋白质的二级结构序列作为其目标输出,训练二级结构预测模型。训练完成后能够预测蛋白质各个残基位点的二级结构,获得蛋白质二级结构预测模型;步骤3、利用已训练的蛋白质二级结构预测模型,输入待分析蛋白质序列特征,预测待分析蛋白质各个位点残基的二级结构。上述方法中,所述的步骤1,其中自编码器网络预训练提取出的有效特征编码,包括如下步骤:21)、以蛋白质序列组合特征作为自编码器网络的输入层输入,采用逐层训练方式训练多层自编码器深度神经网络;22)、定义自编码器网络收敛条件是自编码器网络整体重构误差小于收敛阈值或其达到最大训练迭代次数,当自编码器网络收敛后,固定自编码器网络权值并截取编码器网络的部分网络进行特征表达,获得有效特征编码。上述方法中,所述的步骤2包括如下步骤:31)、初始化深度回复式神经网络参数;32)、根据有效特征编码和反向传导算法,通过有监督学习方式,循环训练深度回复式神经网络,其网络输入为蛋白质序列组合特征、目标输出为残基位点的真实二级结构且输出为网络预测对应蛋白质各个残基位点的二级结构,并在循环训练后不断更新深度回复式神经网络参数;33)、定义深度回复式神经网络收敛条件是深度回复式神经网络整体重构误差小于收敛阈值或其达到最大训练迭代次数,当深度回复式神经网络收敛后,选取最优的深度回复式神经网络参数,从而获得蛋白质二级结构预测模型。上述方法中,所述的步骤3,具体包括如下步骤:41)、将待分析蛋白质序列组合特征作为网络输入,利用步骤33),由蛋白质二级结构预测模型进行前向计算,获得输出结果;42)、根据输出结果,预测蛋白质序列各残基位点二级结构。与现有技术相比,本专利技术具有以下有益效果:利用深度学习技术强大学习能力提高了蛋白质二级结构预测的效率和准确率;采取双向回复式神经网络结构,充分利用序列间残基相互左右关系,提高预测可靠性;采用端到端模型训练方式以及mu lt itask模型,增强系统鲁棒性;蛋白质序列特征隐含大量结构和功能信息,对其准确的建模、分析及预测需要强大的算法和计算能力。深度学习技术在大数据分析处理方面取得了巨大成功,具有强大的学习能力和运算效率,适合处理蛋白质二级结构预测任务;蛋白质序列残基间存在大量隐式作用影响其二级结构,传统的二级结构预测方法对序列信息的处理能力有限,预测时无法较好的利用序列残基间信息,致使预测结果不尽人意。双向回复式神经网络技术具有很强的序列学习及处理能力,能够较好的利用序列间相互依赖关系提高模型预测可靠性;采用最新的端到端模型以及回复式结构处理二级结构预测问题,构建完整的机器学习系统,一方面便于预测模型方法的实际应用,另一方面减少人工干预带来的参数选择困难等问题。同时,多任务学习模式有助于提高系统鲁棒性。附图说明图1为自编码网络示意图;图2为二级结构预测深度网络结构图;图3为双向回复式GRU网络示意图;图4为GRU神经元结构图;图5为网络学习算法图;图6为本方法预测流程图。具体实施方式下面将结合附图及具体实施方式对本专利技术作进一步的描述。实施例1基于深度神经网络的蛋白质二级结构预测方法,包括如下步骤:步骤1、模型训练阶段,其包括:获取蛋白质序列组合特征,位置特异性得分矩阵(PSSM,position-specific scoring matrics),物化等特征作为输入,训练自编码器网络以提取有效特征;以独立训练集蛋白质序列组合特征作为输入,对应二级结构序列作为目标,通过有监督学习方式训练深度回复式神经网络以预测各个残基位点的二级结构。步骤2、预测阶段,其包括:输入蛋白质序列特征,预测各个位点残基二级结构。上述技术方案中,步骤1中特征提取自编码器预训练过程,包括以下步骤:11)、首先随机选取训练集中蛋白质序列若干氨基酸位点残基组合特征构成自编码器训练集A,其包含M个氨基酸残基位点,特征维度为N。12)、单一的自编码器为一个三层对称神经网络,其输入和输入层维度相同。训练时,其输入和目标输出相同,采用平方误差性能函数训练至网络收敛。采用基于反向传导算法(BP,Back propagation Algorithm)的逐层训练算法训练多个自编码器并栈式连接组成自编码网络,该网络为一个多层深度神经网络,如图1所示。预训练自编码器网络用于输入蛋白质组合特征的初步特征提取,网络参数用于其后深度回复式网络中对应层的参数初始化过程。上述技术方案中,步骤1中训练深度回复式神经网络,包括如下步骤:13)、定义网络结构,如图2所示。网络中稀疏自动编码(SAE,Sparse Auto Encoder)部分参数由12)中预训练网络初始化权值用于初步特征提取。网络整体包含多层双向回复式GRU层、全连接层以及输出层。其中,双向的门限循环单元(GRU,Gated Recurrent Unit)层结构如图3所示;GRU神经元结构如图4所示。其计算方式如下: z t j = &sig本文档来自技高网
...

【技术保护点】
一种基于深度神经网络的蛋白质二级结构预测方法,其特征包括如下步骤:步骤1、获取蛋白质序列组合特征作为自编码器网络的输入,并提取出表征蛋白质序列组合特征的有效特征编码,再预训练自编码器网络;步骤2、使用预训练的自编码器网络初始化回复式深度网络前端输入层,采用反向传导算法,通过有监督学习方式训练深度回复式神经网络,所述神经网络的学习算法将蛋白质序列组合特征作为所述神经网络的输入、对应蛋白质的二级结构序列作为其目标输出,训练二级结构预测模型,训练完成后能够预测蛋白质各个残基位点的二级结构,获得蛋白质二级结构预测模型;步骤3、利用已训练的蛋白质二级结构预测模型,输入待分析蛋白质序列特征,预测待分析蛋白质各个位点残基的二级结构。

【技术特征摘要】
1.一种基于深度神经网络的蛋白质二级结构预测方法,其特征包括如下步骤:步骤1、获取蛋白质序列组合特征作为自编码器网络的输入,并提取出表征蛋白质序列组合特征的有效特征编码,再预训练自编码器网络;步骤2、使用预训练的自编码器网络初始化回复式深度网络前端输入层,采用反向传导算法,通过有监督学习方式训练深度回复式神经网络,所述神经网络的学习算法将蛋白质序列组合特征作为所述神经网络的输入、对应蛋白质的二级结构序列作为其目标输出,训练二级结构预测模型,训练完成后能够预测蛋白质各个残基位点的二级结构,获得蛋白质二级结构预测模型;步骤3、利用已训练的蛋白质二级结构预测模型,输入待分析蛋白质序列特征,预测待分析蛋白质各个位点残基的二级结构。2.根据权利要求1所述的一种基于深度神经网络的蛋白质二级结构预测方法,其特征在于,所述的步骤1,其中自编码器网络预训练提取出的有效特征编码,包括如下步骤:21)、以蛋白质序列组合特征作为自编码器网络的输入层输入,根据回复式深度网络前端输入层结构,采用逐层训练方式训练对应的多层自编码器深度神经网络;22)、自编码器网络收敛条件为:自编码器网络整体重构误差小于收敛阈值或其...

【专利技术属性】
技术研发人员:毛华陈媛媛罗川汪洋旭陈盈科
申请(专利权)人:四川大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1