当前位置: 首页 > 专利查询>中南大学专利>正文

蛋白质局部结构特征的预测方法及系统技术方案

技术编号:17110498 阅读:39 留言:0更新日期:2018-01-24 22:38
本发明专利技术涉及生物信息学领域,公开一种蛋白质局部结构特征的预测方法及系统,以利用深度学习技术来提高预测准确度,为蛋白质的三级结构预测提供关键的参考信息,解决由生物实验方法测定蛋白质三级结构带来的成本高昂和效率低下问题。本发明专利技术方法统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入,训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;并通过训练集优化训练模型的权重参数,使得所构造的损失函数的值达到最小,进而根据训练好的网络模型相应进行蛋白质序列中各残基的溶剂可及性或残基接触数预测。

Prediction method and system of protein local structure characteristics

The present invention relates to the field of bioinformatics, prediction method and system for a protein local structure characteristics of open, to use deep learning technology to improve the prediction accuracy, provide reference information for the three key protein structure prediction, solved by biological method was used to determine the protein three level structure of high cost and low efficiency problems. The method of the invention has the characteristic sequence unified structure of protein sequences in each sample as the training model input, training model with 3 hidden layers based on stack depth encoding self sparse neural network model, and the hidden layer dropout method is used in the whole network, random to hide some neurons in layer do not work to reduce the over fitting model; and through the training set weight parameter optimization training model, the loss function of the value of the minimum number of prediction of contact according to the trained network model of the corresponding residues in protein sequence of solvent accessibility or residues.

【技术实现步骤摘要】
蛋白质局部结构特征的预测方法及系统
本专利技术涉及生物信息学领域,尤其涉及一种蛋白质局部结构特征的预测方法及系统。
技术介绍
蛋白质是一切生命活动的物质基础,参与体内主要的生理活动。人体内的酶、激素、抗体等活性物质都是由蛋白质构成。因此,了解蛋白质的功能对理解体内蛋白质作用机理有着非常重要的意义。然而,蛋白质的功能和蛋白质分子的空间结构有着非常紧密的联系。不同的蛋白质,正是因为其具有不同的空间结构,因此显示出不同的理化特性和生理功能。因此,理解蛋白质的空间结构有利于对蛋白质功能和作用机理的理解。随着生物测序技术的迅猛发展,已知序列的蛋白质数量远远高于已知结构的蛋白质数量。直接从一维的氨基酸序列预测蛋白质的三级结构是目前生物信息领域的一个非常具有挑战性的问题。解决这个问题的有效途径是首先预测蛋白质的局部结构。例如,蛋白质二级结构、蛋白质溶剂可及性、残基接触数、蛋白质骨架扭转角等等。蛋白质溶剂可及性是研究最多和用途最广泛的结构特征之一。预测蛋白质溶剂可及性有助于精确的预测蛋白质的三维结构和加深对蛋白质功能的理解。除此之外,蛋白质溶剂可及性对蛋白质结构域识别、折叠域识别、结合域识别等方面都提供了重要的信息。在对溶剂可及性的研究中,一般把它当成是一个分类问题,即对一个给定的残基,计算出相对溶剂可及表面积。如果相对溶剂可及性大于某个状态阈值,就将其分为一类。根据给定的状态阈值不同,可以分为二状态分类(暴露或隐藏)或三状态分类(暴露、中间或隐藏)问题。与蛋白质溶剂可及性类似,残基接触数是另外一种重要的结构特征。残基接触数是指蛋白质序列中,一个残基与其他残基相互接触的数目。如果两个残基的Cβ原子(甘氨酸为Cα原子)之间的距离小于一个给定的阈值,这个阈值一般为6到就认为这两个残基是相互接触的。如果一个蛋白质序列中每个残基的接触数都是已知的,那么这个蛋白质可能的空间构象也能被限定。因此,预测残基的接触数对从头预测法预测蛋白质结构提供了非常关键的信息。
技术实现思路
本专利技术目的在于公开一种蛋白质局部结构特征的预测方法及系统,以利用深度学习技术的优势来提高预测准确度,进而为蛋白质的三级结构预测提供关键的参考信息,从而解决由生物实验方法测定蛋白质三级结构带来的成本高昂和效率低下的问题。为实现上述目的,本专利技术公开了一种蛋白质局部结构特征的预测方法,包括:从蛋白质数据库中提取序列,组成训练集和独立测试集;计算样本集中的每个蛋白质序列中各残基的溶剂可及性;统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入,所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;通过训练集优化所述训练模型的权重参数,使得下述的损失函数的值达到最小,所述损失函数为:其中,m为样本数,W是整个网络的连接权重矩阵,Wji(l)表示第l-1层中第i个神经元与第l层中第j个神经元之间的连接权值;b是偏置项,是一个向量;s是某一隐藏层的神经元个数,sl是指第l层的神经元个数;x(i)和y(i)分别是训练集中对应的一组实测的输入和输出,hW,b(x(i))是神经网络的拟合函数;nl表示网络的层数;λ是权重衰减参数;β控制稀疏性惩罚因子的权重;ρ是稀疏性参数,为了能用最少的隐藏单元来表示输入层的特征,限制且是指第l层第j个神经元的输出值;根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测。优选地,上述权重衰减参数取值为0.003,稀疏性参数取值为0.2。本专利技术中,根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测具体包括:将蛋白质溶剂可及性预测结果分类为暴露、中间或隐藏共三个状态,对每一个蛋白质残基,将进行特征编码之后的向量记为x,预测的类标记为y,因此y∈{1,2,3},y的概率值可以表示为:p(y|x;W,b)=sigmoid(Wx+b)其中,sigmoid函数为神经网络输出层的分类器;根据各状态的概率分布情况,选取概率最大的值作为最后的预测值。本专利技术中,上述方法同样可用于预测残基接触数,具体包括:从蛋白质数据库中提取序列,组成训练集和独立测试集;计算样本集中的每个蛋白质序列中各残基的残基接触数;统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入,所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;通过训练集优化所述训练模型的权重参数,使得下述的损失函数的值达到最小,所述损失函数为:其中,m为样本数,W是整个网络的连接权重矩阵,Wji(l)表示第l-1层中第i个神经元与第l层中第j个神经元之间的连接权值;b是偏置项,是一个向量;s是某一隐藏层的神经元个数,sl是指第l层的神经元个数;x(i)和y(i)分别是训练集中对应的一组实测的输入和输出,hW,b(x(i))是神经网络的拟合函数;nl表示网络的层数;λ是权重衰减参数;β是控制稀疏性惩罚因子的权重或称为稀疏性参数;ρ是稀疏性参数,为了能用最少的隐藏单元来表示输入层的特征,限制且是指第l层第j个神经元的输出值;根据训练好的网络模型进行蛋白质序列中各残基的残基接触数预测。优选地,上述权重衰减参数取值为0.003,稀疏性参数取值为0.2。本专利技术中,根据训练好的网络模型进行蛋白质序列中各残基的残基接触数预测包括:考虑到绝大多数的残基接触数是小于或等于14,将残基接触数当作一个15状态的分类问题,因此y∈{0,1,…,14};y的概率值可以表示为:p(y|x;W,b)=sigmoid(Wx+b)其中,sigmoid函数为神经网络输出层的分类器;根据各状态的概率分布情况,选取概率最大的值作为最后的预测值。与上述方法相对应的,本专利技术可针对上述方法分别开发一套针对残基溶剂可及性和/或残基接触数等局部结构特征进行预测的执行系统。本专利技术具有以下有益效果:采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;降低了数据处理复杂度的同时确保了数据处理的精度。而且,通过引入更多的蛋白质序列的特征,即扩大特征序列的覆盖度,如引入一些诸如蛋白质的固有不规则、蛋白质骨架扭转角等新的结构特征,可进一步提高预测的整体性能。综上,本专利技术方法及系统,是一种完全基于序列的蛋白质溶剂可及性和残基接触数预测方法。它能够预测未知同源结构的溶剂可及性和接触数,有效提高了预测的覆盖度,利用改进的深度学习技术的优势,显著的提高了预测准确度。为蛋白质的三级结构预测提供了非常关键的信息,从而有效的解决了由生物实验方法测定蛋白质三级结构带来的成本高昂和效率低下的问题。下面将参照附图,对本专利技术作进一步详细的说明。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术优选实施例的处理流程示意图;图2本专利技术实施例训练模型示意图;图3是本专利技术实施例方法在溶剂可及性预测结果与其他方法的对比图;图4是本专利技术实施例本文档来自技高网
...
蛋白质局部结构特征的预测方法及系统

【技术保护点】
一种蛋白质局部结构特征的预测方法,其特征在于,包括:从蛋白质数据库中提取序列,组成训练集和独立测试集;计算样本集中的每个蛋白质序列中各残基的溶剂可及性;统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入,所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;通过训练集优化所述训练模型的权重参数,使得下述的损失函数的值达到最小,所述损失函数为:

【技术特征摘要】
1.一种蛋白质局部结构特征的预测方法,其特征在于,包括:从蛋白质数据库中提取序列,组成训练集和独立测试集;计算样本集中的每个蛋白质序列中各残基的溶剂可及性;统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入,所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;通过训练集优化所述训练模型的权重参数,使得下述的损失函数的值达到最小,所述损失函数为:其中,m为样本数,W是整个网络的连接权重矩阵,Wji(l)表示第l-1层中第i个神经元与第l层中第j个神经元之间的连接权值;b是偏置项,是一个向量;s是某一隐藏层的神经元个数,sl是指第l层的神经元个数;x(i)和y(i)分别是训练集中对应的一组实测的输入和输出,hW,b(x(i))是神经网络的拟合函数;nl表示网络的层数;λ是权重衰减参数;β控制稀疏性惩罚因子的权重;ρ是稀疏性参数,为了能用最少的隐藏单元来表示输入层的特征,限制且是指第l层第j个神经元的输出值;根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测。2.根据权利要求1所述的蛋白质局部结构特征的预测方法,其特征在于,所述根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测包括:将蛋白质溶剂可及性预测结果分类为暴露、中间或隐藏共三个状态,对每一个蛋白质残基,将进行特征编码之后的向量记为x,预测的类标记为y,因此y∈{1,2,3},y的概率值表示为:p(y|x;W,b)=sigmoid(Wx+b)其中,sigmoid函数为神经网络输出层的分类器;根据各状态的概率分布情况,选取概率最大的值作为最后的预测值。3.根据权利要求1或2所述的蛋白质局部结构特征的预测方法,其特征在于,所述权重衰减参数取值为0.003,稀疏性参数取值为0.2。4.一种执行上述权利要求1至3任一所述方法的蛋白质局部结构特征的预测系统。5.一种蛋白质局部结构特征的预测方法,其特征在于,包括:从蛋白质数据库中提取序列,组成训练集和独立测试集;计算样本集中的每个蛋白质序列中各残基的残基接触数...

【专利技术属性】
技术研发人员:邓磊
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1