蛋白质局部结构特征的预测方法及系统技术方案

技术编号：17110498 阅读：39 留言：0更新日期：2018-01-24 22:38

本发明专利技术涉及生物信息学领域，公开一种蛋白质局部结构特征的预测方法及系统，以利用深度学习技术来提高预测准确度，为蛋白质的三级结构预测提供关键的参考信息，解决由生物实验方法测定蛋白质三级结构带来的成本高昂和效率低下问题。本发明专利技术方法统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入，训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型，并将dropout方法应用在整个网络的隐藏层中，随机的让隐藏层中的某些神经元不工作以降低模型的过拟合；并通过训练集优化训练模型的权重参数，使得所构造的损失函数的值达到最小，进而根据训练好的网络模型相应进行蛋白质序列中各残基的溶剂可及性或残基接触数预测。

Prediction method and system of protein local structure characteristics

The present invention relates to the field of bioinformatics, prediction method and system for a protein local structure characteristics of open, to use deep learning technology to improve the prediction accuracy, provide reference information for the three key protein structure prediction, solved by biological method was used to determine the protein three level structure of high cost and low efficiency problems. The method of the invention has the characteristic sequence unified structure of protein sequences in each sample as the training model input, training model with 3 hidden layers based on stack depth encoding self sparse neural network model, and the hidden layer dropout method is used in the whole network, random to hide some neurons in layer do not work to reduce the over fitting model; and through the training set weight parameter optimization training model, the loss function of the value of the minimum number of prediction of contact according to the trained network model of the corresponding residues in protein sequence of solvent accessibility or residues.

全部详细技术资料下载

【技术实现步骤摘要】
蛋白质局部结构特征的预测方法及系统
本专利技术涉及生物信息学领域，尤其涉及一种蛋白质局部结构特征的预测方法及系统。
技术介绍
蛋白质是一切生命活动的物质基础，参与体内主要的生理活动。人体内的酶、激素、抗体等活性物质都是由蛋白质构成。因此，了解蛋白质的功能对理解体内蛋白质作用机理有着非常重要的意义。然而，蛋白质的功能和蛋白质分子的空间结构有着非常紧密的联系。不同的蛋白质，正是因为其具有不同的空间结构，因此显示出不同的理化特性和生理功能。因此，理解蛋白质的空间结构有利于对蛋白质功能和作用机理的理解。随着生物测序技术的迅猛发展，已知序列的蛋白质数量远远高于已知结构的蛋白质数量。直接从一维的氨基酸序列预测蛋白质的三级结构是目前生物信息领域的一个非常具有挑战性的问题。解决这个问题的有效途径是首先预测蛋白质的局部结构。例如，蛋白质二级结构、蛋白质溶剂可及性、残基接触数、蛋白质骨架扭转角等等。蛋白质溶剂可及性是研究最多和用途最广泛的结构特征之一。预测蛋白质溶剂可及性有助于精确的预测蛋白质的三维结构和加深对蛋白质功能的理解。除此之外，蛋白质溶剂可及性对蛋白质结构域识别、折叠域识别、结合域识别等方面都提供了重要的信息。在对溶剂可及性的研究中，一般把它当成是一个分类问题，即对一个给定的残基，计算出相对溶剂可及表面积。如果相对溶剂可及性大于某个状态阈值，就将其分为一类。根据给定的状态阈值不同，可以分为二状态分类(暴露或隐藏)或三状态分类(暴露、中间或隐藏)问题。与蛋白质溶剂可及性类似，残基接触数是另外一种重要的结构特征。残基接触数是指蛋白质序列中，一个残基与其他残基相互接触的数...
蛋白质局部结构特征的预测方法及系统

【技术保护点】
一种蛋白质局部结构特征的预测方法，其特征在于，包括：从蛋白质数据库中提取序列，组成训练集和独立测试集；计算样本集中的每个蛋白质序列中各残基的溶剂可及性；统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入，所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型，并将dropout方法应用在整个网络的隐藏层中，随机的让隐藏层中的某些神经元不工作以降低模型的过拟合；通过训练集优化所述训练模型的权重参数，使得下述的损失函数的值达到最小，所述损失函数为：

【技术特征摘要】
1.一种蛋白质局部结构特征的预测方法，其特征在于，包括：从蛋白质数据库中提取序列，组成训练集和独立测试集；计算样本集中的每个蛋白质序列中各残基的溶剂可及性；统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入，所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型，并将dropout方法应用在整个网络的隐藏层中，随机的让隐藏层中的某些神经元不工作以降低模型的过拟合；通过训练集优化所述训练模型的权重参数，使得下述的损失函数的值达到最小，所述损失函数为：其中，m为样本数，W是整个网络的连接权重矩阵，Wji(l)表示第l-1层中第i个神经元与第l层中第j个神经元之间的连接权值；b是偏置项，是一个向量；s是某一隐藏层的神经元个数，sl是指第l层的神经元个数；x(i)和y(i)分别是训练集中对应的一组实测的输入和输出，hW,b(x(i))是神经网络的拟合函数；nl表示网络的层数；λ是权重衰减参数；β控制稀疏性惩罚因子的权重；ρ是稀疏性参数，为了能用最少的隐藏单元来表示输入层的特征，限制且是指第l层第j个神经元的输出值；根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测。2.根据权利要求1所述的蛋白质局部结构特征的预测方法，其特征在于，所述根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测包括：将蛋白质溶剂可及性预测结果分类为暴露、中间或隐藏共三个状态，对每一个蛋白质残基，将进行特征编码之后的向量记为x，预测的类标记为y，因此y∈{1,2,3}，y的概率值表示为：p(y|x；W,b)＝sigmoid(Wx+b)其中，sigmoid函数为神经网络输出层的分类器；根据各状态的概率分布情况，选取概率最大的值作为最后的预测值。3.根据权利要求1或2所述的蛋白质局部结构特征的预测方法，其特征在于，所述权重衰减参数取值为0.003，稀疏性参数取值为0.2。4.一种执行上述权利要求1至3任一所述方法的蛋白质局部结构特征的预测系统。5.一种蛋白质局部结构特征的预测方法，其特征在于，包括：从蛋白质数据库中提取序列，组成训练集和独立测试集；计算样本集中的每个蛋白质序列中各残基的残基接触数...

【专利技术属性】
技术研发人员：邓磊，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人