一种蛋白质二级结构预测方法技术

技术编号:18972605 阅读:29 留言:0更新日期:2018-09-19 03:43
本发明专利技术公开了一种蛋白质二级结构预测方法。该方法首先用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征,其次用多卷积核的卷积神经网络提取蛋白质序列内部残基之间的近程相互作用和位置特征,然后用长短期记忆神经网络提取蛋白质序列内部残基之间的远程相互作用特征,最后基于提取的蛋白质深层结构特征进行蛋白质二级结构预测。

A prediction method for two level structure of protein

The invention discloses a protein two level structure prediction method. In this method, firstly, the amino acid sequence classification information and the amino acid structure evolution information are used to represent the protein sequence characteristics, secondly, the short-range interaction and position characteristics between the residues in the protein sequence are extracted by convolution neural network with multi-convolution nuclei, and then the protein sequence internal residues are extracted by long-term and short-term memory neural network. Finally, the protein secondary structure is predicted based on the extracted deep structure features.

【技术实现步骤摘要】
一种蛋白质二级结构预测方法
本专利技术属于生物信息学领域,涉及一种蛋白质二级结构的预测方法,更为具体地讲,涉及一种基于长短时记忆神经网络的蛋白质二级结构的预测方法。
技术介绍
蛋白质是氨基酸脱水后的氨基酸残基顺序连接而成的长链,长链自发构成特征的蛋白质空间结构:一级结构、二级结构、三级结构和四级结构。蛋白质二级结构分为8类或3类,研究者早期主要关注蛋白质3类二级结构预测。相对于3类蛋白质二级结构预测,8类蛋白质二级结构预测可以提供更加全面的蛋白质结构类型信息,有效地促进人们对蛋白质结构与功能关系的了解。蛋白质二级结构预测方法通常采用基于统计分析和基于机器学习的预测方法。传统的结构预测方法虽然在二级结构预测中取得了丰硕的成绩,但蛋白质特征提取很大程度依赖人工设计。针对蛋白质序列特征表示的难题,循环神经网络(recurrentneuralnetworks,RNNs)和卷积神经网络(convolutionalneuralnetworks,CNNs)被用于蛋白质二级结构预测并成功地改善了蛋白质结构预测精度。然而,目前基于神经网络模型的蛋白质二级结构预测并没有充分利用蛋白质序列的特征信息,因此8类蛋白质二级结构预测还有很大的改进空间。本专利技术利用长短期记忆(LongShort-termMemory,LSTM)神经网络优点,将蛋白质的局部相关特征与长程依赖特征融合作为蛋白质的特征表示,实现蛋白质的8类二级结构预测。
技术实现思路
针对现有技术中存在的不足,本专利技术在现有技术的基础上提出一种基于LSTM的蛋白质二级结构预测方法,利用LSTM捕捉长距离依赖关系的优势,结合卷积神经网络,将蛋白质的局部相关特征与长程依赖特征融合作为蛋白质的特征表示,实现蛋白质的8类二级结构预测。具体来说,本专利技术具体技术方案包括:S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:,其中表示氨基酸序列的第个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息;S2:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列,其中,且、;表示卷积窗口函数;,,分别表示对氨基酸序列进行卷积的序列长度、每个氨基酸的特征维度和卷积核的数目;分别表示长度为的卷积核的权重项、偏置项;S3:用双向长短时记忆神经网络自动提取蛋白质序列的氨基酸残基之间的长程依赖关系,,其中,分别表示长短时记忆层基于前、后个氨基酸残基,在第个位置提取到的特征表示。S4:长短时记忆模型提取的蛋白质序列特征表示为:将提取得到的完整的蛋白质序列特征传入softmax层,按照预测蛋白质序列每个氨基酸类别的概率。和分别为softmax层的权重项、偏置项,表示第个氨基酸残基的二级结构类别的预测概率。附图说明图18类蛋白质二级结构预测模型。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。图1为本专利技术实施例提供的8类蛋白质二级结构预测模型。如图1所示,该方法可以包括以下步骤:步骤101:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:,其中表示氨基酸序列的第个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息。步骤102:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列,其中,且、;表示卷积窗口函数;,,分别表示对氨基酸序列进行卷积的序列长度、每个氨基酸的特征维度和卷积核的数目;、分别表示长度为的卷积核的权重项、偏置项。本实施例中,可以通过3种卷积核卷积操作得到3种特征映射(featuremap)分别是;然后将提取到的蛋白质序列内部氨基酸之间的局部近距离作用特征按连接得到蛋白质序列氨基酸的局部作用特征L。步骤103:用双向长短时记忆神经网络自动提取蛋白质序列的氨基酸残基之间的长程依赖关系,,其中,分别表示长短时记忆层基于前、后个氨基酸残基,在第个位置提取到的特征表示。步骤104:长短时记忆模型提取的蛋白质序列特征表示为:将提取得到的完整的蛋白质序列特征传入softmax层,按照预测蛋白质序列每个氨基酸类别的概率。和分别为softmax层的权重项、偏置项,表示第个氨基酸残基的二级结构类别的预测概率。本实施例中,可以使用随机梯度下降算法来对模型进行训练,使用最小化交叉熵函数作为训练的损失函数。其中,是范数的正则化项,为模型所有的参数,表示二级结构类别,表示二级结构类别数8,为训练集样本数。模型参数调节方法为其中是学习率。此外,模型训练可以采用Dropout和正则化策略来避免过拟合程度,同时也采用Earlystopping策略,根据验证集的性能决定模型训练的终止时刻,避免训练过程中发生过拟合。本文档来自技高网...

【技术保护点】
1.一种蛋白质二级结构预测方法,其特征在于,该方法包括下列四个步骤:S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:

【技术特征摘要】
1.一种蛋白质二级结构预测方法,其特征在于,该方法包括下列四个步骤:S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:,其中表示氨基酸序列的第个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息;S2:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列,其中,且、;表示卷积...

【专利技术属性】
技术研发人员:王兵益李维华郭延哺杨光映
申请(专利权)人:中国林业科学研究院资源昆虫研究所
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1