一种蛋白质二级结构预测方法技术

技术编号:18972605 阅读:44 留言:0更新日期:2018-09-19 03:43
本发明专利技术公开了一种蛋白质二级结构预测方法。该方法首先用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征,其次用多卷积核的卷积神经网络提取蛋白质序列内部残基之间的近程相互作用和位置特征,然后用长短期记忆神经网络提取蛋白质序列内部残基之间的远程相互作用特征,最后基于提取的蛋白质深层结构特征进行蛋白质二级结构预测。

A prediction method for two level structure of protein

The invention discloses a protein two level structure prediction method. In this method, firstly, the amino acid sequence classification information and the amino acid structure evolution information are used to represent the protein sequence characteristics, secondly, the short-range interaction and position characteristics between the residues in the protein sequence are extracted by convolution neural network with multi-convolution nuclei, and then the protein sequence internal residues are extracted by long-term and short-term memory neural network. Finally, the protein secondary structure is predicted based on the extracted deep structure features.

【技术实现步骤摘要】
一种蛋白质二级结构预测方法
本专利技术属于生物信息学领域,涉及一种蛋白质二级结构的预测方法,更为具体地讲,涉及一种基于长短时记忆神经网络的蛋白质二级结构的预测方法。
技术介绍
蛋白质是氨基酸脱水后的氨基酸残基顺序连接而成的长链,长链自发构成特征的蛋白质空间结构:一级结构、二级结构、三级结构和四级结构。蛋白质二级结构分为8类或3类,研究者早期主要关注蛋白质3类二级结构预测。相对于3类蛋白质二级结构预测,8类蛋白质二级结构预测可以提供更加全面的蛋白质结构类型信息,有效地促进人们对蛋白质结构与功能关系的了解。蛋白质二级结构预测方法通常采用基于统计分析和基于机器学习的预测方法。传统的结构预测方法虽然在二级结构预测中取得了丰硕的成绩,但蛋白质特征提取很大程度依赖人工设计。针对蛋白质序列特征表示的难题,循环神经网络(recurrentneuralnetworks,RNNs)和卷积神经网络(convolutionalneuralnetworks,CNNs)被用于蛋白质二级结构预测并成功地改善了蛋白质结构预测精度。然而,目前基于神经网络模型的蛋白质二级结构预测并没有充分利用蛋白质序列的特征信息,因此本文档来自技高网...

【技术保护点】
1.一种蛋白质二级结构预测方法,其特征在于,该方法包括下列四个步骤:S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:

【技术特征摘要】
1.一种蛋白质二级结构预测方法,其特征在于,该方法包括下列四个步骤:S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:,其中表示氨基酸序列的第个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息;S2:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列,其中,且、;表示卷积...

【专利技术属性】
技术研发人员:王兵益李维华郭延哺杨光映
申请(专利权)人:中国林业科学研究院资源昆虫研究所
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1