The invention discloses a protein two level structure prediction method. In this method, firstly, the amino acid sequence classification information and the amino acid structure evolution information are used to represent the protein sequence characteristics, secondly, the short-range interaction and position characteristics between the residues in the protein sequence are extracted by convolution neural network with multi-convolution nuclei, and then the protein sequence internal residues are extracted by long-term and short-term memory neural network. Finally, the protein secondary structure is predicted based on the extracted deep structure features.
【技术实现步骤摘要】
一种蛋白质二级结构预测方法
本专利技术属于生物信息学领域,涉及一种蛋白质二级结构的预测方法,更为具体地讲,涉及一种基于长短时记忆神经网络的蛋白质二级结构的预测方法。
技术介绍
蛋白质是氨基酸脱水后的氨基酸残基顺序连接而成的长链,长链自发构成特征的蛋白质空间结构:一级结构、二级结构、三级结构和四级结构。蛋白质二级结构分为8类或3类,研究者早期主要关注蛋白质3类二级结构预测。相对于3类蛋白质二级结构预测,8类蛋白质二级结构预测可以提供更加全面的蛋白质结构类型信息,有效地促进人们对蛋白质结构与功能关系的了解。蛋白质二级结构预测方法通常采用基于统计分析和基于机器学习的预测方法。传统的结构预测方法虽然在二级结构预测中取得了丰硕的成绩,但蛋白质特征提取很大程度依赖人工设计。针对蛋白质序列特征表示的难题,循环神经网络(recurrentneuralnetworks,RNNs)和卷积神经网络(convolutionalneuralnetworks,CNNs)被用于蛋白质二级结构预测并成功地改善了蛋白质结构预测精度。然而,目前基于神经网络模型的蛋白质二级结构预测并没有充分利用蛋白质序列的特征信息,因此8类蛋白质二级结构预测还有很大的改进空间。本专利技术利用长短期记忆(LongShort-termMemory,LSTM)神经网络优点,将蛋白质的局部相关特征与长程依赖特征融合作为蛋白质的特征表示,实现蛋白质的8类二级结构预测。
技术实现思路
针对现有技术中存在的不足,本专利技术在现有技术的基础上提出一种基于LSTM的蛋白质二级结构预测方法,利用LSTM捕捉长距离依赖关系的优势,结合 ...
【技术保护点】
1.一种蛋白质二级结构预测方法,其特征在于,该方法包括下列四个步骤:S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:
【技术特征摘要】
1.一种蛋白质二级结构预测方法,其特征在于,该方法包括下列四个步骤:S1:用氨基酸的序列类别信息和氨基酸结构的进化信息表示蛋白质序列特征;含有n个氨基酸蛋白质序列表示为:,其中表示氨基酸序列的第个位置的氨基酸的特征向量,每个氨基酸被表示成42维向量,前21维是正交编码的氨基酸类型信息,后21维特征是采用PSI-BLAST和PSSM谱编码的产生与蛋白质序列氨基酸的进化相关的氨基酸序列列型信息;S2:采用多种卷积核卷积神经网络提取蛋白质序列内部的氨基酸局部近距离的作用特征,每个卷积核得到输出序列,其中,且、;表示卷积...
【专利技术属性】
技术研发人员:王兵益,李维华,郭延哺,杨光映,
申请(专利权)人:中国林业科学研究院资源昆虫研究所,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。