高可信的蛋白质二级结构领域模型预测方法及构件系统技术方案

技术编号:41496401 阅读:19 留言:0更新日期:2024-05-30 14:40
本发明专利技术属于分子信息技术领域,具体涉及一种高可信的蛋白质二级结构领域模型预测方法及构件系统,本方法将输入的氨基酸序列进行切割或者补足,然后将其进行正交编码和profile编码,使用两种编码的拼接形式作为预测模型的输入数据;通过使用双向门控循环单元提取氨基酸序列的全局特征和局部特征信息;将提取的全局特征信息经过两个全连接层的处理,在进行多次非线性变换;预测模型计算所得到的结果,达到蛋白质8类二级结构预测的目的。本发明专利技术在蛋白质二级结构预测速度上有着明显的提升,能够很好的提高蛋白质8类二级结构的预测精度,同时具有很好的扩展性。

【技术实现步骤摘要】

本专利技术属于分子信息,具体涉及一种高可信的蛋白质二级结构领域模型预测方法及构件系统


技术介绍

1、蛋白质二级结构对于蛋白质的稳定性、相互作用、配体结合等方面具有重要影响。准确预测蛋白质的二级结构可以帮助研究者预测蛋白质三维结构,为基于结构的药物设计、酶催化和反应特异性等提供重要依据。因此,准确预测蛋白质二级结构对于深入了解蛋白质的生物学和医学价值具有重要的科学意义。

2、蛋白质二级结构的预测方法主要分为三大类:一类是基于序列的预测方法:通过分析蛋白质序列中的氨基酸残基,预测蛋白质的二级结构。还有一类是基于结构的预测方法:通过分析蛋白质的三维结构,预测蛋白质的二级结构。这种方法包括基于x射线晶体结构、核磁共振结构和电子密度图的预测方法。还有一类是组合方法:将基于序列和基于结构的预测方法结合起来,提高蛋白质二级结构预测的准确性。而基于深度学习的蛋白质二级结构预测方法具有预测准确度,高处理快速,可伸缩性好的优点。

3、虽然这些方法都在蛋白质二级结构预测方面取得了一定成果,但是他们也面临着结构预测中的一个重大挑战,即易受到蛋白质序列长度本文档来自技高网...

【技术保护点】

1.一种高可信的蛋白质二级结构领域模型预测方法,其特征在于,包括:

2.根据权利要求1所述的高可信的蛋白质二级结构领域模型预测方法,其特征在于,所述将输入的氨基酸序列进行切割或者补足是:将氨基酸序列长度不足700个的使用数字0进行补全操作,将超过700长度的氨基酸序列进行切割。

3.根据权利要求1所述的高可信的蛋白质二级结构领域模型预测方法,其特征在于,预测模型的输入数据的形式包括:

4.根据权利要求1所述的高可信的蛋白质二级结构领域模型预测方法,其特征在于,所述预测模型构建步骤包括:搭建神经网络结构,定义神经网络结构中网络层类别和层的参数,以及网络的...

【技术特征摘要】

1.一种高可信的蛋白质二级结构领域模型预测方法,其特征在于,包括:

2.根据权利要求1所述的高可信的蛋白质二级结构领域模型预测方法,其特征在于,所述将输入的氨基酸序列进行切割或者补足是:将氨基酸序列长度不足700个的使用数字0进行补全操作,将超过700长度的氨基酸序列进行切割。

3.根据权利要求1所述的高可信的蛋白质二级结构领域模型预测方法,其特征在于,预测模型的输入数据的形式包括:

4.根据权利要求1所述的高可信的蛋白质二级结构领域模型预测方法,其特征在于,所述预测模型构建步骤包括:搭建神经网络结构,定义神经网络结构中网络层类别和层的参数,以及网络的激活函数。

5.根据权利要求1所述的高可信的蛋白质二级结构领域模型预测方法,其特征在于,所述神经网络结构为双向门控循环神经网络,层数为4层,每层隐藏单元为96,激活函数为线性整流函数。

6.根据权利要求1所述的高可信的蛋白质二级结构领域模型预测方法,其特征在于,所述神经网络结构包括号3部分,编码组合拼接网络,特征提取网络和输出网络,特征提取网络采取门控循环单元,使用4个双向门控循环神经网络进行特征提取,双向门控循环神经网络使用...

【专利技术属性】
技术研发人员:石海鹤钟林辉石海鹏徐松青孙俊邱勇胡昌盛
申请(专利权)人:江西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1