一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置制造方法及图纸

技术编号:27195084 阅读:62 留言:0更新日期:2021-01-31 11:47
本发明专利技术涉及一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置,其方法包括:获取目的基因序列,以及蛋白质数据库;根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA

【技术实现步骤摘要】
一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置


[0001]本专利技术涉及生物信息和深度学习领域,尤其涉及一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置。

技术介绍

[0002]目前生物学中公认的是:蛋白质的生物功能由蛋白质的三维结构所决定;蛋白质的三维结构是由其一级结构决定的;功能相似的蛋白质在结构上也是相似的。
[0003]研究发现,尽管蛋白质的一级结构千变万化,即一条多肽链中的氨基酸排列组合种类非常多,但是其二级结构的种类却是有限的,主要包括有α-螺旋(α-helix)、β-折叠(β-sheet)、β-转角(β-turn)和无规卷曲(random coil),其中α螺旋和β折叠这两个蛋白质二级结构仅依赖于主链骨架,即所有氨基酸的共同部分,所以这两个蛋白质的二级结构会频繁地出现于大多数的蛋白质结构中。蛋白质的氨基酸序列决定了它的二级结构,二级结构又决定了它的空间结构,蛋白质的空间结构又决定了它生理功能的多样性。可见,序列、结构和功能之间的关系密不可分。
[0004]而二级结构就是通过蛋白质的氨基酸序列来研究其空间结构的重要过渡。随着蛋白质测序工作的进展,越来越多的蛋白质的氨基酸序列(即蛋白质一级结构)被测定并存储于各种不同的生物数据库中。蛋白质一级结构的数量以指数级别增长,这为蛋白质空间结构的研究带来了更大的便利与挑战。这样,由一级结构预测二级结构成了蛋白质组学的重要研究方向。
[0005]目前的蛋白质结构的预测技术中,并没有与相关的基因序列进行绑定,导致模型生成或预测蛋白质结构准确率不高;另一方面现有预测方法中大都通过综合蛋白质的多个特征经过一系列的复杂运算,特征在提取中丢失信息,从而导致预测蛋白质结构的准确率低和鲁棒性差。

技术实现思路

[0006]本专利技术现有蛋白质结构预测的准确率低和鲁棒性差的问题,在本专利技术的第一方面提供了一种基于多任务时域卷积神经网络的蛋白质结构预测方法,包括如下步骤:获取目的基因序列,以及蛋白质数据库;根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练,得到训练好的多任务时域卷积神经网络;将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据
所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
[0007]在本专利技术的一些实施例中,所述根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征包括如下步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深度,根据每个氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所述多元回归方程为:
ŷ
=27.333+3.839X1+1.095X
2-0.856X3+2.745X
4-1.735X5+4.618X
6-2.199X
7-9.985X8+1.275X9,其中,
ŷ
为蛋白质的统计深度特征,X1、X2分别表示氨基酸的带电性和极性,X3、X4表示氨基酸的化学分类,X5至X9分别表示5种疏水值。
[0008]在本专利技术的一些实施例中,所述多任务时域卷积神经网络包括第一时域卷积神经网络、第二时域卷积神经网络以及预设数量的共用卷积层,所述第一时域卷积神经网络根据所述多维特征向量输出氨基酸序列;所述第二时域卷积神经网络根据氨基酸序列输出其对应蛋白质的统计深度特征。
[0009]在本专利技术的一些实施例中,所述根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构包括如下步骤:根据空间多面体、超图、蛋白质的统计深度特征确定蛋白质的空间质点系的形态特征;根据已有蛋白质形态构建基本骨架;根据所述空间质点系的形态特征对基本骨架进行修饰,得到最终蛋白质的空间结构。
[0010]进一步的,所述形态特征包括空洞、口袋、管道,所述空洞用于表征蛋白质内部结构,所述口袋表征蛋白质与受体之间的相互关系,所述管道表征蛋白质的聚合体形态。
[0011]在本专利技术的一些实施例中,所述将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量包括如下步骤:根据核酸的替换速率、转换、核酸和密码子的平衡频率确定所述进化速率。
[0012]在本专利技术的第二方面,提供了基于多任务时域卷积神经网络的蛋白质结构预测装置,其特征在于,包括获取模块、提取模块、映射模块、训练模块、预测模块,所述获取模块,用于获取目的基因序列,以及蛋白质数据库;所述提取模块,用于根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;所述映射模块,用于将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;所述训练模块,用于将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练;所述预测模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
[0013]进一步的,所述预测模块包括第一预测子模块、第二预测子模块,所述第一预测子模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;所述第二预测子模块,用于根据所述氨基酸序
列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
[0014]在本专利技术的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术第一方面所述的方法。
[0015]在本专利技术的第四方面,一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本专利技术第一方面所述的方法。
[0016]有益效果:1.本专利技术通过根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,减少特征向量的维度,进而减少模型输入的复杂本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,包括如下步骤:获取目的基因序列,以及蛋白质数据库;根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练,得到训练好的多任务时域卷积神经网络;将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。2.根据权利要求1所述的基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,所述根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征包括如下步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深度,根据每个氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所述多元回归方程为:
ŷ
=27.333+3.839X1+1.095X
2-0.856X3+2.745X
4-1.735X5+4.618X
6-2.199X
7-9.985X8+1.275X9,其中,
ŷ
为蛋白质的统计深度特征,X1、X2分别表示氨基酸的带电性和极性,X3、X4表示氨基酸的化学分类,X5至X9分别表示5种疏水值。3.根据权利要求1所述的基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,所述多任务时域卷积神经网络包括第一时域卷积神经网络、第二时域卷积神经网络以及预设数量的共用卷积层,所述第一时域卷积神经网络根据所述多维特征向量输出氨基酸序列;所述第二时域卷积神经网络根据氨基酸序列输出其对应蛋白质的统计深度特征。4.根据权利要求1所述的基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,所述根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构包括如下步骤:根据空间多面体、超图、蛋白质的统计深度特征确定蛋白质的空间质点系的形态特征;根据已有...

【专利技术属性】
技术研发人员:华权高赵海义舒芹
申请(专利权)人:武汉金开瑞生物工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1