基于深度度量学习的蛋白质折叠识别方法技术

技术编号:26794825 阅读:44 留言:0更新日期:2020-12-22 17:11
本发明专利技术公开了一种基于深度度量学习的蛋白质折叠识别方法包括:对蛋白质进行编码,得到蛋白质序列的数字表达;将蛋白质序列的数字表达输入到SSA模型,获得蛋白质残基‑残基潜在的关系图,并将关系图固定为设定大小;将关系图输入到训练好的卷积神经网络中,获取分类层前一层的输出作为深度特征;将深度特征输入到训练好的孪生网络中得到最终的蛋白质特征;基于蛋白质特征计算查询蛋白与模板蛋白之间的欧式距离,将与查询蛋白质距离最近的模板蛋白质的折叠类型分配给查询蛋白质。本发明专利技术使用孪生网络,使得相同折叠类型的蛋白对之间的距离更近,不同折叠的蛋白质对之间的距离更远。

【技术实现步骤摘要】
基于深度度量学习的蛋白质折叠识别方法
本专利技术属于生物信息学预测蛋白质结构领域,具体为一种基于深度度量学习的蛋白质折叠识别方法。
技术介绍
随着基因工程的不断推进,人类已知的蛋白质序列信息呈指数级增长,但是对于蛋白质的生物特性与结构,却知之甚少。这是因为即使对单个蛋白质而言,了解其功能与三维结构也是一项艰巨的任务。所以要理解所有这些序列,最好的方法就是通过搜索数据库,将它们与其他已知功能与结构的蛋白质联系起来,提高这种算法仍然是当今生物信息学领域重大的挑战之一。蛋白质折叠识别的核模板匹配思想就是基于此,它的目标是对一个新的蛋白质(已知序列),通过相似度比对,与查询蛋白最相似的模板蛋白在蛋白质的折叠方式上与查询蛋白越相似。此外还有把蛋白质折叠识别看成一个分类问题,对于一个查询蛋白,直接把查询蛋白分类到最大可能的折叠类型。上面两种思想的关键在于从蛋白质序列中抽取强大的蛋白质特征表示。Fletez-Brant等人(Fletez-Brant,Christopher,etal."kmer-SVM:awebserverforidentifyingpredictiveregulatorysequencefeaturesingenomicdatasets."Nucleicacidsresearch41.W1(2013):W544-W556.)提出了一种通过计算连续邻近残基的频率来提取特征的方法,这种方法有效地从蛋白质序列中捕捉了局部鉴别信息。Shen和Chou(Shen,Hong-Bin,andKuo-ChenChou."Ensembleclassifierforproteinfoldpatternrecognition."Bioinformatics22.14(2006):1717-1722.)利用伪氨基酸(PseAAC)方法将序列信息、疏水性信息和亲水性信息结合在一起,以区分不同的蛋白质特征。Dong(Dong,Qiwen,ShuigengZhou,andJihongGuan."Anewtaxonomy-basedproteinfoldrecognitionapproachbasedonautocross-covariancetransformation."Bioinformatics25.20(2009):2655-2662.)等人结合自协方差变换和PSSM提取进化信息去提高蛋白质的折叠识别率。最近几年深度学习方法给计算机视觉,自然语言处理,语言识别等研究领域带来了巨大的革命。比如Hou等人(Hou,Jie,BadriAdhikari,andJianlinCheng."DeepSF:deepconvolutionalneuralnetworkformappingproteinsequencestofolds."Bioinformatics34.8(2018):1295-1303.)使用1D的卷积神经网络直接把蛋白质序列分类到已知的1195种折叠中。Liu等人(Liu,Bin,Chen-ChenLi,andKeYan."DeepSVM-fold:proteinfoldrecognitionbycombiningsupportvectormachinesandpairwisesequencesimilarityscoresgeneratedbydeeplearningnetworks."BriefingsinBioinformatics(2019).)结合卷积神经网络与长短时记忆网络从PSSM矩阵中提取进化信息从而提高蛋白质折叠识别率。但是这些方法存在以下几个问题:如何有效地度量两个蛋白质之间的距离,以及如何更进一步的加强蛋白质特征的鉴别性。
技术实现思路
本专利技术的目的在于提出了一种基于深度度量学习的蛋白质折叠识别方法。实现本专利技术目的的技术方案为:一种基于深度度量学习的蛋白质折叠识别方法,包括:对蛋白质进行编码,得到蛋白质序列的数字表达;将蛋白质序列的数字表达输入到SSA模型,取模型输出层的上一层输出作为蛋白质残基-残基潜在的关系图,并将关系图固定为设定大小;将蛋白质残基-残基潜在的关系图输入到训练好的卷积神经网络中,获取分类层前一层的输出作为深度特征;将深度特征输入到训练好的孪生网络中得到最终的蛋白质特征;基于蛋白质特征计算查询蛋白与模板蛋白之间的欧式距离,将与查询蛋白质距离最近的模板蛋白质的折叠类型分配给查询蛋白质。优选地,采用抽样或者填充操作将关系图固定为设定大小。优选地,关系图大小固定为256×256。优选地,卷积神经网络的训练过程为:将蛋白质残基-残基潜在的关系图输入卷积神经网络中,以交叉熵损失作为网络的目标函数,使用随机梯度下降算法优化卷积神经网络的参数。优选地,孪生网络的训练过程为:构建孪生网络训练样本,将孪生网络训练样本输入输入到孪生网络的两个子网络中对孪生网络,使用随机梯度下降算法学习孪生网络的参数,当网络迭代设定次数的时候,训练终止;孪生网络训练样本的构建方法为:将卷积神经网络训练样本输入到训练好的卷积神经网络,获得训练样本的深度特征;从卷积神经网络训练样本中随机选择若干对样本对应的深度特征作为孪生网络训练样本,若每对样本的蛋白质折叠类型属于同一类型,将该对样本标签设为0,否则设为1。优选地,孪生网络的损失函数为:其中,W表示为整个孪生网络需要学习的参数,N为蛋白质样本对,Y为两个蛋白质是否为同一折叠类型的标签,DW为两个蛋白质深度特征之间的欧式距离,m为设置的阈值。本专利技术与现有技术相比,其显著优点为:1.本专利技术提高了蛋白质折叠识别的识别精度:使用深度卷积神经网络与传统机器学习的策略,使得模型可以自动从这种非标准化的蛋白质残基接触图中学习到强大的蛋白质结构信息,提高了识别蛋白质折叠类型的精度;2.本专利技术提高了蛋白质折叠的识别速度:SSA模型是一个已经训练好的深度循环神经网络模型,可以直接对蛋白质序列预测出蛋白质残基与残基之间的关系,是目前为止最快的蛋白质残基接触图预测方法;深度神经网络虽然训练过程比较慢,但是一旦网络模型参数训练完成,预测过程非常迅速,如果使用GPU加速器,识别速度会更加快速,大大的缩短了蛋白质折叠的识别时间。3.本专利技术使用孪生网络,使得相同折叠类型的蛋白对之间的距离更近,不同折叠的蛋白质对之间的距离更远。附图说明图1为蛋白质折叠的深度网络结构图。图2为基于深度度量学习的蛋白质折叠识别方法的流程图。具体实施方式为了更好的了解本专利技术的
技术实现思路
,下面结合附图对本专利技术作进一步的说明。如图2所示,一种基于深度度量学习的蛋白质折叠识别方法,具体实施步骤为:步骤1:数据预处理,使用one-hot编码分别对N组蛋白质训练数据进行编码,得到蛋白质序列的数字表达;步骤2:把蛋白质序列的One-hot编码输入到SSA蛋白质残基与残基接触图预测工具中,本专利技术使用的本文档来自技高网
...

【技术保护点】
1.一种基于深度度量学习的蛋白质折叠识别方法,其特征在于,包括:/n对蛋白质进行编码,得到蛋白质序列的数字表达;/n将蛋白质序列的数字表达输入到SSA模型,取模型输出层的上一层输出作为蛋白质残基-残基潜在的关系图,并将关系图固定为设定大小;/n将蛋白质残基-残基潜在的关系图输入到训练好的卷积神经网络中,获取分类层前一层的输出作为深度特征;/n将深度特征输入到训练好的孪生网络中得到最终的蛋白质特征;/n基于蛋白质特征计算查询蛋白与模板蛋白之间的欧式距离,将与查询蛋白质距离最近的模板蛋白质的折叠类型分配给查询蛋白质。/n

【技术特征摘要】
1.一种基于深度度量学习的蛋白质折叠识别方法,其特征在于,包括:
对蛋白质进行编码,得到蛋白质序列的数字表达;
将蛋白质序列的数字表达输入到SSA模型,取模型输出层的上一层输出作为蛋白质残基-残基潜在的关系图,并将关系图固定为设定大小;
将蛋白质残基-残基潜在的关系图输入到训练好的卷积神经网络中,获取分类层前一层的输出作为深度特征;
将深度特征输入到训练好的孪生网络中得到最终的蛋白质特征;
基于蛋白质特征计算查询蛋白与模板蛋白之间的欧式距离,将与查询蛋白质距离最近的模板蛋白质的折叠类型分配给查询蛋白质。


2.根据权利要求1所述基于深度度量学习的蛋白质折叠识别方法,其特征在于,采用抽样或者填充操作将关系图固定为设定大小。


3.根据权利要求1所述基于深度度量学习的蛋白质折叠识别方法,其特征在于,关系图大小固定为256×256。


4.根据权利要求1所述基于深度度量学习的蛋白质折叠识别方法,其特征在于,卷积神经网络的训练过程为:
将蛋白质残基-残基潜在的关系图...

【专利技术属性】
技术研发人员:於东军刘岩
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1