【技术实现步骤摘要】
基于深度度量学习的蛋白质折叠识别方法
本专利技术属于生物信息学预测蛋白质结构领域,具体为一种基于深度度量学习的蛋白质折叠识别方法。
技术介绍
随着基因工程的不断推进,人类已知的蛋白质序列信息呈指数级增长,但是对于蛋白质的生物特性与结构,却知之甚少。这是因为即使对单个蛋白质而言,了解其功能与三维结构也是一项艰巨的任务。所以要理解所有这些序列,最好的方法就是通过搜索数据库,将它们与其他已知功能与结构的蛋白质联系起来,提高这种算法仍然是当今生物信息学领域重大的挑战之一。蛋白质折叠识别的核模板匹配思想就是基于此,它的目标是对一个新的蛋白质(已知序列),通过相似度比对,与查询蛋白最相似的模板蛋白在蛋白质的折叠方式上与查询蛋白越相似。此外还有把蛋白质折叠识别看成一个分类问题,对于一个查询蛋白,直接把查询蛋白分类到最大可能的折叠类型。上面两种思想的关键在于从蛋白质序列中抽取强大的蛋白质特征表示。Fletez-Brant等人(Fletez-Brant,Christopher,etal."kmer-SVM:awebserverfori ...
【技术保护点】
1.一种基于深度度量学习的蛋白质折叠识别方法,其特征在于,包括:/n对蛋白质进行编码,得到蛋白质序列的数字表达;/n将蛋白质序列的数字表达输入到SSA模型,取模型输出层的上一层输出作为蛋白质残基-残基潜在的关系图,并将关系图固定为设定大小;/n将蛋白质残基-残基潜在的关系图输入到训练好的卷积神经网络中,获取分类层前一层的输出作为深度特征;/n将深度特征输入到训练好的孪生网络中得到最终的蛋白质特征;/n基于蛋白质特征计算查询蛋白与模板蛋白之间的欧式距离,将与查询蛋白质距离最近的模板蛋白质的折叠类型分配给查询蛋白质。/n
【技术特征摘要】
1.一种基于深度度量学习的蛋白质折叠识别方法,其特征在于,包括:
对蛋白质进行编码,得到蛋白质序列的数字表达;
将蛋白质序列的数字表达输入到SSA模型,取模型输出层的上一层输出作为蛋白质残基-残基潜在的关系图,并将关系图固定为设定大小;
将蛋白质残基-残基潜在的关系图输入到训练好的卷积神经网络中,获取分类层前一层的输出作为深度特征;
将深度特征输入到训练好的孪生网络中得到最终的蛋白质特征;
基于蛋白质特征计算查询蛋白与模板蛋白之间的欧式距离,将与查询蛋白质距离最近的模板蛋白质的折叠类型分配给查询蛋白质。
2.根据权利要求1所述基于深度度量学习的蛋白质折叠识别方法,其特征在于,采用抽样或者填充操作将关系图固定为设定大小。
3.根据权利要求1所述基于深度度量学习的蛋白质折叠识别方法,其特征在于,关系图大小固定为256×256。
4.根据权利要求1所述基于深度度量学习的蛋白质折叠识别方法,其特征在于,卷积神经网络的训练过程为:
将蛋白质残基-残基潜在的关系图...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。