基于三元组损失的蛋白质折叠识别方法技术

技术编号:26794823 阅读:52 留言:0更新日期:2020-12-22 17:11
本发明专利技术公开了一种基于三元组损失的蛋白质折叠识别方法,包括以下几个步骤:使用one‑hot编码对蛋白质进行编码,将编码后的蛋白质输入到SSA程序中,得到蛋白质残基与残基之间的接触图,把接触图作为输入数据,输入到预先训练好的深度学习框架中,网络的输出就为蛋白质特定于折叠识别的特征;把查询蛋白的特征与蛋白质数据库中已知蛋白质折叠类别的模板蛋白质相比较,将距离查询蛋白最近的模板蛋白质的折叠类别被分配给查询蛋白。本发明专利技术借鉴三元组损失的训练思想,使得同类之间的蛋白质结构距离更近,不同类之间的蛋白质结构更远,从而使得蛋白质的特征表达具有更强的鉴别力,使得识别效率更高。

【技术实现步骤摘要】
基于三元组损失的蛋白质折叠识别方法
本专利技术属于生物信息学预测蛋白质结构领域,具体为一种基于三元组损失的蛋白质折叠识别方法。
技术介绍
蛋白质折叠类型的确定可以揭示生命的第二套遗传密码,具体来说就是蛋白质的一级结构是如何决定他的空间结构的方式。众所周知,蛋白质的三维结构对于研究蛋白质的功能与性质起着至关重要的作用,而正确的确定蛋白质的折叠识别又是预测蛋白质三维结构的关键一环。另外,由于蛋白质的折叠方式对蛋白质的异质性以及分子功能都有着深远的影响,所以在医药人工设计蛋白质、寻找致命机理以及包涵体复性等领域都会有着巨大的促进作用。因次,快速而准确的识别蛋白质的折叠类型对生命科学,医药科学的发展都有着重要的意义。在研究的早期阶段,确定蛋白质的结构通常采用的是传统的实验方法,例如X射线晶体法和核磁共振光谱法。但是,这些传统的方法的缺点也十分的明显,成本高而且耗费的时间相当长。另外随着实验技术的发展以及人类结构基因组的不断推进,蛋白质数据库中累积了大量的具有已知折叠类型的蛋白质。因次应用生物信息学中的相关知识,研发能够直接快速的从蛋白质序列出发本文档来自技高网...

【技术保护点】
1.一种基于三元组损失的蛋白质折叠识别方法,其特征在于,包括以下步骤:/n步骤1:训练数据预处理:使用one-hot编码分别对N组蛋白质训练数据进行编码,得到蛋白质序列的数字表达;/n步骤2:把蛋白质序列的One-hot编码输入到SSA蛋白质残基与残基接触图预测工具中,预测获得蛋白质残基与残基之间的接触图;/n步骤3:将接触图固定为设定大小,获得N个固定大小的矩阵;/n步骤4:将N个矩阵生成三元组数据,将三元组数据输入卷积神经网络,并以三元组损失作为目标函数,使用随机梯度下降算法迭代至设定次数,选取三元组损失最小的卷积神经网络模型保存;/n步骤5:将查询蛋白与所有的模板蛋白按照步骤1-3进行处...

【技术特征摘要】
1.一种基于三元组损失的蛋白质折叠识别方法,其特征在于,包括以下步骤:
步骤1:训练数据预处理:使用one-hot编码分别对N组蛋白质训练数据进行编码,得到蛋白质序列的数字表达;
步骤2:把蛋白质序列的One-hot编码输入到SSA蛋白质残基与残基接触图预测工具中,预测获得蛋白质残基与残基之间的接触图;
步骤3:将接触图固定为设定大小,获得N个固定大小的矩阵;
步骤4:将N个矩阵生成三元组数据,将三元组数据输入卷积神经网络,并以三元组损失作为目标函数,使用随机梯度下降算法迭代至设定次数,选取三元组损失最小的卷积神经网络模型保存;
步骤5:将查询蛋白与所有的模板蛋白按照步骤1-3进行处理后分别输入保存的卷积神经网络中,将卷积神经网络输出的结果作为蛋白质特定于折叠类型的特征;
步骤6:计算查询蛋白与模板蛋白的相似度,将相似度最高的模板蛋白的折叠类型分配给查询蛋白。


2.根据权利要求1所述的基于三元组损失的蛋白质折叠识别方法,其特征在于,步骤3中将接触图大小固定为256...

【专利技术属性】
技术研发人员:於东军刘岩
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1