【技术实现步骤摘要】
基于三元组损失的蛋白质折叠识别方法
本专利技术属于生物信息学预测蛋白质结构领域,具体为一种基于三元组损失的蛋白质折叠识别方法。
技术介绍
蛋白质折叠类型的确定可以揭示生命的第二套遗传密码,具体来说就是蛋白质的一级结构是如何决定他的空间结构的方式。众所周知,蛋白质的三维结构对于研究蛋白质的功能与性质起着至关重要的作用,而正确的确定蛋白质的折叠识别又是预测蛋白质三维结构的关键一环。另外,由于蛋白质的折叠方式对蛋白质的异质性以及分子功能都有着深远的影响,所以在医药人工设计蛋白质、寻找致命机理以及包涵体复性等领域都会有着巨大的促进作用。因次,快速而准确的识别蛋白质的折叠类型对生命科学,医药科学的发展都有着重要的意义。在研究的早期阶段,确定蛋白质的结构通常采用的是传统的实验方法,例如X射线晶体法和核磁共振光谱法。但是,这些传统的方法的缺点也十分的明显,成本高而且耗费的时间相当长。另外随着实验技术的发展以及人类结构基因组的不断推进,蛋白质数据库中累积了大量的具有已知折叠类型的蛋白质。因次应用生物信息学中的相关知识,研发能够直接快 ...
【技术保护点】
1.一种基于三元组损失的蛋白质折叠识别方法,其特征在于,包括以下步骤:/n步骤1:训练数据预处理:使用one-hot编码分别对N组蛋白质训练数据进行编码,得到蛋白质序列的数字表达;/n步骤2:把蛋白质序列的One-hot编码输入到SSA蛋白质残基与残基接触图预测工具中,预测获得蛋白质残基与残基之间的接触图;/n步骤3:将接触图固定为设定大小,获得N个固定大小的矩阵;/n步骤4:将N个矩阵生成三元组数据,将三元组数据输入卷积神经网络,并以三元组损失作为目标函数,使用随机梯度下降算法迭代至设定次数,选取三元组损失最小的卷积神经网络模型保存;/n步骤5:将查询蛋白与所有的模板蛋白 ...
【技术特征摘要】
1.一种基于三元组损失的蛋白质折叠识别方法,其特征在于,包括以下步骤:
步骤1:训练数据预处理:使用one-hot编码分别对N组蛋白质训练数据进行编码,得到蛋白质序列的数字表达;
步骤2:把蛋白质序列的One-hot编码输入到SSA蛋白质残基与残基接触图预测工具中,预测获得蛋白质残基与残基之间的接触图;
步骤3:将接触图固定为设定大小,获得N个固定大小的矩阵;
步骤4:将N个矩阵生成三元组数据,将三元组数据输入卷积神经网络,并以三元组损失作为目标函数,使用随机梯度下降算法迭代至设定次数,选取三元组损失最小的卷积神经网络模型保存;
步骤5:将查询蛋白与所有的模板蛋白按照步骤1-3进行处理后分别输入保存的卷积神经网络中,将卷积神经网络输出的结果作为蛋白质特定于折叠类型的特征;
步骤6:计算查询蛋白与模板蛋白的相似度,将相似度最高的模板蛋白的折叠类型分配给查询蛋白。
2.根据权利要求1所述的基于三元组损失的蛋白质折叠识别方法,其特征在于,步骤3中将接触图大小固定为256...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。