蛋白质二级结构预测方法、装置、设备及存储介质制造方法及图纸

技术编号:33446512 阅读:25 留言:0更新日期:2022-05-19 00:32
本申请提供一种蛋白质二级结构预测方法、装置、设备及存储介质,首先按照蛋白质序列长度将原始数据集划分为固定区间长度的多个数据子集,原始数据集包括多个序列长度在预设范围内的蛋白质一级结构,然后对每个数据子集进行编码处理对应得到各特征向量,将各特征向量确定为多个训练样本和多个预测样本,再根据多个训练样本、多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果。克服蛋白质在不同长度区间内分布不均衡的问题以提高预测准确率。预测所用的目标Stacking模型包括多层同质或者异质Stacking模型,与深度学习相比可以大幅度提升机器学习效果,通过整合多个简单机器学习模型达到适中的学习时长。单机器学习模型达到适中的学习时长。单机器学习模型达到适中的学习时长。

【技术实现步骤摘要】
蛋白质二级结构预测方法、装置、设备及存储介质


[0001]本申请涉及计算机应用
,尤其涉及一种蛋白质二级结构预测方法、装置、设备及存储介质。

技术介绍

[0002]随着测序技术的发展和相关研究的进行,指数级别增长的蛋白质一级结构序列(即组成蛋白质的氨基酸序列)已被测定,并存储在不同的大型生物数据库中。但在缺少蛋白质同源结构信息的情况下,很难用这些已知的一级结构序列来预测蛋白质三级结构。
[0003]但是,蛋白质二级结构可用于描述蛋白质的局部空间结构,其可以作为连接一级结构和三级结构的中介,有助于蛋白质三级结构的预测。因此,对于蛋白质二级结构的预测也是生物信息学中备受关注的研究方向。
[0004]如今,使用计算机技术利用一级结构序列预测蛋白质二级结构的技术手段被广泛使用,例如,采用深度学习等技术实现利用蛋白质的一级结构预测其二级结构。然而,现有手段仍然存在预测准确率不高以及机器学习时间较长等问题。可见,针对蛋白质二级结构的预测亟需一种解决方案以克服现有技术存在的缺陷。

技术实现思路

[0005]本申请提供一种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种蛋白质二级结构预测方法,其特征在于,包括:按照蛋白质序列长度将原始数据集划分为固定区间长度的多个数据子集,所述原始数据集包括多个序列长度在预设范围内的蛋白质一级结构;对每个数据子集进行编码处理对应得到各特征向量,将所述各特征向量确定为多个训练样本和多个预测样本;根据所述多个训练样本、所述多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果,所述目标Stacking模型包括多层同质或者异质Stacking模型。2.根据权利要求1所述的蛋白质二级结构预测方法,其特征在于,所述对每个数据子集进行编码处理对应得到各特征向量,包括:采用预设编码工具对所述每个数据子集进行编码,生成PSSM文件,所述PSSM文件包括所述各特征向量,所述预设编码工具的参数包括预设迭代次数、预设误差阈值以及预设滑动窗口长度。3.根据权利要求2所述的蛋白质二级结构预测方法,其特征在于,所述将所述各特征向量确定为多个训练样本和多个预测样本,包括:按照预设比例将数据集样本划分为所述多个训练样本和所述多个预测样本,所述数据集样本包括所述各特征向量。4.根据权利要求1

3任一项所述的蛋白质二级结构预测方法,其特征在于,所述根据所述多个训练样本、所述多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果,包括:每个预测样本作为第一层分类器的输入得到对应输出;将所述第一层分类器的输出进行拼接,以将拼接结果作为下一层分类器的输入,重复上述步骤,直到得到最后一层分类器的输出;将所述最后一层分类器的输出确定为所述蛋白质二级结构的预测结果;其中,各层分类器由每个训练样本训练得到的,所述最后一层分类器包括单一支持向量机,除所述最后一层分类器之外的其他层分类器包括同质或异质的多个神经网络,所述多层同质或者异质Stacking模型为所述各层分类器构成的Stacking模型。5.根据权利要求4所述的蛋白质二级结构预测方法,其特征在于,由所述每个训练样本训...

【专利技术属性】
技术研发人员:梁珩琳
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1