基于全局剪枝和级联特征的植物lncPEPs预测方法技术

技术编号:41228555 阅读:28 留言:0更新日期:2024-05-09 23:45
本发明专利技术涉及一种基于全局剪枝和级联特征的植物lncPEPs预测方法,其技术特点是:搜集lncPEPs序列数据并构建用于模型训练和测试的数据集;基于下采样,对极端不平衡数据集进行拆分,并对特征进行抽取和选择;基于多角度进行全局剪枝,获得优化模型和全局最优子数据集;构建深层集成结构获取级联特征;将级联特征输入到由机器学习模型构成的元学习器中,由此构建预测方法lncPEPPred,并采用该方法lncPEPPred预测植物lncPEPs。本发明专利技术将生物信息学技术和机器学习技术结合在一起,能够准确、有效地实现了对植物lncPEPs的预测功能,有利于揭示生命体抗病抗逆等的分子机制,在农业生产等领域具有重要的价值。

【技术实现步骤摘要】

本专利技术属于生物信息,涉及生物信息学和机器学习方法,尤其是一种基于全局剪枝和级联特征的植物lncpeps预测方法。


技术介绍

1、长非编码rna(long noncoding rna,lncrna)广泛存在于生物体中并具有强大的调控作用,是生命科学领域的研究前沿与热点。传统观点认为,lncrna缺乏一类具备编码蛋白质能力的元件——开放阅读框(open reading frames,orfs),因而不具备编码能力。然而,近年来的研究表明,部分lncrna包含小开放阅读框(small open reading frames,sorfs),能够编码参与调控生物体的生长发育、胁迫反应的小肽。对lncrna编码肽(lncrna-encoded peptides,lncpeps)的发现,颠覆了研究人员对lncrna的认知,拓宽并加深了研究人员对基因组学的研究广度和深度,这也使lncpeps成为了生命科学领域的研究热点。

2、分子生物学实验是预测lncpeps的经典技术,然而面临耗时且昂贵的问题。基于机器学习技术开发的预测方法省时省力,同时能为生物学实验提本文档来自技高网...

【技术保护点】

1.一种基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:所述步骤1的具体实现方法包括以下步骤:

3.根据权利要求2所述的基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:所述步骤1.1和步骤1.2还包括使用CD-HIT工具以0.8作为阈值去除序列冗余的处理步骤。

4.根据权利要求1所述的基于全局剪枝和级联特征的植物lncPEPs预测方法,其特征在于:所述步骤2的具体实现方法包括以下步骤:

5.根据权利要求4所...

【技术特征摘要】

1.一种基于全局剪枝和级联特征的植物lncpeps预测方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于全局剪枝和级联特征的植物lncpeps预测方法,其特征在于:所述步骤1的具体实现方法包括以下步骤:

3.根据权利要求2所述的基于全局剪枝和级联特征的植物lncpeps预测方法,其特征在于:所述步骤1.1和步骤1.2还包括使用cd-hit工具以0.8作为阈值去除序列冗余的处理步骤。

4.根据权利要求1所述的基于全局剪枝和级联特征的植物lncpeps预测方法,其特征在于:所述步骤2的具体实现方法包括以下步骤:

5.根据权利要求4所述的基于全局剪枝和级联特征的植物lncpeps预测方法,其特征在于:所述efiss-es特征选择方法为:首先对经嵌入方法重要性得分eimp和统计方法重要性得分simp进行加权运算,得到特征排序结果impf:

6.根据权利要求1所述的基于全局...

【专利技术属性】
技术研发人员:赵思远周艳聪薛玉岱
申请(专利权)人:天津商业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1