基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法技术

技术编号:21345861 阅读:32 留言:0更新日期:2019-06-13 23:20
本发明专利技术提供了一种基于Adaboost、BP神经网络和随机森林融合的mirco‑RNA前体识别方法,属于mirco‑RNA前体识别方法技术领域。本发明专利技术从pre‑miRNA序列中提取N个特征;通过提取特征及其相应的标签建立N/2个BP分类器和N/2个RF分类器;在训练和建立分类器时,计算每个分类器获得的相应权重;通过组合弱权重分布的分类器获得强分类器。本发明专利技术可以避免传统BP神经网络和RF算法分类器过度拟合和不稳定的缺点,整合了多个弱分类器并将权重分配给它们;最后,获得了具有高精度和稳定性的强分类器,可以获得高预测准确度。

【技术实现步骤摘要】
基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法
本专利技术涉及一种基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法,属于mirco-RNA前体识别方法

技术介绍
微小RNA(miRNA)是一组非编码的短(约21nt)RNA,其作为细胞生物过程中的调节剂起重要作用。pre-miRNA的识别和发现有助于理解调节过程,miRNA和其他基因的功能,以及更多的生物进化。大多数miRNA的生物发生机制被认为是相似的:miRNA来自pre-miRNA,其包括不完美的发夹结构,然后在cy-toplasm中,成熟形式通过Dicer核酸内切酶的作用产生。由于miRNA的重要性,miRNA的准确鉴定是重新研究miRNA功能和转录后遗传过程的首要任务。有两种识别miRNA的方法,传统的实验方法(耗费时间和金钱)和计算方法。因此,近年来越来越重视计算方法的发展。计算方法的重点是使用机器学习技术来区分真正的pre-miRNA和伪pre-miRNA(具有类似发夹状的第二结构)。在神经网络分类器中,BP神经网络因其强大的自学习能力而成为一种本文档来自技高网...

【技术保护点】
1.一种基于Adaboost、BP神经网络和随机森林融合的mirco‑RNA前体识别方法,其特征在于,包括以下步骤:步骤1:从pre‑miRNA序列中提取N个特征;步骤2:通过提取特征及其相应的标签建立N/2个BP分类器和N/2个RF分类器;步骤3:在训练和建立分类器时,计算每个分类器获得的相应权重;步骤4:组合弱权重分布的分类器获得强分类器。

【技术特征摘要】
1.一种基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法,其特征在于,包括以下步骤:步骤1:从pre-miRNA序列中提取N个特征;步骤2:通过提取特征及其相应的标签建立N/2个BP分类器和N/2个RF分类器;步骤3:在训练和建立分类器时,计算每个分类器获得的相应权重;步骤4:组合弱权重分布的分类器获得强分类器。2.根据权利要求1所述识别方法,其特征在于,所述步骤1中从pre-miRNA序列中提取N个特征包括一级序列特征和二级序列特征;所述一级序列特征为N-Gram频率,选择N值为3,在指定序列的三核苷酸组中存在64个组合,获得总共64维频率特征作为N-Gram频率特征;所述二级序列特征包括三重结构序列、碱基对含量特征和MFE功能;其中,所述三重结构序列为对于任何三个核苷酸单元,有8个可能的组合,考虑三个字符组的第一个核苷酸,有32个不同的组合;所述碱基对含量特征为miRNA序列中的核苷酸配对G-C配对的频率;MFE功能为最小自由能。3.根据权...

【专利技术属性】
技术研发人员:胡杨逄龙程亮张凝一赵天意
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1