【技术实现步骤摘要】
基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法
本专利技术涉及一种基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法,属于mirco-RNA前体识别方法
技术介绍
微小RNA(miRNA)是一组非编码的短(约21nt)RNA,其作为细胞生物过程中的调节剂起重要作用。pre-miRNA的识别和发现有助于理解调节过程,miRNA和其他基因的功能,以及更多的生物进化。大多数miRNA的生物发生机制被认为是相似的:miRNA来自pre-miRNA,其包括不完美的发夹结构,然后在cy-toplasm中,成熟形式通过Dicer核酸内切酶的作用产生。由于miRNA的重要性,miRNA的准确鉴定是重新研究miRNA功能和转录后遗传过程的首要任务。有两种识别miRNA的方法,传统的实验方法(耗费时间和金钱)和计算方法。因此,近年来越来越重视计算方法的发展。计算方法的重点是使用机器学习技术来区分真正的pre-miRNA和伪pre-miRNA(具有类似发夹状的第二结构)。在神经网络分类器中,BP神经网络因其强大的 ...
【技术保护点】
1.一种基于Adaboost、BP神经网络和随机森林融合的mirco‑RNA前体识别方法,其特征在于,包括以下步骤:步骤1:从pre‑miRNA序列中提取N个特征;步骤2:通过提取特征及其相应的标签建立N/2个BP分类器和N/2个RF分类器;步骤3:在训练和建立分类器时,计算每个分类器获得的相应权重;步骤4:组合弱权重分布的分类器获得强分类器。
【技术特征摘要】
1.一种基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法,其特征在于,包括以下步骤:步骤1:从pre-miRNA序列中提取N个特征;步骤2:通过提取特征及其相应的标签建立N/2个BP分类器和N/2个RF分类器;步骤3:在训练和建立分类器时,计算每个分类器获得的相应权重;步骤4:组合弱权重分布的分类器获得强分类器。2.根据权利要求1所述识别方法,其特征在于,所述步骤1中从pre-miRNA序列中提取N个特征包括一级序列特征和二级序列特征;所述一级序列特征为N-Gram频率,选择N值为3,在指定序列的三核苷酸组中存在64个组合,获得总共64维频率特征作为N-Gram频率特征;所述二级序列特征包括三重结构序列、碱基对含量特征和MFE功能;其中,所述三重结构序列为对于任何三个核苷酸单元,有8个可能的组合,考虑三个字符组的第一个核苷酸,有32个不同的组合;所述碱基对含量特征为miRNA序列中的核苷酸配对G-C配对的频率;MFE功能为最小自由能。3.根据权...
【专利技术属性】
技术研发人员:胡杨,逄龙,程亮,张凝一,赵天意,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。