【技术实现步骤摘要】
一种随机森林算法结合模群种群的数据变量选择方法
本专利技术涉及一种随机森林算法结合模群种群的数据变量选择方法。属于生物信息学领域。
技术介绍
随着代谢组学技术的发展,从高通量分析方法得到的数据越来越复杂。因而,当前的研究已经从如何获取代谢组学信息变为如何解析这些高通量信息了。变量选择在代谢组学中是非常重要的,一方面特征选择能帮助构建更好的模型,另一方面特征选择能帮助进一步了解这些代谢组学数据,帮助分析数据模式,确定疾病的标记物。交互检验的方法常用来解决数据不能劈分的问题,但是在实施过程中都将使用到全部数据集的信息,这样在评估模型的时,对模型的判别错误率出现有偏的估计。因此,如何避免用于训练的数据集不会被当作测试集是构建新的方法时需要考虑的;在变量选择中的另一个问题就是变量重要度计算时的不稳定性,即在对同一数据进行多次运算时得到的结果常常不一致。如何得到一个相对更加稳定的结果也是构建新的变量选择方法需要考虑到的。
技术实现思路
本专利技术结合随机森林算法和模群种群分析,提出了一种特征选择方法。为了达 ...
【技术保护点】
1.一种随机森林算法结合模群种群分析数据变量选择方法,其特征在于:通过MonteCarlo采样从原始数据集中提取出每个子模型的数据集,在选择好数据集后,开始构建随机森林子模型,选择每个随机森林中包含的分类回归树数目。/n
【技术特征摘要】
1.一种随机森林算法结合模群种群分析数据变量选择方法,其特征在于:通过MonteCarlo采样从原始数据集中提取出每个子模型的数据集,在选择好数据集后,开始构建随机森林子模型,选择每个随机森林中包含的分类回归树数目。
2.根据权利要求1所述数据集,其特征在于:分别采用准确率、灵敏度、特异度、精密度以及相关系数对分类模型所得结果进行评价。...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。