一种通过改进随机森林提高类不平衡分类性能的方法技术

技术编号:26378479 阅读:50 留言:0更新日期:2020-11-19 23:47
本发明专利技术提供了一种通过改进随机森林算法提高类不平衡分类性能的方法,该方法包括首先获取训练数据集,利用随机森林算法生成一个随机森林;然后利用每个样本数据未参与构建的树集合对该样本数据进行分类预测,得到预测值和投票比;选取所有本为正类却被预测为负类的样本数据,依次将其投票比作为新的投票边界进行再次分类预测,并计算G‑mean值;选取最大G‑mean值对应的投票比,作为最优投票边界值;最后利用该最优投票边界值和随机森林对新数据进行分类。本发明专利技术通过对传统的随机森林算法进行改进,充分挖掘训练数据集的信息,自动获取最优投票边界,无需人工设定参数;本发明专利技术能够有效提高类不平衡分类性能和少数类样本分类准确度。

【技术实现步骤摘要】
一种通过改进随机森林提高类不平衡分类性能的方法
本专利技术涉及一种改进随机森林算法提高类不平衡分类准确性的方法,属于数据分析、挖掘和机器学习

技术介绍
类不平衡分类问题是数据挖掘和机器学习领域中一个非常重要的组成部分。所谓类不平衡分类问题是指由于训练分类器的数据集具有类别分布不平衡的特点,属于不同类别的训练样本数量差别比较大,从而导致传统的分类算法失效的问题。在类不平衡问题中,人们通常将包含样本数较多的类别称为多数类或负类,而把包含样本数较少的类别称为少数类或正类。针对类不平衡分类问题的研究具有广泛的实际应用价值,特别值得关注的是,在许多类不平衡分类的实际问题中,人们非常期待分类算法能准确地预测出少数类样本的类别。然而,传统的分类算法在解决类别不平衡分类问题时效果不佳,特别是对少数类样本的分类预测精度比较低。原因是传统分类算法是基于样本类别分布均衡的假设,算法的目标是使总体的训练误差最小化,并不会特别关注少数类样本的分类准确度。比如训练集中有99个多数类样本,1个少数类样本,则分类算法只需要将所有的训练样本都预测为多数类,即可达到99%的高准确率。但是这样的分类器对于大部分类不平衡分类问题是没有价值的,因为它不能正确预测出任何少数类样本的类别。目前用于解决类不平衡问题的技术主要分为以下几类:(1)重采样技术:通过对训练样本集的重新采样,增加少数类样本或者减少多数类样本,来平衡训练集样本类别的分布,减轻分类算法在预测时对多数类的偏向。随机过采样ROS和随机欠采样RUS是最为简单常用的两种重采样技术。ROS由于增加了重复的少数类样本,增大了分类算法的开销和过拟合的风险;RUS随机减少了多数类的样本,可能导致关键分类信息的丢失,导致分类算法性能下降。(2)代价敏感技术:它的主要思想是通过定义代价矩阵为不同的误分类情况分配不同的代价,特别是少数类样本被误分为多数类时所付出的代价要远远高于多数类样本的被误分。使用代价敏感学习技术解决类不平衡学习问题的难度在于代价矩阵的定义,现实问题中代价矩阵往往不可知,需要用户凭经验设定。(3)决策阈值移动技术:其主要思想是对决策阈值做适当的补偿,将决策平面向多数类区域靠近,使得尽可能多的少数类样本被预测正确。目前提出了基于BP神经网络、支持向量机、决策树、置信度等技术的决策阈值移动方法。但上述方法的缺点在于决策阈值需要人通过经验设定,算法本身不能自适应地确定最优的决策阈值。综上,现有分类方法无法有效解决类不平衡分类时性能不佳、且少数类样本分类准确度低的问题;且无法自动实施,需要用户凭经验设定参数。
技术实现思路
本专利技术的目的是提供一种通过改进随机森林算法提高类不平衡分类性能的方法,以弥补现有技术的不足。本专利技术将对传统的随机森林算法进行改进,通过充分利用训练集的样本信息,自动确定随机森林的最优决策阈值。下文中将传统的随机森林算法简称为RF算法,将本专利技术提出的优化算法简称为RF-ODT算法。为达到上述目的,本专利技术采取的具体技术方案为:一种通过改进随机森林算法提高类不平衡分类性能的方法,该方法包括以下步骤:S1:获取训练样本数据集,且各样本数据均能够明确其为正类或负类;S2:基于上述训练样本数据集,利用RF算法生成一个随机森林RF0;S3:利用每个样本数据未参与构建的树集合对该样本数据进行分类预测,得到每个样本数据的预测分类值;S4:选取本为正类却被预测为负类的样本数据,将其Votes值作为新的投票边界进行再次分类预测,并计算G-mean值;所述Votes值代表投票某个样本数据为负类的树数占所有投票树数的比例;S5:找到S4执行结果中使G-mean取值最大的Votes值,即为最优投票边界;S6:利用S5得到的最优投票边界和RF0,对未知类别的新数据进行分类,输出分类结果。进一步的,所述S3具体为:S3-1:根据所述S2得到随机森林RF0,利用每个样本数据未参与构建的树集合对该样本数据进行分类预测,此时随机森林的投票边界采用默认值0.5;S3-2:获取每一个训练样本被其未参与构建的树集合进行分类预测时的投票结果Votes:设X为随机森林中预测某一样本为正类的树数,Y为预测该样本为负类的树数;Votes代表判定该样本为负类的树数占所有投票树数的比例,即Votes=Y/(X+Y);设Threshold为投票边界,当Votes≥Threshold时,该样本被判定为负类;否则,该样本被判定为正类;S3-3:将所有训练样本按照其Votes值从大到小顺序进行排列。更进一步的,所述S3-1中,随机森林的投票边界还可以根据待分类数据集的人工经验值进行选取,不限于0.5的默认值。进一步的,所述S4具体为:S4-1:确定最优投票边界的候选投票边界位置集合从RF的默认投票边界值0.5开始,沿着Votes值逐渐增大的方向,自动搜索那些本是正类却被预测为负类的训练样本,将这些样本的Votes值放入候选的投票边界位置集合;S4-2:依次将上述投票边界位置集合中的Votes值作为RF0的新的投票边界再进行分类,计算对应的G-mean值。更进一步的,所述S4-1中,所述默认投票边界值0.5还能够被待分类数据集的人工经验值进行替代,不限于0.5的默认值。所述的提高类不平衡分类性能的方法能够用于网络安全、生物信息、工业故障检测、医学领域(例如罕见病诊断等)等
本专利技术的优点和技术效果:本专利技术通过对传统的随机森林算法进行改进,能够自动获取最优的投票边界,无需凭借人工经验设定,只根据分布不平衡的训练数据集就能够自动确定随机森林的最优决策边界;本专利技术简便、有效地解决了传统分类算法中类不平衡分类性能不佳甚至失效、少数类样本预测准确度低的问题。且通过仿真试验,本专利技术与其他常用的五种算法进行比较,其性能指标G-mean值具有明显的优势,也进一步说明了本专利技术能够显著提高类不平衡分类性能和少数类样本分类准确度。附图说明图1为本专利技术的技术路线流程图。具体实施方式以下通过具体实施例并结合附图对本专利技术进一步解释和说明。实施例1:一种通过改进随机森林算法提高类不平衡分类性能的方法,该方法包括以下步骤(如图1所示):(1)首先在训练数据集上利用传统RF算法生成一个随机森林RF0,同时获取每一个训练样本被其未参与构建的树集合进行分类预测时的投票结果。根据传统RF算法的定义,由于在RF的建树过程中采用有放回采样,一个训练样本有接近63.2%的概率被选中去构建一棵树。它未参与构建的树集合可用于对该样本进行分类预测。所以,可以获取到每一个训练样本的投票结果,即在它未参与构建的树集合中有多少棵树投票将它划分为多数类(即负类),有多少棵树投票将它划分为少数类(即正类)。设X为随机森林中预测某一样本为正类的树数,Y为预测该样本为负类的树数。Vo本文档来自技高网
...

【技术保护点】
1.一种通过改进随机森林算法提高类不平衡分类性能的方法,其特征在于,该方法包括以下步骤:/nS1:获取训练样本数据集,且各样本数据均能够明确其为正类或负类;/nS2:基于上述训练样本数据集,利用随机森林算法生成一个随机森林RF0;/nS3:利用每个样本数据未参与构建的树集合对该样本数据进行分类预测,得到每个样本数据的预测分类值;/nS4:选取本为正类却被预测为负类的样本数据,将其Votes值作为新的投票边界进行再次分类预测,并计算G-mean值;所述Votes值代表投票某个样本数据为负类的树数占所有投票树数的比例;/nS5:找到S4执行结果中使G-mean取值最大的Votes值,即为最优投票边界;/nS6:利用S5得到的最优投票边界和RF0,对未知类别的新数据进行分类,输出分类结果。/n

【技术特征摘要】
1.一种通过改进随机森林算法提高类不平衡分类性能的方法,其特征在于,该方法包括以下步骤:
S1:获取训练样本数据集,且各样本数据均能够明确其为正类或负类;
S2:基于上述训练样本数据集,利用随机森林算法生成一个随机森林RF0;
S3:利用每个样本数据未参与构建的树集合对该样本数据进行分类预测,得到每个样本数据的预测分类值;
S4:选取本为正类却被预测为负类的样本数据,将其Votes值作为新的投票边界进行再次分类预测,并计算G-mean值;所述Votes值代表投票某个样本数据为负类的树数占所有投票树数的比例;
S5:找到S4执行结果中使G-mean取值最大的Votes值,即为最优投票边界;
S6:利用S5得到的最优投票边界和RF0,对未知类别的新数据进行分类,输出分类结果。


2.如权利要求1所述的提高类不平衡分类性能的方法,其特征在于,所述S3具体为:
S3-1:根据所述S2得到随机森林RF0,利用每个样本数据未参与构建的树集合对该样本数据进行分类预测,此时随机森林的投票边界采用默认值0.5;
S3-2:获取每一个训练样本被其未参与构建的树集合进行分类预测时的投票结果Votes:
设X为随机森林中预测某一样本为正类的树数,Y为预测该样本为负类的树数;Votes代表判定该样本为负类的树数占所有投票树数的比例,即Votes=Y/(X+Y);设Thresho...

【专利技术属性】
技术研发人员:周丽雅王景景张汉敬赵扬帆宫生文王芳
申请(专利权)人:青岛科技大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1