【技术实现步骤摘要】
一种优化的随机森林处理不平衡数据集的方法
本专利技术属于数据分析、挖掘和机器学习
,特别涉及一种优化的随机森林处理不平衡数据集的方法。技术背景随着大数据时代的到来,数据挖掘成为越来越重要的技术,而分类是数据挖掘中最常见的任务,利用分类算法挖掘数据的潜在信息,有利于对问题提供有效的预测。在现实中的分类场景往往存在许多数据集分布不均衡的情况,而针对不同的问题,不同的分类有着不同的重视程度。一般的分类算法追求提升数据集整体的分类准确率,导致对少数类样本的预测分类准确率远低于对多数类样本的预测分类准确率,即将少数类样本错分为多数类从而偏向于多数类,而在一些领域,少数类样本的分类信息有着更重要的价值。随机森林算法是一种机器学习的集成算法,利用Bootstrap随机重采样技术和随机特征选择技术构建多棵决策树,通过投票得到分类结果。该算法解决了单棵决策树容易过拟合的缺点,并且随机森林有着良好的鲁棒性及泛化能力,是一种优秀的分类算法。但随机森林处理不均衡数据集也有着一样的缺陷,即更偏向于提高整体的准确率而导致少数类 ...
【技术保护点】
1.一种优化的随机森林处理不平衡数据集的方法,其特征在于,所述方法包括数据预处理、随机森林模型的构建和分类预测,其中,所述数据预处理将找出少数类样本最近邻的k个多数类样本,组成难区分的区域,将这个区域的样本在原始数据集中进行重标签,且在难区分的区域进行少数类样本的生成,将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出;所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集,得到两个随机森林模型;所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证,最后获得样本的分类预测结果。/n
【技术特征摘要】
1.一种优化的随机森林处理不平衡数据集的方法,其特征在于,所述方法包括数据预处理、随机森林模型的构建和分类预测,其中,所述数据预处理将找出少数类样本最近邻的k个多数类样本,组成难区分的区域,将这个区域的样本在原始数据集中进行重标签,且在难区分的区域进行少数类样本的生成,将重标签后的原始数据以及新增样本后的难区分区域作为不同的训练集输出;所述随机森林模型的构建将经过所述数据预处理部分处理的2个数据集作为模型的训练集,得到两个随机森林模型;所述分类预测将分两个阶段进入到所述的两个随机森林模型进行验证,最后获得样本的分类预测结果。
2.根据权利要求1所述的优化的随机森林处理不平衡数据集的方法,其特征在于,所述据预处理包括:
A:读取原始数据集S;
B:首先将原始数据集S区分为多数类样本集Smaj和少数类样本集Smin,应用k近邻算法找出少数类样本集中每个样本最近邻的k个多数类样本,这些多数类样本组成Sk-maj样本集,将Smin和Sk-maj样本集组成的区域成为难区分的区域;
C:在原始数据集中将难区分区域中的样本赋予新的类标unknown,但是在难区分区域中,这些样本仍保留其原有类标;
D:在少数类样本与其最近邻的多数类样本之间进行样本的生成,新生成的样本均标为少数类;
E:输出重标签后的原始数据集Snew以及插入新样本后的难区分区域的数据集Sarea。
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。