【技术实现步骤摘要】
基于提升度决策树及改进SMOTE对不平衡数据的分类方法
本专利技术属于数据挖掘方法
,涉及基于提升度决策树及改进SMOTE对不平衡数据的分类方法。
技术介绍
随着信息技术的飞速发展,以及近年来大数据和5G技术的普及,越来越多的领域产生海量的数据信息。在这些海量信息中包含大量无关、冗余的内容。同时在一些领域的数据中,会出现大量的不平衡分类的数据,使用这些数据进行预测或分类,会造成测试数据的分类结果不准确问题。针对上述第一个问题:海量数据中包含大量无关、冗余的内容。使用特征选择对其进行处理,将数据中无关或冗余的特征以及对于分类作用不大的特征删除,保留与类别相关性大以及特征之间冗余性低的特征。这样就会提高机器学习算法的分类准确率,降低算法的运行时间,提高效率。针对上述第二个问题:一些领域数据中每种类别中的样本数不平衡。通过使用不平衡数据处理方法,在数据预处理阶段向少数类中添加样本或在多数类中只选择部分样本。这样就会形成一个平衡数据集。特征选择是数据挖掘领域中的一种重要方法,经常用在数据预处理、构建模型 ...
【技术保护点】
1.基于提升度决策树及改进SMOTE对不平衡数据的分类方法,其特征在于,具体按照以下步骤实施:/n步骤1、对数据进行预处理;/n步骤2、将经过数据预处理后的数据集使用改进SMOTE算法进行处理,将不平衡数据集平衡化;/n步骤3、将经过平衡后的数据集使用十折交叉验证方法划分为训练数据和测试数据;/n步骤4、将训练数据使用基于提升度的决策树算法进行训练,建立决策树模型;/n步骤5、使用建立好的决策树模型对测试数据进行测试,得到输出结果。/n
【技术特征摘要】
1.基于提升度决策树及改进SMOTE对不平衡数据的分类方法,其特征在于,具体按照以下步骤实施:
步骤1、对数据进行预处理;
步骤2、将经过数据预处理后的数据集使用改进SMOTE算法进行处理,将不平衡数据集平衡化;
步骤3、将经过平衡后的数据集使用十折交叉验证方法划分为训练数据和测试数据;
步骤4、将训练数据使用基于提升度的决策树算法进行训练,建立决策树模型;
步骤5、使用建立好的决策树模型对测试数据进行测试,得到输出结果。
2.根据权利要求1所述的基于提升度决策树及改进SMOTE对不平衡数据的分类方法,其特征在于,所述步骤1具体为:
数据集为Data_set={d1,d2,d3,...dp},o=1,2,3...p
包含类别C={c1,c2,c3,...cm},i=1,2,3...m,特征F={f1,f2,f3,...fn},j=1,2,3,...n;将该数据集中的缺失特征值使用众数进行补全,将连续特征值使用K-Means算法离散化,将字符串类型的特征值转换为标称型,将字符串型的类别值转换为标称数值型。
3.根据权利要求1所述的基于提升度决策树及改进SMOTE对不平衡数据的分类方法,其特征在于,所述步骤2具体为:
步骤2.1、首先按照类别标签将初始数据集Data_set分为不同的数据子集Di;
步骤2.2、对于每个类别ci,计算每个样本do与该类别中其他样本du之间的欧氏距离dist(do,du),并求和取平均值作为该样本do到其余样本的平均距离;将计算得到的每个样本do与该类别中其他样本间平均欧式距离由大到小进行排序;将排序后的平均欧式距离序列中平均距离排名在前百分之十的样本作为离群点样本进行删除;对每个类别ci都重复上述操作,直到所有类别都被遍历;
欧式距离计算公式如下:
步骤2.3、统计目前每个类别ci的样本数量number(ci)以及所有类别的平均样本数
步骤2.4、在每个类别ci中,如果该类别中的样本数量number(ci)少于类别平均样本数则在该类别ci中添加新的样本dnew;
求解中心点d_middle;
计算该类别样本数number(ci)与平均类别样本数的差值w,在该类别ci中添加w个新样本;
添加新样本的公式如下:
dnew...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。