一种决策树算法中连续属性离散化处理的方法和装置制造方法及图纸

技术编号：17812794 阅读：50 留言：0更新日期：2018-04-28 05:32

本发明专利技术提供一种决策树算法中连续属性离散化处理的方法和装置，通过将样本数据集中样本数据按数值的大小排序并划分成多个区间；确定样本数据的数量小于第一预设值的第一少数样本数据区间；并通过确定与第一少数样本数据区间两端相邻的两个区间的标记相同，则将与第一少数样本数据区间两端相邻的两个区间和第一少数样本数据区间合并；在对连续属性离散化处理的过程中，将区间中样本数据的数量和区间的标记作为判断基础，合并满足条件的区间，即在尽可能的保持样本数据的较低不纯度的条件下，减少区间的总数量，一方面有利于将决策树保持在较小的规模，另一方面保证了决策树构造过程中的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种决策树算法中连续属性离散化处理的方法和装置
本专利技术涉及数据处理
，更具体地，涉及一种决策树算法中连续属性离散化处理的方法和装置。
技术介绍
决策树由于以图形化的树型结构表示，形象具体，容易理解，是一种极受欢迎的分类分析模型。目前，在众多的决策树构造算法中，最有影响力的是ID3算法和以ID3算法为基础改进后的C4.5算法。ID3算法和C4.5算法采用自顶向下的贪婪算法，在每个结点选择分类效果最好的样本数据，继续这一过程直到决策树能准确地分类训练样本数据，或所有的样本数据都被使用，通常还需要对决策树进行剪枝处理以限制决策树的规模并提高预测精度。决策树算法的核心问题是在每个结点选取要测试的样本数据，以及对决策树进行剪枝。ID3算法和C4.5算法比较适用于离散型的描述性样本数据，当用来处理连续数值型的描述样本数据时，生成的决策树庞大，表述也难以理解，通常需要先将连续属性离散化。在决策树的构造算法中，将连续属性离散化，一方面要求区间的数量不能太多，否则生成的决策树过于庞大，另一方面，要求离散化后样本数据的不纯度较低，不纯度表示一个随机选中的样本数据在区间中被分...
一种决策树算法中连续属性离散化处理的方法和装置

【技术保护点】
一种决策树算法中连续属性离散化处理的方法，其特征在于，包括：将具有连续属性的样本数据集中样本数据按数值大小排序，并将所述样本数据集划分成多个区间；根据每一区间中样本数据的类别确定每一区间的标记，区间的标记为区间中同一类别的数量最多的样本数据的类别；根据每一区间中样本数据的数量确定第一少数样本数据区间，所述第一少数样本数据区间为区间中样本数据的数量小于第一预设值的区间；确定与所述第一少数样本数据区间两端相邻的两个区间的标记相同，则将与所述第一少数样本数据区间两端相邻的两个区间和所述第一少数样本数据区间合并。

【技术特征摘要】
1.一种决策树算法中连续属性离散化处理的方法，其特征在于，包括：将具有连续属性的样本数据集中样本数据按数值大小排序，并将所述样本数据集划分成多个区间；根据每一区间中样本数据的类别确定每一区间的标记，区间的标记为区间中同一类别的数量最多的样本数据的类别；根据每一区间中样本数据的数量确定第一少数样本数据区间，所述第一少数样本数据区间为区间中样本数据的数量小于第一预设值的区间；确定与所述第一少数样本数据区间两端相邻的两个区间的标记相同，则将与所述第一少数样本数据区间两端相邻的两个区间和所述第一少数样本数据区间合并。2.根据权利要求1所述的方法，其特征在于，所述将与所述第一少数样本数据区间两端相邻的两个区间和所述第一少数样本数据区间合并之后，还包括：确定不一致样本数据的数量，所述不一致样本数据为每一区间中样本数据的类型与区间的标记不一致的样本数据；根据所述不一致样本数据的数量和所述样本数据集中样本数据的总数量确定不一致度；若所述不一致度大于第二预设值，则恢复区间中样本数据的数量小于所述第一预设值且大于第三预设值的区间。3.根据权利要求1所述的方法，其特征在于，所述将与所述第一少数样本数据区间两端相邻的两个区间和所述第一少数样本数据区间合并之后，还包括：若区间的总数量大于第四预设值，则根据每一区间中样本数据的数量确定第二少数样本数据区间，所述第二少数样本数据区间为区间中样本数据的数量大于或等于所述第一预设值且小于第五预设值的区间；确定与所述第二少数样本数据区间两端相邻的两个区间的标记相同，则将与所述第二少数样本数据区间两端相邻的两个区间和所述第二少数样本数据区间合并。4.根据权利要求1所述的方法，其特征在于，所述将所述样本数据集划分成多个区间，包括：确定所述样本数据集中样本数据的最大数值和最小数值；在所述最大...

【专利技术属性】
技术研发人员：高万林，康博涵，贾敬敦，于丽娜，陶莎，仲贞，
申请(专利权)人：中国农业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人