【技术实现步骤摘要】
基于分布式并行决策树的高维特征数据分类方法及系统
本专利技术涉及树型分类领域,并特别涉及一种基于分布式并行决策树的高维特征数据分类方法及系统。
技术介绍
决策树分类算法是一种基于实例的归纳学习方法,它能从给定的无序的训练样本中,提炼出树型的分类模型。树中的每个非叶子节点记录了使用哪个特征来进行类别的判断,每个叶子节点则代表了最后判断的类别。根节点到每个叶子节点均形成一条分类的路径规则。而对新的样本进行测试时,只需要从根节点开始,在每个分支节点进行测试,沿着相应的分支递归地进入子树再测试,一直到达叶子节点,该叶子节点所代表的类别即是当前测试样本的预测类别。1986年Quinlan提出了著名的ID3算法。在ID3算法的基础上,1993年Quinlan又提出了C4.5算法。构造决策树是采用自上而下的递归构造方法。决策树构造的结果是一棵二叉或多叉树,它的输入是一组带有类别标记的训练数据。二叉树的内部结点(非叶结点)一般表示为一个逻辑判断,如形式为a=b的逻辑判断,其中a是属性,b是该属性的某个属性值;树的边是逻辑判断的分支结 ...
【技术保护点】
1.一种基于分布式并行决策树的高维特征数据分类方法,其特征在于,包括:/n步骤1、获取包括多个样本高维特征数据的训练数据,且该样本高维特征数据具有对应的标签类别,将该训练数据存储在分布式文件系统中,通过对该训练数据的样本在分布式集群上进行并行采样统计,获取该训练数据上的特征分布信息,获得支撑决策树计算的元数据,并对连续型特征进行预处理;/n步骤2、通过对该元数据进行采样计算,为分布式集群中各计算节点分配特征组,建立树的根节点,分布式集群各工作节点联合统计样本的标签类别分布,以得到根节点初始信息熵;/n步骤3、对所有样本高维特征数据在分布式集群上各个工作节点上分别对各自储存的 ...
【技术特征摘要】 【专利技术属性】
1.一种基于分布式并行决策树的高维特征数据分类方法,其特征在于,包括:
步骤1、获取包括多个样本高维特征数据的训练数据,且该样本高维特征数据具有对应的标签类别,将该训练数据存储在分布式文件系统中,通过对该训练数据的样本在分布式集群上进行并行采样统计,获取该训练数据上的特征分布信息,获得支撑决策树计算的元数据,并对连续型特征进行预处理;
步骤2、通过对该元数据进行采样计算,为分布式集群中各计算节点分配特征组,建立树的根节点,分布式集群各工作节点联合统计样本的标签类别分布,以得到根节点初始信息熵;
步骤3、对所有样本高维特征数据在分布式集群上各个工作节点上分别对各自储存的样本数据进行统计,根据各样本的特征的向量及决策树的划分规则获得各样本当前所属树节点,同时统计四元组(所属节点,特征,特征值,标签)的出现次数,各节点将各四元组按照(节点,特征组)进行分组聚合,各工作节点分布式存储<(节点,特征组),(特征,特征值,标签)>的键值对的统计信息,根据该统计信息得到各特征值的信息熵;
步骤4、将特征值按照各自标签的信息熵排序,将所有标签的统计值归于右节点,然后顺序遍历特征值作为左节点特征值,每次遍历保留信息增益最大的特征值,得到<(节点,特征组),最优划分>键值对,将相同节点各个特征组的最优划分聚合并取最优,得到<节点,最优划分>键值对,选择最优划分对节点进行划分;
步骤5、循环步骤2到步骤4直到对决策树中全部节点完成划分,保存当前决策树作为分类模型,将待分类数据输入该分类模型,得到该待分类数据对应的类别。
2.如权利要求1所述的基于分布式并行决策树的高维特征数据分类方法,其特征在于,该训练数据为文本数据或图像数据。
3.如权利要求1所述的基于分布式并行决策树的高维特征数据分类方法,其特征在于,该步骤2包括:
将特征按照特征值数量排序后可得序列二分特征值总数的最大值K,使用动态规划算法得到G组总数不超过K的特征,找到最小的K,此时的G组即为最优特征分组。
4.如权利要求1所述的基于分布式并行决策树的高维特征数据分类方法,其特征在于,步骤1中该预处理包括:对连续特征进行采样,把采样样本的特征值汇集到主节点,统计各个特征值的样本数,将所有特征值按照值的大小排序后得到序列,根据预设的最大特征划分数,将样本分组,每组作为连续特征的一个桶,相邻两组特征值的最小差别的中位数作为候选划分。
5.如权利要求1所述的基于分布式并行决策树的高维特征数据分类方法,其特征在于,该元数据由训练数据统计得到,包括特征数、样本数、标签数、最大特征划分、离散特征取值范围、无序离散特征、最大深度、节点最小样本数和分裂最小信息增益。
技术研发人员:孙莹,庄福振,敖翔,何清,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。