【技术实现步骤摘要】
本专利技术涉及数据挖掘
,特别是涉及一种采用决策树的数据分类方法和系统。
技术介绍
分类是数据挖掘中的一个重要课题。分类的目的是学会一个分类函数或分类模型 (也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类可用于提取描述重要数据类的模型或预测未来的数据趋势。分类的目的是分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型。这种描述常常用谓词表示。由此生成的类描述用来对未来的测试数据进行分类。尽管这些未来的测试数据的类标签是未知的,我们仍可以由此预测这些新数据所属的类。注意是预测,而不言旨肯定。分类技术有很多,如决策树、贝叶斯网络、神经网络、遗传算法、关联规则等。其中, 决策树技术是用于分类和预测的主要技术,决策树学习是以实例为基础的归纳学习算法。 它着眼于从一组无次序、无规则的事例中推理除决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同属性判断从该节点向下的分支,然后进行剪枝,最后在决策树的叶节点得到结论。所以从根到叶节点就对应着一条合取规则,整棵 ...
【技术保护点】
1.一种采用决策树的数据分类方法,其特征在于,所述方法,包括下列步骤:步骤100,基于MapReduce机制,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树;步骤200,根据所述决策树,对输入的数据记录进行分类。
【技术特征摘要】
1.一种采用决策树的数据分类方法,其特征在于,所述方法,包括下列步骤步骤100,基于MapReduce机制,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树;步骤200,根据所述决策树,对输入的数据记录进行分类。2.根据权利要求1所述的采用决策树的数据分类方法,其特征在于,所述步骤100,包括下列步骤步骤110,启动一个进程,计算训练数据中包含的每个属性的信息增益,选出最大值作为根节点的分裂属性,并计算决策规则以及传给第一层的前缀信息步骤120,判断是否产生了新的决策规则,若是,则将产生的新的决策规则保存到规则集中,同时删除当前训练数据中包含该规则的样本,产生新的数据集,执行步骤130 ;否则, 执行步骤130 ;步骤130,判断是否产生新的前缀信息,若是,则执行步骤140 ;否则执行步骤160 ;步骤140,决策树层数加一,判断当前决策树的层数是否小于训练数据中包含的所有属性的总数,若是,则执行步骤150 ;否则执行步骤160 ;步骤150,启动一个新的进程,计算在当前前缀信息下,当前训练数据中包含的每个属性的信息增益,选出最大值作为当前节点的分裂属性,并计算决策规则以及传给下一层的前缀信息,返回步骤120;步骤160,结束训练,根据计算得到的决策规则构建决策树。3.根据权利要求1所述的采用决策树的数据分类方法,其特征在于,在进行属性的信息增益计算时采用MapReduce函数采集数据,在Map函数中,根据头文件信息对读入的每一行样本进行解析,产生中间的<key,value〉对,key为前缀信息+类别信息+条件属性的名字+条件属性的值或者前缀信息+类别信息,若没有前缀信息,则为空,value为1,Map函数的输入key和value分别为样本的在分布式文件系统上偏移位置和样本本身,Reduce函数对中间<key,value)对进行融合。4.根据权利要求1所述的采用决策树的数据分类方法,其特征在于,所述步骤200中, 构建完成的决策树保存在HDFS文件系统中...
【专利技术属性】
技术研发人员:庄福振,何清,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。