当前位置: 首页 > 专利查询>东南大学专利>正文

一种C4.5决策树算法下的连续属性度量选择的增量学习方法技术

技术编号:14526622 阅读:112 留言:0更新日期:2017-02-02 06:14
本发明专利技术公开了一种C4.5决策树算法下的连续属性度量选择的增量学习方法,采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进,形成增量学习过程;介于后向传播算法主要应用于连续属性,所以本发明专利技术主要研究的是在连续属性阈值选取改进方面;该方案是在现有技术方案中增加了增量学习的功能,在连续属性阈值方面,摒弃了原先整棵树或者是部分分支的重新计算,这种复杂的,低效的方法,结合后向传播这种高效的学习方案,不仅增加了决策树C4.5的功能,更是一种新的学习方式。

【技术实现步骤摘要】

本专利技术涉及一种数据处理
,尤其涉及一种C4.5决策树算法下的连续属性度量选择的增量学习方法。
技术介绍
随着当前数据量的增多,从数据中挖掘出有价值的信息成为当前研究的热门,数据挖掘起源于KDD,在数据挖掘中,常见有效的数据挖掘算法有分类、聚类、关联、线性回归等,BI是其重要的应用领域。1984年,多位统计学家出版了CART算法,介绍了二叉决策树的产生过程,作为分类算法中的有名的决策树C4.5算法,有着数据挖掘十大算法之一的美誉,它能够使数据以树的形式表现出来,并且对于专业外的人员,也能够根据决策树做出精确判断。决策树ID3和决策树C4.5算法都是来自于CLS的思维模式,决策树C4.5算法是在ID3的基础上做出了改进得到的,C4.5拥有ID3的几乎全部优点并且新增了以下部分功能:属性选择的标准改为了信息增益比,对于连续属性也提出了关于度量的选择方案,使用迭代K次来进行交叉验证等。虽然C4.5算法优点很多,产生的分类规则也易于理解,准确率提高较高。但是C4.5算法的缺点是在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效,并且没有增量学习的方法。然而,这些不足并不影响C4.5算法在实际中的很好应用,许多学者在此方面做了很多研究工作,还有学者已经证明,C4.5在处理许多连续属性的操作是整棵决策树构造过程70%以上的时间,因此C4.5决策树算法中对连续属性的处理进行改进是很有必要的,以此来提高算法的执行效率。虽然有很多文献对于传统的决策树C4.5算法在对于处理连续属性选择度量提出了自己的看法和选择标准方面有了改进,比如参考文献[1]中利用最新无穷小的性质改进信息增益率的计算,但是很多研究并没有增量学习的方法,而在当前背景下,增量学习作为数据挖掘一个重点研究对象,仅仅依靠训练集来判断,往往出现偏倚,因此增量学习,对于一个数据挖掘系统来说,往往会有新的样本添加到训练样本,或者应用已有的规则来检验数据集,这就要求系统在原来学习规则的基础上,对新添样本进行学习,并以此来挖掘新的知识,以最小的代价更新原有的知识结构。对新样本的增量学习能力是一个完善的挖掘系统所必需具备的。下面给出两种相关的技术方案及其相关分析。(一)决策树的生成是采取分治的思想,依次选择一个属性作为分支的节点,自顶向下的生成一颗决策树树。其中,生成决策树关键的步骤是分裂过程,C4.5采用的是信息增益率作为分裂准则,并且能处理连续属性,在C4.5算法中,对连续属性的处理如下:(1.1)对连续属性的取值进行从低到高排序;(1.2)把两个属性取值之间的中点作为可能的分裂点,以此将数据集分成两部分,计算每个可能的分裂点的信息增益;(1.3)对每个分裂点的信息增益进行修正:减去log2(N-1)/|D|;(1.4)选择修正后信息增益最大的,分裂点作为该属性的最佳分裂点;(1.5)计算最佳分裂点的信息增益率作为属性的信息增益率;(1.6)选择信息增益率最大的属性作为分裂属性。从上面的处理过程可以看出,当数据集中同时拥有连续属性和离散属性时,C4.5算法倾向于选择连续的属性作为分裂属性,因此连续属性的信息增益需要减去log2(N-1)/|D|作为修正,其中N为可能的分裂点个数,|D|是数据集大小。注意连续属性选择最佳分裂点不用信息增益率,而采用信息增益,然后用最大的信息增益对应的信息增益率作为属性的信息增益率。(二)C4.5算法不具备增量学习功能的,也就是说当用已经生成的决策树判断已知的实例时,如果判断错了,想要改进当前决策树,只能将新旧样本组合,对所有样本进行重新学习,将会付出很大的时间代价。在参考文献[2]中,作者提出一种C4.5算法的样本增量学习的方法,主要思想是:(2.1)用已建好的决策树模型对新增的样本进行分类;(2.2)如分类正确,将新样本信息添加至各相关节点;(2.3)如在某个决策节点出现了分类错误,则将该节点下原有所有样本与新样本组合为新样本集,以该决策节点为根节点进行建树,并将该节点原来所含的所有元素删除。可以看出,相对于所有样本的重新学习过程而言,技术二是将重新学习的对象从系统所有样本集合缩小到了某个决策节点需分类的样本集合。如果该决策点原来所含样本较多,且已建好多个决策分支,因为一个新样本而去重新对其进行建树,不管是在时间还是效率上仍将会付出不小的代价。缩略语和关键术语定义BIBusinessIntelligence商业智能CARTClassificationAndRegressionTrees分类与回归树算法CLSConceptLearningSystem概念学习系统ID3IterativeDichotomiser迭代二分器KDDKnowledge-DiscoveryinDatabases数据库知识发现WAKAWaikatoEnvironmentforKnowledgeAnalysis怀卡托智能分析环境参考文献[1]黄爱辉.决策树C4.5算法的改进及应用[J].科学技术与工程,2009[2]孙卫祥.基于数据挖掘与信息融合的故障诊断方法研究[D].上海:上海交通大学,2006[3]程龙,蔡远文数据挖掘C4.5算法的编程设计与增量学习改进[A]北京:装备指挥技术学院,2009[4]李爱,王洪伟一种基于Weka软件的专家系统知识获取方法[P].中国专利:CN103092914A,2013-05-08[5]邓维斌,刘进一种改进C4.5决策树算法下的不平衡数据抽样方法[P]:CN105373606A,2016-03-02
技术实现思路
专利技术目的:针对现有技术(一)中C4.5决策树算法对于连续属性度量选择无法增量学习的问题(或者说如果需要进行增量学习,只能先将实例和原有训练集结合成为新的训练集,再次运用C4.5决策树生成规范才能够实现)、以及现有技术(二)中选取部分分支来重新生成C4.5决策树分支的问题,本专利技术提供一种C4.5决策树算法下的连续属性度量选择的增量学习方法,不用重新生成分支,只需要改变连续属性的阈值并结合后向传播算法对阈值进行调整即可实现增量学习,能够有效减少迭代次数,减少计算复杂度,并提高C4.5决策树的准确率。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种C4.5决策树算法下的连续属性度量选择的增量学习方法,采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进,形成增量学习过程,具体包括如下步骤:(1)利用C4.5决策树算法对训练集进行训练,生成原C4.5决策树;进入步骤(2);(2)利用原C4.5决策树对已知分类的测试集一中的所有样本进行分类:对分类正确的样本,将样本添加到训练集中并保存,即将样本添加到原C4.5决策树的样本对象数组中,同时将样本的索引号添加到原C4.5决策树的相关叶节点上;对分类错误的样本,将由于同一个连续属性度量选择而导致分类错误的样本归类到该连续属性的候选改进集中,不同连续属性的候选改进集可以存在交集,进入步骤(3);(3)针对某一个连续属性的候选改进集,利用神经网络中的后向传播算法对该连续属性的改进集的权重、初始值(就是对初始输入的连续属性的值进行规范化,使其落入0.0~0.1之间)和偏倚进行初始化,并添加该连续属性度量选择的阈值;进本文档来自技高网
...

【技术保护点】
一种C4.5决策树算法下的连续属性度量选择的增量学习方法,其特征在于:采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进,形成增量学习过程,具体包括如下步骤:(1)利用C4.5决策树算法对训练集进行训练,生成原C4.5决策树;进入步骤(2);(2)利用原C4.5决策树对已知分类的测试集一中的所有样本进行分类:对分类正确的样本,将样本添加到训练集中并保存,即将样本添加到原C4.5决策树的样本对象数组中,同时将样本的索引号添加到原C4.5决策树的相关叶节点上;对分类错误的样本,将由于同一个连续属性度量选择而导致分类错误的样本归类到该连续属性的候选改进集中,不同连续属性的候选改进集可以存在交集,进入步骤(3);(3)针对某一个连续属性的候选改进集,利用神经网络中的后向传播算法对该连续属性的改进集的权重、初始值和偏倚进行初始化,并添加该连续属性度量选择的阈值;进入步骤(4);(4)根据后向传播过程中的传播误差、偏倚改变量以及反馈值更新该连续属性度量选择的阈值;将更新后的该连续属性度量选择的阈值应用于原C4.5决策树形成新C4.5决策树,同时使用新C4.5决策树和原C4.5决策树分别对已知分类的测试集二进行分类,统计新C4.5决策树的准确率L2和原C4.5决策树的准确率L1,进入步骤(5);(5)根据针对该连续属性设定的学习率X,比较原C4.5决策树和新C4.5决策树的准确率:若则以新C4.5决策树替换原C4.5决策树并保存,否则,维持原C4.5决策树。...

【技术特征摘要】
1.一种C4.5决策树算法下的连续属性度量选择的增量学习方法,其特征在于:采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进,形成增量学习过程,具体包括如下步骤:(1)利用C4.5决策树算法对训练集进行训练,生成原C4.5决策树;进入步骤(2);(2)利用原C4.5决策树对已知分类的测试集一中的所有样本进行分类:对分类正确的样本,将样本添加到训练集中并保存,即将样本添加到原C4.5决策树的样本对象数组中,同时将样本的索引号添加到原C4.5决策树的相关叶节点上;对分类错误的样本,将由于同一个连续属性度量选择而导致分类错误的样本归类到该连续属性的候选改进集中,不同连续属性的候选改进集可以存在交集,进入步骤(3);(3)针对某一个连续属性的候选改进集,利用神经网络中的后向传播算法对该连续属性的改进集的权重、初始值和偏倚进行初始化,并添加该连续属性度量选择的阈值;进入步骤(4);(4)根据后向传播过程中的传播误差、偏倚改变量以及反馈值更新该连续属性度量选择的阈值;将更新后的该连续属性度量选择的阈值应用于原C4.5...

【专利技术属性】
技术研发人员:徐平平周小蹦于凌涛
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1