一种C4.5决策树算法下的连续属性度量选择的增量学习方法技术

技术编号：14526622 阅读：112 留言：0更新日期：2017-02-02 06:14

本发明专利技术公开了一种C4.5决策树算法下的连续属性度量选择的增量学习方法，采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进，形成增量学习过程；介于后向传播算法主要应用于连续属性，所以本发明专利技术主要研究的是在连续属性阈值选取改进方面；该方案是在现有技术方案中增加了增量学习的功能，在连续属性阈值方面，摒弃了原先整棵树或者是部分分支的重新计算，这种复杂的，低效的方法，结合后向传播这种高效的学习方案，不仅增加了决策树C4.5的功能，更是一种新的学习方式。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种数据处理
，尤其涉及一种C4.5决策树算法下的连续属性度量选择的增量学习方法。
技术介绍
随着当前数据量的增多，从数据中挖掘出有价值的信息成为当前研究的热门，数据挖掘起源于KDD，在数据挖掘中，常见有效的数据挖掘算法有分类、聚类、关联、线性回归等，BI是其重要的应用领域。1984年，多位统计学家出版了CART算法，介绍了二叉决策树的产生过程，作为分类算法中的有名的决策树C4.5算法，有着数据挖掘十大算法之一的美誉，它能够使数据以树的形式表现出来，并且对于专业外的人员，也能够根据决策树做出精确判断。决策树ID3和决策树C4.5算法都是来自于CLS的思维模式，决策树C4.5算法是在ID3的基础上做出了改进得到的，C4.5拥有ID3的几乎全部优点并且新增了以下部分功能：属性选择的标准改为了信息增益比，对于连续属性也提出了关于度量的选择方案，使用迭代K次来进行交叉验证等。虽然C4.5算法优点很多，产生的分类规则也易于理解，准确率提高较高。但是C4.5算法的缺点是在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效，并且没有增量学习的方法。然而，这些不足并不影响C4.5算法在实际中的很好应用，许多学者在此方面做了很多研究工作，还有学者已经证明，C4.5在处理许多连续属性的操作是整棵决策树构造过程70％以上的时间，因此C4.5决策树算法中对连续属性的处理进行改进是很有必要的，以此来提高算法的执行效率。虽然有很多文献对于传统的决策树C4.5算法在对于处理连续属性选择度量提出了自己的看法和选择标准方面有了改进，比如参考文献[...

【技术保护点】
一种C4.5决策树算法下的连续属性度量选择的增量学习方法，其特征在于：采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进，形成增量学习过程，具体包括如下步骤：(1)利用C4.5决策树算法对训练集进行训练，生成原C4.5决策树；进入步骤(2)；(2)利用原C4.5决策树对已知分类的测试集一中的所有样本进行分类：对分类正确的样本，将样本添加到训练集中并保存，即将样本添加到原C4.5决策树的样本对象数组中，同时将样本的索引号添加到原C4.5决策树的相关叶节点上；对分类错误的样本，将由于同一个连续属性度量选择而导致分类错误的样本归类到该连续属性的候选改进集中，不同连续属性的候选改进集可以存在交集，进入步骤(3)；(3)针对某一个连续属性的候选改进集，利用神经网络中的后向传播算法对该连续属性的改进集的权重、初始值和偏倚进行初始化，并添加该连续属性度量选择的阈值；进入步骤(4)；(4)根据后向传播过程中的传播误差、偏倚改变量以及反馈值更新该连续属性度量选择的阈值；将更新后的该连续属性度量选择的阈值应用于原C4.5决策树形成新C4.5决策树，同时使用新C4.5决策树和原C4...

【技术特征摘要】
1.一种C4.5决策树算法下的连续属性度量选择的增量学习方法，其特征在于：采用神经网络中的后向传播算法对C4.5决策树中的连续属性度量选择过程进行改进，形成增量学习过程，具体包括如下步骤：(1)利用C4.5决策树算法对训练集进行训练，生成原C4.5决策树；进入步骤(2)；(2)利用原C4.5决策树对已知分类的测试集一中的所有样本进行分类：对分类正确的样本，将样本添加到训练集中并保存，即将样本添加到原C4.5决策树的样本对象数组中，同时将样本的索引号添加到原C4.5决策树的相关叶节点上；对分类错误的样本，将由于同一个连续属性度量选择而导致分类错误的样本归类到该连续属性的候选改进集中，不同连续属性的候选改进集可以存在交集，进入步骤(3)；(3)针对某一个连续属性的候选改进集，利用神经网络中的后向传播算法对该连续属性的改进集的权重、初始值和偏倚进行初始化，并添加该连续属性度量选择的阈值；进入步骤(4)；(4)根据后向传播过程中的传播误差、偏倚改变量以及反馈值更新该连续属性度量选择的阈值；将更新后的该连续属性度量选择的阈值应用于原C4.5...

【专利技术属性】
技术研发人员：徐平平，周小蹦，于凌涛，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人