一种基于改进决策树对新类型进行预测的方法技术

技术编号:20119630 阅读:57 留言:0更新日期:2019-01-16 12:23
本发明专利技术公开了一种基于改进决策树对新类型进行预测的方法,其在一定程度上解决了决策树无法识别新类型的问题,其包括:构造决策树模型,将预测集特征作为输入进行预测,得到预测集的最终等级;得到预测的最终等级包括以下步骤:S101:判断预测集的数据特征类型是否已存在于训练集;S102:若特征类型已存在于训练集,基于训练出的决策树模型判断其等级;若不存在,通过改进的决策树模型判断其等级。

A New Type Prediction Method Based on Improved Decision Tree

The invention discloses a method for predicting new types based on improved decision tree, which solves the problem that decision tree can not recognize new types to a certain extent. It includes: constructing decision tree model, predicting the features of prediction set as input, and obtaining the final grade of prediction set; and obtaining the final grade of prediction includes the following steps: S101: judging the data characteristics of prediction set. Whether the feature type already exists in the training set or not; S102: If the feature type already exists in the training set, its rank is judged based on the trained decision tree model; if not, its rank is judged by the improved decision tree model.

【技术实现步骤摘要】
一种基于改进决策树对新类型进行预测的方法
本专利技术涉及机器学习
,具体涉及一种基于改进决策树对新类型进行预测的方法。
技术介绍
决策树(decisiontree)是一种基本的分类与回归方法,决策树学习的目的是根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。决策树模型呈树形结构,其构建一般采用ID3算法、C4.5算法,在分类问题中,表示基于特征对实例进行分类的过程。决策树具有可读性、分类速度快等优点,但决策树只能预测只存在于训练数据集里的类型,无法预测新类型,有一定的局限性。因此,提供一种能够基于决策树预测新类型的方法是十分有意义且重要地。
技术实现思路
本专利技术目的在于提供一种新的算法,使得决策树不仅仅能够预测只存在训练集的类型,也可以对新类型进行预测。为了实现上述目的,本专利技术采取的技术方案如下:一种基于改进决策树对新类型进行预测的方法,其包括:构造决策树模型,将预测集特征作为输入进行预测,得到预测集的最终等级。作为一种优选技术方案,得到预测的最终等级包括以下步骤:S101:判断数据特征类型是否已存在于训练集;S102:若特征类型已存在于训练集,基于训练出的决策树模型判断其等级;若不存在,通过改进的决策树模型判断其等级。作为上述技术方案的进一步改进,上述步骤S102中,通过改进的决策树模型判断其等级包含以下步骤:步骤A1:输入新类型a;步骤A2:找出新类型a中新的特征值;步骤A3:找出该特征值上一叶子节点的特征和该特征值,分别记为M和m;步骤A4:替换新类型a中的特征M的特征值,得到类型b;步骤A5:判断类型b在决策树中是否存在,若不存在则返回步骤A4,若存在则进行下一步;步骤A6:判断替换后的叶子节点下,有无与替换后的类型b等级相同的类型c,若不存在则返回步骤A4,若存在,则进行下一步;步骤A7:将类型c的特征M的特征值替换为m,得到类型d,判断d是否存在,若不存在则返回步骤A4,若存在,则进行下一步;步骤A8:新类型a的等级就等于类型d的等级。本专利技术中,作为一种优选技术方案,构造决策树模型包括以下过程:对训练样本进行数据分析,提取训练样本数据集特征;以训练样本数据的等级作为输出,利用提取特征基于决策树进行训练,构造决策树模型。作为上述技术方案的进一步改进,上述对利用提取特征基于决策树进行训练包括以下步骤:S201:对数据进行预处理;S202:在决策树内部节点,从m个特征中根据香农熵最小的原则选取一个特征作为划分依据;S203:用该特征对数据集进行划分;S204:对下一节点重复步骤202至步骤203,直至节点的特征被消耗完或节点数据所有类别都相同;S205:节点无法继续划分,决策树构建完毕。本专利技术与现有技术相比,具有以下有益效果:本专利技术首先对训练集中的数据进行分析,提取训练集用于决策树分类的特征,并将训练数据进行处理;然后将处理好的数据基于决策树算法进行训练,得到一个决策树;然后通过改进的决策树算法,对预测集中的所有类型进行预测,得到所有类型的等级,通过此方法,从而实现对新类型的预测,而不像传统决策树中只能对训练集中的类型进行判断。附图说明图1是本专利技术的构建决策树的流程图。图2是本专利技术的改进决策树算法流程图。图3为一已训练好的决策树案例。具体实施方式本专利技术的目的在于克服现有技术的缺陷,提供一种基于改进决策树对新类型进行预测的方法,下面结合实施例对本专利技术作进一步详细说明。实施例1一种基于改进决策树对新类型进行预测的方法,包括以下过程:S1:对训练样本进行数据分析,提取训练样本数据集特征;S2:以训练样本数据的等级作为输出,利用提取特征作为基于决策树进行训练,构建决策树模型;具体的说,构建决策树模型包括以下步骤:步骤201:对数据进行预处理;步骤202:在决策树内部节点,从m个特征中根据香农熵最小的原则选取一个特征作为划分依据;步骤203:用该特征对数据集进行划分;步骤204:对下一节点重复步骤202至步骤203,直至节点的特征被消耗完或节点数据所有类别都相同;步骤205:节点无法继续划分,决策树构建完毕。本专利技术创造对于每个训练样本,基于香农熵最小的原则选取特征,然后对选取的特征进行划分,直至节点的特征被消耗完或节点数据所有类别都相同时,决策树训练完毕。S3:将预测集特征作为输入,基于改进决策树算法进行预测,得到其最终等级。本过程,采用的具体步骤如下:步骤301:判断预测集的数据特征类型是否已存在于训练集;步骤302:若特征类型已存在于训练集,基于训练出的决策树判断其等级;若不存在,通过改进的决策树的模型判断其等级,判断过程如下:步骤401:输入新类型a;步骤402:找出新类型a中新的特征值;步骤403:找出该特征值上一叶子节点的特征和该特征值,分别记为M和m;步骤404:替换新类型a中的特征M的特征值,得到类型b;步骤405:判断类型b在决策树中是否存在,若不存在则返回步骤404,若存在则进行下一步;步骤406:判断替换后的叶子节点下,有无与替换后的类型b等级相同的类型c,若不存在则返回步骤404,若存在,则进行下一步;步骤407:将类型c的特征M的特征值替换为m,得到类型d,判断d是否存在,若不存在则返回步骤404,若存在,则进行下一步;步骤408:新类型a的等级就等于类型d的等级。以图3为例,图3为已经训练好的决策树案例,基于此构建完成的决策树模型,来对新类型的判断进行说明。输入新类型为{I,a,4},对新类型进行预测。找出新类型中新的特征值为数字排列特征a节点下的花色组合特征值4;上一节点为数字排列特征,特征值为a,用数字排列特征b替换a,得到一个类型{1,b,4};判断{1,b,4}是否存在,从图中可知,其不存在,因此又用数字排列特征c去替换a,得到一个新类型{1,c,4};判断{1,c,4}是否存在,从图中可知,其存在;在c节点下去寻找与{1,c,4}等级相同的类型,其中{1,c,5}等级与{1,c,4}等级相同,因此可得到,花色组合特征值5和花色组合特征值4在c节点下对等级的影响相同,根据假设,其在a节点下对等级的影响也相同;类型{1,a,4}的等级就可用{1,a,5}来表示,{1,a,4}的等级为2。本专利技术通过假设同一特征值在不同节点下对结果的影响是一样的,去寻找与新类型中的新特征值结果表现一致的特征值,然后在同一节点下用该特征值所属类型的等级去表示新类型的等级。如上述步骤中新类型a的新特征值为m,该特征为M,通过替换其特征值m得到新的类型b;去其他节点下寻找与类型b相同的类型c,得到c的特征M的特征值为n;此时便可说明特征值n与特征值m在同一节点下对结果的影响是一样的,基于假设,可用特征值n所在的类型等级来表示新类型a的等级。通过这种方法在一定程度上可以解决决策树无法对新类型进行预测的问题。按照上述实施例,便可很好地实现本专利技术。值得说明的是,基于上述结构设计的前提下,为解决同样的技术问题,即使在本专利技术上做出的一些无实质性的改动或润色,所采用的技术方案的实质仍然与本专利技术一样,故其也应当在本专利技术的保护范围内。本文档来自技高网...

【技术保护点】
1.一种基于改进决策树对新类型进行预测的方法,其特征在于,其包括:构造决策树模型,将预测集特征作为输入进行预测,得到预测集的最终等级;得到预测的最终等级包括以下步骤:S101:判断预测集的数据特征类型是否已存在于训练集;S102:若特征类型已存在于训练集,基于训练出的决策树模型判断其等级;若不存在,通过改进的决策树模型判断预测集数据特征的等级,判断过程为用训练数据集的特征对新特征进行替换,若替换后的特征在训练数据中有所对应,则判定出新特征与用于替换的特征为同等级。

【技术特征摘要】
1.一种基于改进决策树对新类型进行预测的方法,其特征在于,其包括:构造决策树模型,将预测集特征作为输入进行预测,得到预测集的最终等级;得到预测的最终等级包括以下步骤:S101:判断预测集的数据特征类型是否已存在于训练集;S102:若特征类型已存在于训练集,基于训练出的决策树模型判断其等级;若不存在,通过改进的决策树模型判断预测集数据特征的等级,判断过程为用训练数据集的特征对新特征进行替换,若替换后的特征在训练数据中有所对应,则判定出新特征与用于替换的特征为同等级。2.根据权利要求1所述的一种基于改进决策树对新类型进行预测的方法,其特征在于,上述步骤S102中,通过改进的决策树模型判断其等级包含以下步骤:步骤A1:输入新类型a;步骤A2:找出新类型a中新的特征值;步骤A3:找出该特征值上一叶子节点的特征和该特征值,分别记为M和m;步骤A4:替换新类型a中的特征M的特征值,得到类型b;步骤A5:判断类型b在决策树中是否存在,若不存在则返回步骤A4,若存在则进行下一步;步骤A6:判断替换后的叶子节点下...

【专利技术属性】
技术研发人员:付川云张济宁李雅洁肖玉曼
申请(专利权)人:西南交通大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1