The invention discloses a method for predicting new types based on improved decision tree, which solves the problem that decision tree can not recognize new types to a certain extent. It includes: constructing decision tree model, predicting the features of prediction set as input, and obtaining the final grade of prediction set; and obtaining the final grade of prediction includes the following steps: S101: judging the data characteristics of prediction set. Whether the feature type already exists in the training set or not; S102: If the feature type already exists in the training set, its rank is judged based on the trained decision tree model; if not, its rank is judged by the improved decision tree model.
【技术实现步骤摘要】
一种基于改进决策树对新类型进行预测的方法
本专利技术涉及机器学习
,具体涉及一种基于改进决策树对新类型进行预测的方法。
技术介绍
决策树(decisiontree)是一种基本的分类与回归方法,决策树学习的目的是根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。决策树模型呈树形结构,其构建一般采用ID3算法、C4.5算法,在分类问题中,表示基于特征对实例进行分类的过程。决策树具有可读性、分类速度快等优点,但决策树只能预测只存在于训练数据集里的类型,无法预测新类型,有一定的局限性。因此,提供一种能够基于决策树预测新类型的方法是十分有意义且重要地。
技术实现思路
本专利技术目的在于提供一种新的算法,使得决策树不仅仅能够预测只存在训练集的类型,也可以对新类型进行预测。为了实现上述目的,本专利技术采取的技术方案如下:一种基于改进决策树对新类型进行预测的方法,其包括:构造决策树模型,将预测集特征作为输入进行预测,得到预测集的最终等级。作为一种优选技术方案,得到预测的最终等级包括以下步骤:S101:判断数据特征类型是否已存在于训练集;S102:若特征类型已存在于训练集,基于训练出的决策树模型判断其等级;若不存在,通过改进的决策树模型判断其等级。作为上述技术方案的进一步改进,上述步骤S102中,通过改进的决策树模型判断其等级包含以下步骤:步骤A1:输入新类型a;步骤A2:找出新类型a中新的特征值;步骤A3:找出该特征值上一叶子节点的特征和该特征值,分别记为M和m;步骤A4:替换新类型a中的特征M的特征值,得到类型b;步骤A5:判断类型b在决策树中是否 ...
【技术保护点】
1.一种基于改进决策树对新类型进行预测的方法,其特征在于,其包括:构造决策树模型,将预测集特征作为输入进行预测,得到预测集的最终等级;得到预测的最终等级包括以下步骤:S101:判断预测集的数据特征类型是否已存在于训练集;S102:若特征类型已存在于训练集,基于训练出的决策树模型判断其等级;若不存在,通过改进的决策树模型判断预测集数据特征的等级,判断过程为用训练数据集的特征对新特征进行替换,若替换后的特征在训练数据中有所对应,则判定出新特征与用于替换的特征为同等级。
【技术特征摘要】
1.一种基于改进决策树对新类型进行预测的方法,其特征在于,其包括:构造决策树模型,将预测集特征作为输入进行预测,得到预测集的最终等级;得到预测的最终等级包括以下步骤:S101:判断预测集的数据特征类型是否已存在于训练集;S102:若特征类型已存在于训练集,基于训练出的决策树模型判断其等级;若不存在,通过改进的决策树模型判断预测集数据特征的等级,判断过程为用训练数据集的特征对新特征进行替换,若替换后的特征在训练数据中有所对应,则判定出新特征与用于替换的特征为同等级。2.根据权利要求1所述的一种基于改进决策树对新类型进行预测的方法,其特征在于,上述步骤S102中,通过改进的决策树模型判断其等级包含以下步骤:步骤A1:输入新类型a;步骤A2:找出新类型a中新的特征值;步骤A3:找出该特征值上一叶子节点的特征和该特征值,分别记为M和m;步骤A4:替换新类型a中的特征M的特征值,得到类型b;步骤A5:判断类型b在决策树中是否存在,若不存在则返回步骤A4,若存在则进行下一步;步骤A6:判断替换后的叶子节点下...
【专利技术属性】
技术研发人员:付川云,张济宁,李雅洁,肖玉曼,
申请(专利权)人:西南交通大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。