标准化多维代价敏感决策树的集成分类器构建方法技术

技术编号:15280342 阅读:196 留言:0更新日期:2017-05-05 08:08
本发明专利技术提出了一种标准化多维代价敏感决策树的集成分类器构建方法,本发明专利技术在标准化的多维尺度代价敏感决策树构建方法基础上,针对单一的分类器有着结果不稳定的缺点,利用装袋法构建了一种集成分类器。此发明专利技术提高了分类的准确度;规避了分类过程中的偏置问题;考虑了多种代价影响因子和决策树分支中的空节点,若未知事物分类结果不符合当前模型,则可通过空节点继续下一步分类操作。另外,通过构建此类分类器使决策树分类精度比单个分类器分类精度高很多;构成的集成分类器泛化能力比单个分类器更强。

A method for constructing an integrated classifier based on a standardized multidimensional cost sensitive decision tree

The invention provides a method for constructing classifier standard multidimensional cost sensitive decision tree, multidimensional scaling cost sensitive decision trees in the standardized construction method based on the single classifier with unstable results using bagging method shortcomings, to construct an integrated classifier. This method improves the classification accuracy; to avoid the bias problem in the process of classification; consider various cost factors and empty nodes of decision tree branches, if the unknown classification results inconsistent with the current model, you can continue to the next step operation through the empty node classification. In addition, the classification accuracy of decision tree is much higher than that of single classifier by constructing the classifier, and the generalization ability of the ensemble classifier is stronger than that of the single classifier.

【技术实现步骤摘要】

本专利技术涉及机器学习、人工智能以及数据挖掘领域,具体涉及一种标准化多维代价敏感决策树的集成分类器构建方法
技术介绍
决策树研究是数据挖掘和机器学习中的一项重要和积极的研究课题。其所提出的算法被广泛地和成功地应用于实际问题中,如ID3,CART和C4.5,此类经典学习算法主要是研究准确率的问题,能够得到更高准确性的决策树。在现有的算法中,其大多数都只倾向于考虑测试代价和误分类错误代价中的一种,此类算法称为一维尺度代价敏感,其构建的决策树在现实案例中不能够解决综合问题。在代价敏感学习中除了考虑测试代价和误分类代价对分类的影响,还需考虑待时间代价对分类预测的影响,例如,患者可能存在测试代价约束,也有可能存在等待时间上的约束,根据不同类别需求人所具备的自身资源不同,所需的时间长短也不同,考虑各种代价单位机制不同的问题,另外在构建决策树过程中,采用先剪枝技术来解决决策树中过拟合问题。由于单一的分类器有着结果不稳定的缺点,而集成学习通过训练集分类器的多个版本来解决这一个问题,因此通常能得到结果比单个分类器具有更强的泛化能力。为解决上述需求,基于在之前一种标准化的多维尺度异构代价敏感决策树构建方法基础上,本专利技术提出标准化多维代价敏感决策树的集成分类器构建方法。
技术实现思路
针对于解决单一的分类器有着结果不稳定的缺点,提供一种标准化多维代价敏感决策树的集成分类器构建方法。为解决上述问题,本专利技术是通过以下技术方案实现的:标准化多维代价敏感决策树的集成学习方法,包括如下步骤:步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为分类器个数,T为测试数据集。步骤二:根据装袋法从D中随机出训练子集Dj,从属性特征个数n中提取出属性特征子集个数nj。步骤三:由子集(Dj,nj)利用目标函数f(Si)作为属性选择因子来构建基分类器Ci,即构建一个标准化多维代价敏感决策树。步骤四:重复步骤2和步骤3,建立一个集成分类器。步骤五:测试集中数据x∈T,通过集成分类器中每棵决策树和运行记录的预测值,根据投票预测结果,得票最多的预测类作为此测试数据的最终类标号。本专利技术有益效果是:1、考虑了信息增益因素,构建的决策树有更好分类准确度,加强了分类能力,避免了当类中有稀有类时,把它当做普通类进行分类。2、考虑了多种代价影响因子和决策树分支当中生成了空节点,若未知事物分类结果不符合当前模型,则可以通过空节点继续进行下一步分类操作,此构建的决策树模型应用范围要更广,更符合实际的需求。3、在决策树构建过程中,标准化总测试代价可以更有效避免了分裂属性信息存在因过小而被忽略的风险。4、建树过程中,对总测试代价和误分类代价标准化,可以更好的把各代价不同单位机制转化为同一单位机制,形成的决策树具有高的分类精度和降低误分类代价、测试代价以及待时间代价。5、利用先剪支技术对决策树进行剪支提高了分类学习的速率。6、构成的决策树更好的规避了信息偏置为数量级大的问题。7、构成的集成分类器分类精度比单个分类器分类精度高很多。8、构成的集成分类器泛化能力比单个分类器更强。附图说明图1为标准化多维代价敏感决策树的集成学习方法流程图图2为一种标准化的多维尺度异构代价敏感决策树构建方法具体实施方式为解决单一的分类器有着结果不稳定的缺点,更好的提高分类精度问题,结合图1-图2对本专利技术进行了详细说明,其具体实施步骤如下:步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为基分类器个数,T为测试数据集。F为基分类器个数,其具体设定公式为:F=1/2lnD步骤二:从D中随机出训练子集Dj,从属性特征个数n中提取出属性特征子集个数nj。其具体原理如下:第一,从D中随机出训练子集Dj具体描述为:从原数据集D中有放回的随机抽样N个样本更换原来的N。有些样本被抽中一次以上,以及有些样本一次都不被选中。这种抽样法大约有2/3的样本个数将被选中。第二,从原始属性特征个数n中提取出属性特征子集个数nj具体方法为:先把原始属性特征根据信息量进行排列,设置一个划分点H,在属性范围(S1,SH)为高再从中选出nj个属性特征作为基分类器的分裂属性。根据信息属性值对原始属性特征n进行排序,其具体计算式如下:上式P(S1,2,…,n)分别为属性(S1,S2,…,Sn)所对应的信息属性值,Sij代表第i个属性的第j类属性值,Eij为第i个属性的所有属性值的均值。根据P(S1,2,…,n)的值从大到小对原始属性特征n进行排序,对排序后的属性n用H进行划分,即临界属性SH的确定。临界属性SH的确定具体判定条件为:P(SH)=2/5max[P(S1,2,…,n)]=2/5max{∑i∑j[2ln(Sij-Eij))-lnEij]本文档来自技高网...
标准化多维代价敏感决策树的集成分类器构建方法

【技术保护点】
标准化多维代价敏感决策树的集成分类器构建方法,本专利技术涉及机器学习、人工智能以及数据挖掘领域,具体涉及一种标准化多维代价敏感决策树的集成分类器构建方法,其特征是,包括如下步骤:步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为分类器个数,T为测试数据集步骤二:根据装袋法从D中随机出训练子集,从属性特征个数n中提取出属性特征子集个数步骤三:由子集利用目标函数作为属性选择因子来构建基分类器,即构建一个标准化多维代价敏感决策树步骤四:重复步骤2和步骤3,建立一个集成分类器步骤五:测试集中数据,通过集成分类器中每棵决策树和运行记录的预测值,根据投票预测结果,得票最多的预测类作为此测试数据的最终类标号。

【技术特征摘要】
1.标准化多维代价敏感决策树的集成分类器构建方法,本发明涉及机器学习、人工智能以及数据挖掘领域,具体涉及一种标准化多维代价敏感决策树的集成分类器构建方法,其特征是,包括如下步骤:步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为分类器个数,T为测试数据集步骤二:根据装袋法从D中随机出训练子集,从属性特征个数n中提取出属性特征子集个数步骤三:由子集利用目标函数作为属性选择因子来构建基分类器,即构建一个标准化多维代价敏感决策树步骤四:重复步骤2和步骤3,建立一个集成分类器步骤五:测试集中数据,通过集成分类器中每棵决策树和运行记录的预测值,根据投票预测结果,得票最多的预测类作为此测试数据的最终类标号。2.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法,其特征是,所述步骤一的具体表述过程如下:步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为基分类器个数,T为测试数据集F为基分类器个数,其具体设定公式为:F=1/2lnD。3.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法,其特征是,所述步骤二的具体计算过程如下:步骤二:从D中随机出训练子集,从属性特征个数n中提取出属性特征子集个数,其具体原理如下:第一,从D中随机出训练子集具体描述为:从原数据集D中有放回的随机抽样N个样本更换原来的N,有些样本被抽中一次以上,以及有些样本一次都不被选中,这种抽样...

【专利技术属性】
技术研发人员:金平艳胡成华
申请(专利权)人:四川用联信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1