The invention provides a method for constructing classifier standard multidimensional cost sensitive decision tree, multidimensional scaling cost sensitive decision trees in the standardized construction method based on the single classifier with unstable results using bagging method shortcomings, to construct an integrated classifier. This method improves the classification accuracy; to avoid the bias problem in the process of classification; consider various cost factors and empty nodes of decision tree branches, if the unknown classification results inconsistent with the current model, you can continue to the next step operation through the empty node classification. In addition, the classification accuracy of decision tree is much higher than that of single classifier by constructing the classifier, and the generalization ability of the ensemble classifier is stronger than that of the single classifier.
【技术实现步骤摘要】
本专利技术涉及机器学习、人工智能以及数据挖掘领域,具体涉及一种标准化多维代价敏感决策树的集成分类器构建方法。
技术介绍
决策树研究是数据挖掘和机器学习中的一项重要和积极的研究课题。其所提出的算法被广泛地和成功地应用于实际问题中,如ID3,CART和C4.5,此类经典学习算法主要是研究准确率的问题,能够得到更高准确性的决策树。在现有的算法中,其大多数都只倾向于考虑测试代价和误分类错误代价中的一种,此类算法称为一维尺度代价敏感,其构建的决策树在现实案例中不能够解决综合问题。在代价敏感学习中除了考虑测试代价和误分类代价对分类的影响,还需考虑待时间代价对分类预测的影响,例如,患者可能存在测试代价约束,也有可能存在等待时间上的约束,根据不同类别需求人所具备的自身资源不同,所需的时间长短也不同,考虑各种代价单位机制不同的问题,另外在构建决策树过程中,采用先剪枝技术来解决决策树中过拟合问题。由于单一的分类器有着结果不稳定的缺点,而集成学习通过训练集分类器的多个版本来解决这一个问题,因此通常能得到结果比单个分类器具有更强的泛化能力。为解决上述需求,基于在之前一种标准化的多维尺度异构代价敏感决策树构建方法基础上,本专利技术提出标准化多维代价敏感决策树的集成分类器构建方法。
技术实现思路
针对于解决单一的分类器有着结果不稳定的缺点,提供一种标准化多维代价敏感决策树的集成分类器构建方法。为解决上述问题,本专利技术是通过以下技术方案实现的:标准化多维代价敏感决策树的集成学习方法,包括如下步骤:步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为分类器个数,T为测试数据 ...
【技术保护点】
标准化多维代价敏感决策树的集成分类器构建方法,本专利技术涉及机器学习、人工智能以及数据挖掘领域,具体涉及一种标准化多维代价敏感决策树的集成分类器构建方法,其特征是,包括如下步骤:步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为分类器个数,T为测试数据集步骤二:根据装袋法从D中随机出训练子集,从属性特征个数n中提取出属性特征子集个数步骤三:由子集利用目标函数作为属性选择因子来构建基分类器,即构建一个标准化多维代价敏感决策树步骤四:重复步骤2和步骤3,建立一个集成分类器步骤五:测试集中数据,通过集成分类器中每棵决策树和运行记录的预测值,根据投票预测结果,得票最多的预测类作为此测试数据的最终类标号。
【技术特征摘要】
1.标准化多维代价敏感决策树的集成分类器构建方法,本发明涉及机器学习、人工智能以及数据挖掘领域,具体涉及一种标准化多维代价敏感决策树的集成分类器构建方法,其特征是,包括如下步骤:步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为分类器个数,T为测试数据集步骤二:根据装袋法从D中随机出训练子集,从属性特征个数n中提取出属性特征子集个数步骤三:由子集利用目标函数作为属性选择因子来构建基分类器,即构建一个标准化多维代价敏感决策树步骤四:重复步骤2和步骤3,建立一个集成分类器步骤五:测试集中数据,通过集成分类器中每棵决策树和运行记录的预测值,根据投票预测结果,得票最多的预测类作为此测试数据的最终类标号。2.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法,其特征是,所述步骤一的具体表述过程如下:步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为基分类器个数,T为测试数据集F为基分类器个数,其具体设定公式为:F=1/2lnD。3.根据权利要求1中所述的标准化多维代价敏感决策树的集成分类器构建方法,其特征是,所述步骤二的具体计算过程如下:步骤二:从D中随机出训练子集,从属性特征个数n中提取出属性特征子集个数,其具体原理如下:第一,从D中随机出训练子集具体描述为:从原数据集D中有放回的随机抽样N个样本更换原来的N,有些样本被抽中一次以上,以及有些样本一次都不被选中,这种抽样...
【专利技术属性】
技术研发人员:金平艳,胡成华,
申请(专利权)人:四川用联信息技术有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。