基于资源约束代价敏感决策树构建方法技术

技术编号：15258338 阅读：68 留言：0更新日期：2017-05-03 09:04

本发明专利技术提出一种基于资源约束代价敏感决策树构建方法，利用EP准则先把训练集多类标识为两类，在条件下，再根据选择属性代价增益率为目标函数：这个准则，越大属性特征越好，则此属性作为结点或是扩展结点。最后形成的决策树，为了避免过度拟合的问题，用后剪支算法优化决策树。本发明专利技术用于在决策树建立过程中存在资源约束条件下，获得代价最低以及更优化的决策树模型。

Resource constrained cost sensitive decision tree construction method

The invention provides a method for constructing resource constrained cost sensitive decision tree based on EP criterion was used to identify two types of training set, under certain conditions, selected according to the attribute price gain rate as the objective function: this criterion, the greater the better attribute, this property as a node or extension node. Finally, in order to avoid overfitting problem, the decision tree is optimized by using the posterior shear branch algorithm. The method is used to obtain the lowest cost and more optimized decision tree model under the condition of resource constraints in the process of establishing decision tree.

全部详细技术资料下载

【技术实现步骤摘要】
所属领域本专利技术涉及人工智能、机器学习领域。
技术介绍
在归纳学习技术中如何尽量减少误分类错误是主要焦点，例如CART和C4.5。在归纳问题上误分类不仅是一个错误。近来，研究工作人员已开始考虑了测试代价和误分类代价的问题。前工作人员假设测试代价和误分类代价在归纳过程中代价影响是相同的。在实际事例中，这两种代价影响是不一样的。不仅如此，在实际应用中，任何资源都是有限的，所以解决任何一个实际问题，都要在一定条件约束下完成。如，对于医疗数据进行训练时，通常假设给定一足够大的数据集，但事实上，这些数据往往不是免费而是要通过一定资源来换取，且训练器所能够担负的资源是有限的，也就是存在了资源约束。那么既然这些情况是不可避免，现就如何在资源约束下，获得相对最优的决策树模型。
技术实现思路
针对资源约束条件下，同时考虑测试代价以及误分类代价影响因子，本专利技术提出了一种基于资源约束代价敏感决策树构建方法本专利技术所采用技术方案：利用EP准则先把训练集多类标识为两类，在TS＜ω条件下，再根据选择属性代价增益率为目标函数：这个准则，f越大属性特征越好，则此属性作为结点或是扩展结点。最后形成的决策树，为了避免过度拟合的问题，用后剪支算法优化决策树。本专利技术的有益效果是：1，得到的决策树，测试成本低2，得到的决策树，误分类代价低3，在缺失值情况下，也可以得到优化的决策树模型。4，在资源约束条件下，可以获得更优化的决策树模型。附图说明图1基于资源约束代价敏感决策树构建流程图图2基于EP准则实现的两类结点图具体实施步骤为解决资源约束条件下，同时又可以获得更好的测试代价和误分类代价，本专利技...
基于资源约束代价敏感决策树构建方法

【技术保护点】
基于资源约束代价敏感决策树构建方法，该方法涉及人工智能、机器学习技术领域，其特征是：利用EP准则先把训练集多类标识为两类，在条件下，再根据选择属性代价增益率为目标函数：这个准则,f越大属性特征越好，则此属性作为结点或是扩展结点，最后形成的决策树，为了避免过度拟合的问题，用后剪支算法优化决策树其具体的实施步骤如下：步骤1：设训练集中X个样本，属性个数为n，即，同时分裂属性对应了个类，其，，相关领域用户设定好误分类代价矩阵C,L利用EP准则对类进行处理得到误分类代价矩阵；步骤2：创建根节点G；步骤3：如果训练数据集为空，则返回结点G并标记失败；步骤4：如果训练数据集中所有记录都属于同一类别，则以该类型标记结点G；步骤5：如果候选属性为空，则返回G为叶子结点，标记为训练数据集中最普通的类；步骤6：根据属性S的代价增益率候选属性中选择；目标函数f：为训练集总误分类代价，为选择属性S总代价函数，为选择属性S资源损耗代价函数；在条件下，当选择属性满足f函数越大时，则找到标记结点G;步骤7：标记结点G为属性；步骤8：由结点延伸出满足条件为分支；步骤8.1：这里假设为训练数据集中的样本集合，如果为空，...

【技术特征摘要】
1.基于资源约束代价敏感决策树构建方法，该方法涉及人工智能、机器学习技术领域，其特征是：利用EP准则先把训练集多类标识为两类，在条件下，再根据选择属性代价增益率为目标函数：这个准则,f越大属性特征越好，则此属性作为结点或是扩展结点，最后形成的决策树，为了避免过度拟合的问题，用后剪支算法优化决策树其具体的实施步骤如下：步骤1：设训练集中X个样本，属性个数为n，即，同时分裂属性对应了个类，其，，相关领域用户设定好误分类代价矩阵C,L利用EP准则对类进行处理得到误分类代价矩阵；步骤2：创建根节点G；步骤3：如果训练数据集为空，则返回结点G并标记失败；步骤4：如果训练数据集中所有记录都属于同一类别，则以该类型标记结点G；步骤5：如果候选属性为空，则返回G为叶子结点，标记为训练数据集中最普通的类；步骤6：根据属性S的代价增益率候选属性中选择；目标函数f：为训练集总误分类代价，为选择属性S总代价函数，为选择属性S资源损耗代价函数；在条件下，当选择属性满足f函数越大时，则找到标记结点G;步骤7：标记结点G为属性；步骤8：由结点延伸出满足条件为分支；步骤8.1：这里假设为训练数据集中的样本集合，如果为空，加上一个叶子结点，标记为训练数据集中最普通的类；步骤9：非8.1中情况，则递归调用步骤6至步骤8；步骤10：利用后剪支技术解决此决策树模型中过度拟合问题，步骤11：更新训练数据集，保存新的示例数据。2.根据权利要求1所述的基于资源约束代价敏感决策树构建方法，其特征是：所述步骤1基于EP准则对类进行简化处理方法为：1、误分类代价矩阵C类别标识个数为m，则该数据的代价矩阵方阵是：其中表示第j类数据分为第i类的代价，如果i=j为正确分类，则，否则为错误分类，其值由相关领域用户给定,这里；2、EP准则设训练数据集X,其类有m个，假如判定当前结点的类标号为,把判定为P例，则其他的就为N例:其中表示该属性中类别为样例个数，为P例代价，为该...

【专利技术属性】
技术研发人员：金平艳，胡成华，
申请(专利权)人：四川用联信息技术有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人