基于资源约束代价敏感决策树构建方法技术

技术编号:15258338 阅读:68 留言:0更新日期:2017-05-03 09:04
本发明专利技术提出一种基于资源约束代价敏感决策树构建方法,利用EP准则先把训练集多类标识为两类,在条件下,再根据选择属性代价增益率为目标函数:这个准则,越大属性特征越好,则此属性作为结点或是扩展结点。最后形成的决策树,为了避免过度拟合的问题,用后剪支算法优化决策树。本发明专利技术用于在决策树建立过程中存在资源约束条件下,获得代价最低以及更优化的决策树模型。

Resource constrained cost sensitive decision tree construction method

The invention provides a method for constructing resource constrained cost sensitive decision tree based on EP criterion was used to identify two types of training set, under certain conditions, selected according to the attribute price gain rate as the objective function: this criterion, the greater the better attribute, this property as a node or extension node. Finally, in order to avoid overfitting problem, the decision tree is optimized by using the posterior shear branch algorithm. The method is used to obtain the lowest cost and more optimized decision tree model under the condition of resource constraints in the process of establishing decision tree.

【技术实现步骤摘要】
所属领域本专利技术涉及人工智能、机器学习领域。
技术介绍
在归纳学习技术中如何尽量减少误分类错误是主要焦点,例如CART和C4.5。在归纳问题上误分类不仅是一个错误。近来,研究工作人员已开始考虑了测试代价和误分类代价的问题。前工作人员假设测试代价和误分类代价在归纳过程中代价影响是相同的。在实际事例中,这两种代价影响是不一样的。不仅如此,在实际应用中,任何资源都是有限的,所以解决任何一个实际问题,都要在一定条件约束下完成。如,对于医疗数据进行训练时,通常假设给定一足够大的数据集,但事实上,这些数据往往不是免费而是要通过一定资源来换取,且训练器所能够担负的资源是有限的,也就是存在了资源约束。那么既然这些情况是不可避免,现就如何在资源约束下,获得相对最优的决策树模型。
技术实现思路
针对资源约束条件下,同时考虑测试代价以及误分类代价影响因子,本专利技术提出了一种基于资源约束代价敏感决策树构建方法本专利技术所采用技术方案:利用EP准则先把训练集多类标识为两类,在TS<ω条件下,再根据选择属性代价增益率为目标函数:这个准则,f越大属性特征越好,则此属性作为结点或是扩展结点。最后形成的决策树,为了避免过度拟合的问题,用后剪支算法优化决策树。本专利技术的有益效果是:1,得到的决策树,测试成本低2,得到的决策树,误分类代价低3,在缺失值情况下,也可以得到优化的决策树模型。4,在资源约束条件下,可以获得更优化的决策树模型。附图说明图1基于资源约束代价敏感决策树构建流程图图2基于EP准则实现的两类结点图具体实施步骤为解决资源约束条件下,同时又可以获得更好的测试代价和误分类代价,本专利技术结合图1-图2对本专利技术进行详细说明:步骤1.设训练集中有X个样本,属性个数为n,即n=(s1,s2,…sn),同时分裂属性sr对应了m个类L,其中Li∈(L1,L2…,Lm),r∈(1,2…,n),i∈(1,2…,m)。相关领域用户设定好误分类代价矩阵C,L利用EP准则对类进行处理得到误分类代价矩阵C′。步骤2:创建根节点G。步骤3:如果训练数据集为空,则返回结点G并标记失败。步骤4:如果训练数据集中所有记录都属于同一类别,则该类型标记结点G。步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类。步骤6:根据属性S的代价增益率f函数从候选属性中选择splitS。目标函数f:w为总误分类代价函数,TS为选择属性S总代价函数,CS为选择属性S资源损耗代价函数。在TS<ω条件下,当选择属性splitS满足f函数越大时,则找到标记结点G。步骤7:标记结点G为属性splitS。步骤8:由结点延伸出满足条件为splitS=splitSi分支。8.1这里假设Yi为训练数据集中splitS=splitSi的样本集合。如果Yi为空,加上一个叶子结点,标记为训练数据集中最普通的类。步骤9:非8.1中情况,则递归调用步骤6至步骤8。步骤10:利用后剪支技术解决此决策树模型中过度拟合问题。后剪支目标函数为总测试代价减少率:用户自定义一个减少率因子α。其中,TTC是剪支之前的初始树的总平均测试代价,TTC′为剪支之后的总平均测试代价,当r(TTC)越大直到满足以下条件,我们就实施剪支操作:r(TTC)>α其中正数α为用户指定达到的条件,剪枝的条件首先要满足尽可能使代价减损达到用户指定条件,然后满足测试代价降低到用户要求。步骤11:更新训练数据集,保存新的示例数据。所述步骤1基于EP准则求解两类节点具体计算过程如下:1.1误分类代价矩阵C类别标识个数为m,则该数据的代价矩阵m×m方阵是:其中cij表示第j类数据分为第i类的代价,如果i=j为正确分类,则cij=0,否则为错误分类cij≠0,其值由相关领域用户给定,这里i,j∈(1,2,…,m)。1.2EP准则设训练数据集X,其类有m个,假如判定当前结点的类标号为Li,把Li判定为P例,则其他的就为N例。其中nj表示该属性中类别为Lj样例个数,i,j∈{1,2,…,m本文档来自技高网...
基于资源约束代价敏感决策树构建方法

【技术保护点】
基于资源约束代价敏感决策树构建方法,该方法涉及人工智能、机器学习技术领域,其特征是:利用EP准则先把训练集多类标识为两类,在条件下,再根据选择属性代价增益率为目标函数:这个准则,f越大属性特征越好,则此属性作为结点或是扩展结点,最后形成的决策树,为了避免过度拟合的问题,用后剪支算法优化决策树其具体的实施步骤如下:步骤1:设训练集中X个样本,属性个数为n,即,同时分裂属性对应了个类,其,,相关领域用户设定好误分类代价矩阵C,L利用EP准则对类进行处理得到误分类代价矩阵;步骤2:创建根节点G;步骤3:如果训练数据集为空,则返回结点G并标记失败;步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记结点G;步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类;步骤6:根据属性S的代价增益率候选属性中选择;目标函数f:为训练集总误分类代价,为选择属性S总代价函数,为选择属性S资源损耗代价函数;在条件下,当选择属性满足f函数越大时,则找到标记结点G;步骤7:标记结点G为属性;步骤8:由结点延伸出满足条件为分支;步骤8.1:这里假设为训练数据集中的样本集合,如果为空,加上一个叶子结点,标记为训练数据集中最普通的类;步骤9:非8.1中情况,则递归调用步骤6至步骤8;步骤10:利用后剪支技术解决此决策树模型中过度拟合问题,步骤11:更新训练数据集,保存新的示例数据。...

【技术特征摘要】
1.基于资源约束代价敏感决策树构建方法,该方法涉及人工智能、机器学习技术领域,其特征是:利用EP准则先把训练集多类标识为两类,在条件下,再根据选择属性代价增益率为目标函数:这个准则,f越大属性特征越好,则此属性作为结点或是扩展结点,最后形成的决策树,为了避免过度拟合的问题,用后剪支算法优化决策树其具体的实施步骤如下:步骤1:设训练集中X个样本,属性个数为n,即,同时分裂属性对应了个类,其,,相关领域用户设定好误分类代价矩阵C,L利用EP准则对类进行处理得到误分类代价矩阵;步骤2:创建根节点G;步骤3:如果训练数据集为空,则返回结点G并标记失败;步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记结点G;步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类;步骤6:根据属性S的代价增益率候选属性中选择;目标函数f:为训练集总误分类代价,为选择属性S总代价函数,为选择属性S资源损耗代价函数;在条件下,当选择属性满足f函数越大时,则找到标记结点G;步骤7:标记结点G为属性;步骤8:由结点延伸出满足条件为分支;步骤8.1:这里假设为训练数据集中的样本集合,如果为空,加上一个叶子结点,标记为训练数据集中最普通的类;步骤9:非8.1中情况,则递归调用步骤6至步骤8;步骤10:利用后剪支技术解决此决策树模型中过度拟合问题,步骤11:更新训练数据集,保存新的示例数据。2.根据权利要求1所述的基于资源约束代价敏感决策树构建方法,其特征是:所述步骤1基于EP准则对类进行简化处理方法为:1、误分类代价矩阵C类别标识个数为m,则该数据的代价矩阵方阵是:其中表示第j类数据分为第i类的代价,如果i=j为正确分类,则,否则为错误分类,其值由相关领域用户给定,这里;2、EP准则设训练数据集X,其类有m个,假如判定当前结点的类标号为,把判定为P例,则其他的就为N例:其中表示该属性中类别为样例个数,为P例代价,为该...

【专利技术属性】
技术研发人员:金平艳胡成华
申请(专利权)人:四川用联信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1