一种标准化的多维尺度代价敏感决策树构建方法技术

技术编号:15276199 阅读:132 留言:0更新日期:2017-05-04 20:08
本发明专利技术提出了一种标准化的多维尺度代价敏感决策树构建方法,根据属性的目标函数从候选属性中选,由节点延伸出满足条件分支,这里假设满足条件的分支个数为k,此时在此节点再加一个空节点,即当前节点的分支个数为k+1,同时利用先剪枝技术对叶子节点进行剪枝操作,一边建树一边剪枝,当满足以下两个条件时,停止建树。一、假设为训练数据集中的样本集合,如果为空,加上一个叶子结点,标记为训练数据集中最普通的类。二、此结点中所有例子属于同一类。此发明专利技术提高了分类的准确度;规避了分类过程中的偏置问题;考虑了多种代价影响因子和决策树分支中的空节点,若未知事物分类结果不符合当前模型,则可通过空节点继续下一步分类操作。

A standardized method for constructing multidimensional scale cost sensitive decision tree

The invention provides a multidimensional scale cost sensitive decision tree a standard construction method, according to the objective function attribute from the candidate attributes selected by the node, extending to meet the conditions of the branch, branch number hypothesis here to meet the conditions of the K, at this node plus an empty node, branch number of the current node for k+1, at the same time the pruning operation of the leaf node by first pruning technique, while achievements while pruning, when meet the following two conditions, stop building. First, if the training data set of the sample set, if NULL, plus a leaf node, labeled as the most common class of training data set. Two, all the examples of this node belong to the same class. This method improves the classification accuracy; to avoid the bias problem in the process of classification; consider various cost factors and empty nodes of decision tree branches, if the unknown classification results inconsistent with the current model, you can continue to the next step operation through the empty node classification.

【技术实现步骤摘要】

本专利技术涉及机器学习、人工智能以及数据挖掘领域。
技术介绍
决策树研究是数据挖掘和机器学习中的一项重要和积极的研究课题。其所提出的算法被广泛地和成功地应用于实际问题中,如ID3,CART和C4.5,此类经典学习算法主要是研究准确率的问题,能够得到更高准确性的决策树。在现有的算法中,其大多数都只倾向于考虑测试代价和误分类错误代价中的一种,此类算法称为一维尺度代价敏感,其构建的决策树在现实案例中不能够解决综合问题。在代价敏感学习中除了考虑测试代价和误分类代价对分类的影响,还需考虑待时间代价对分类预测的影响,例如,患者可能存在测试代价约束,也有可能存在等待时间上的约束,根据不同类别需求人所具备的自身资源不同,所需的时间长短也不同,考虑各种代价单位机制不同的问题,另外在构建决策树过程中,采用先剪支技术来解决决策树中过拟合问题,为了解决这种需求,本专利技术在之前一维和二维尺度代价基础上,提出了一种多维尺度的异构代价敏感决策树构建方法。这里所涉及的代价影响因子有三种:测试代价、相对等待时间代价以及误分类代价,它们的单位代价机制互不相同,另外也需考虑各种代价和属性信息之间的平衡性问题,基于在之前多维尺度的异构代价敏感决策树构建方法的基础上,提出了一种标准化的多维尺度代价敏感决策树的构建方法。
技术实现思路
针对于解决三种代价影响因子的不同单位机制问题以及三种代价与属性信息之间的平衡性问题,提出了一种标准化的多维尺度代价敏感决策树构建方法。为解决上述问题,本专利技术是通过以下技术方案实现的:一种标准化的多维尺度代价敏感决策树构建方法,包括如下步骤:步骤1:设训练集中有X个样本,属性个数为n,即n=(S1,S2,…Sn),同时分裂属性Si对应了m个类L,其中Lr∈(L1,L2…,Lm),i∈(1,2…,n),r∈(1,2…,m)。相关领域用户设定好误分类代价矩阵C、属性Si测试代价为资源调节因子∝、相对等待时间代价wc(Si)、修正系数β,判定条件阈值p、α以及γ。步骤2:创建根节点G。步骤3:如果训练数据集为空,则返回节点G并标记失败。步骤4:如果训练数据集中所有记录都属于同一类别,则该类型标记节点G。步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类。步骤6:根据属性Si的目标函数f(Si)从候选属性中选择splitSi。目标函数f(Si):averagegain(Si)为平均信息增益函数,(ZTC(Si))normal为标准化总测试代价函数,Rmc(Si)normal为标准化的误分类代价比率函数。当选择属性splitSi满足目标函数f(Si)越大,则找到标记节点G。当出现目标函数f(Si)相等时,为打破平局标准,则按照下面的优先顺序再进行选择:(1)更小的Rmc(Si)normal(2)更小的(ZTC(Si))normal步骤7:标记节点G为属性splitSi。步骤8:由节点延伸出满足条件为splitS=splitSi分支,这里假设满足条件的分支个数为k,此时在此节点再加一个空节点,即当前节点的分支个数为k+1,同时利用先剪枝技术对节点进行剪枝操作,一边建树一边剪枝,如果满足以下两条件之一,就停止建树。8.1这里假设Yi为训练数据集中splitS=splitSi的样本集合,如果Yi为空,加上一个叶子结点,标记为训练数据集中最普通的类。8.2此节点中所有例子属于同一类。步骤9:非8.1与8.2中情况,则递归调用步骤6至步骤8。本专利技术有益效果是:1、考虑了信息增益因素,构建的决策树有更好分类准确度,加强了分类能力,避免了当类中有稀有类时,把它当做普通类进行分类。2、考虑了多种代价影响因子和决策树分支当中生成了空节点,若未知事物分类结果不符合当前模型,则可以通过空节点继续进行下一步分类操作,此构建的决策树模型应用范围要更广,更符合实际的需求。3、在决策树构建过程中,标准化总测试代价可以更有效避免了分裂属性信息存在因过小而被忽略的风险。4、建树过程中,对总测试代价和误分类代价标准化,可以更好的把各代价不同单位机制转化为同一单位机制,形成的决策树具有高的分类精度和降低误分类代价、测试代价以及待时间代价。5、利用先剪枝技术对决策树进行剪枝提高了分类学习的速率。6、构成的决策树更好的规避了信息偏置为数量级大的问题。附图说明图1为一种标准化的多维尺度代价敏感决策树构建的流程图具体实施方式为解决三种代价影响因子的不同单位机制问题、三种代价与属性信息之间的平衡性问题,最后生成的决策树具有更好的规避了过度拟合问题,结合图1对本专利技术进行了详细说明,其具体实施步骤如下:步骤1:设训练集中有X个样本,属性个数为n,即n=(S1,S2,…Sn),同时分裂属性Si对应了m个类L,其中Lr∈(L1,L2…,Lm),i∈(1,2…,n),r∈(1,2…,m)。相关领域用户设定好误分类代价矩阵C、属性Si测试代价为costi、资源调节因子∝、wc(Si)—相对等待时间代价值,修正系数β,判定条件阈值p、α以及γ。1)上述步骤1中所述的误分类代价矩阵C具体设定过程如下:相关领域用户误分类代价矩阵C的设定:类别标识个数为m,则该数据的代价矩阵m×m方阵是:其中cij表示第j类数据分为第i类的代价,如果i=j为正确分类,则cij=0,否则为错误分类cij≠0,其值由相关领域用户给定,这里i,j∈(1,2,…,m)步骤2:创建根节点G。步骤3:如果训练数据集为空,则返回节点G并标记失败。步骤4:如果训练数据集中所有记录都属于同一类别,则该类型标记节点G。步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类。步骤6:根据属性Si的目标函数f(Si)从候选属性中选择splitSi。目标函数f(Si):averagegain(Si)为平均信息增益函数,(ZTC(Si))normal为标准化总测试代价函数,Rmc(Si)normal为标准化误分类代价比率函数。当选择属性splitSi满足目标函数f(Si)越大,则找到标记节点G。2)上述步骤6求解目标函数f(Si),需要先求解平均信息增益函数averagegain(Si),标准化总测试代价函数(ZTC(Si))normal,标准化误分类代价比率函数Rmc(Si)normal,具体求解过程如下:2.1)计算平均信息增益函数averagegain(Si)的具体过程如下:信息增益函数gain(Si):gain(Si)=E(X)-E(Si)上式E(X)为整个训练集的信息熵,E(Si)为属性Si所对应的信息熵;上式表示为类Lr的个数,为训练集对应类Lr的概率,类的个数总共为m个。上式k为属性Si所对应属性值的个数,ni为对应属性值为i的样本数,β为修正系数。β这里为了避免在构建决策树中存在分类偏置的问题,即偏置到数量级更大的类问题。所以最后求得的averageain(Si)—平均信息增益函数为如下所式:averagegain(Si)作用:可以提高决策树的分类精度,解决决策树偏置问题。2.2)计算标准化总测试代价函数(ZTC(Si))normal具体过程如下:2.2.1)先求解总测试代价函数ZTC(Si),其表达式为:以下具体介绍相对等待时间代价wc(Si):等待时间代价与时间有关本文档来自技高网...
一种标准化的多维尺度代价敏感决策树构建方法

【技术保护点】
一种标准化的多维尺度代价敏感决策树构建方法,本专利技术涉及涉及机器学习、人工智能以及数据挖掘领域,其特征是,包括如下步骤:步骤1:设训练集中有X个样本,属性个数为n,即,同时分裂属性对应了m个类L,其中,相关领域用户设定好误分类代价矩阵C、属性测试代价为、资源调节因子、相对等待时间代价、修正系数,判定条件阈值以及1)上述步骤1中所述的误分类代价矩阵C具体设定过程如下:相关领域用户误分类代价矩阵C的设定:类别标识个数为m,则该数据的代价矩阵方阵是:其中表示第j类数据分为第i类的代价,如果为正确分类,则否则为错误分类其值由相关领域用户给定,这里步骤2:创建根节点G步骤3:如果训练数据集为空,则返回节点G并标记失败步骤4: 如果训练数据集中所有记录都属于同一类别,则该类型标记节点G步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类步骤6:根据属性的目标函数从候选属性中选择目标函数:为平均信息增益函数,为标准化总测试代价函数,为标准化的误分类代价比率函数,当选择属性满足目标函数越大,则找到标记节点G当出现目标函数相等时,为打破平局标准,则按照下面的优先顺序再进行选择:(1)更小的(2)更小的步骤7:标记节点G为属性步骤8:由节点延伸出满足条件为分支,这里假设满足条件的分支个数为k,此时在此节点再加一个空节点,即当前节点的分支个数为k+1,同时利用先剪枝技术对节点进行剪枝操作,一边建树一边剪枝,如果满足以下两条件之一,就停止建树8.1这里假设为训练数据集中的样本集合,如果为空,加上一个叶子结点,标记为训练数据集中最普通的类8.2此节点中所有例子属于同一类步骤9:非8.1与8.2中情况,则递归调用步骤6至步骤8。...

【技术特征摘要】
1.一种标准化的多维尺度代价敏感决策树构建方法,本发明涉及涉及机器学习、人工智能以及数据挖掘领域,其特征是,包括如下步骤:步骤1:设训练集中有X个样本,属性个数为n,即,同时分裂属性对应了m个类L,其中,相关领域用户设定好误分类代价矩阵C、属性测试代价为、资源调节因子、相对等待时间代价、修正系数,判定条件阈值以及1)上述步骤1中所述的误分类代价矩阵C具体设定过程如下:相关领域用户误分类代价矩阵C的设定:类别标识个数为m,则该数据的代价矩阵方阵是:其中表示第j类数据分为第i类的代价,如果为正确分类,则否则为错误分类其值由相关领域用户给定,这里步骤2:创建根节点G步骤3:如果训练数据集为空,则返回节点G并标记失败步骤4:如果训练数据集中所有记录都属于同一类别,则该类型标记节点G步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类步骤6:根据属性的目标函数从候选属性中选择目标函数:为平均信息增益函数,为标准化总测试代价函数,为标准化的误分类代价比率函数,当选择属性满足目标函数越大,则找到标记节点G当出现目标函数相等时,为打破平局标准,则按照下面的优先顺序再进行选择:(1)更小的(2)更小的步骤7:标记节点G为属性步骤8:由节点延伸出满足条件为分支,这里假设满足条件的分支个数为k,此时在此节点再加一个空节点,即当前节点的分支个数为k+1,同时利用先剪枝技术对节点进行剪枝操作,一边建树一边剪枝,如果满足以下两条件之一,就停止建树8.1这里假设为训练数据集中的样本集合,如果为空,加上一个叶子结点,标记为训练数据集中最普通的类8.2此节点中所有例子属于同一类步骤9:非8.1与8.2中情况,则递归调用步骤6至步骤8。2.根据权利要求1中所述一种标准化的多维尺度代价敏感决策树构建方法,其特征是,以上所述步骤6中的具体计算过程如下:步骤6:根据属性的目标函数从候选属性中选择目标函数:为平均信息增益函数,为标准化总测试代价函数,为标准化误分类代价比率函数当选择属性满足目标函数越大,则找到标记节点G2)上述步骤6求解目标函数,需要先求解平均信息增益函数,标准化总测试代价函数,标准化误分类代价比率函数,具体求解过程如下:2.1)计算平均信息增益函数的具体过程如下:信息增益函数:上式E(X)为整个训练集的信息熵,为属性所对应的信息熵;上式表示为类的个数,为训练集对应类的概率,类的个数总共为m个上式k为属性所对应属性值的个数,为对应属性值为i的样本数,为修正系数这里为了避免在构建决策树中存在分类偏置的问题,即偏置到数量级更大的类问题所以最后求得的—平均信息增益函数为如下所式:作用:可...

【专利技术属性】
技术研发人员:金平艳胡成华
申请(专利权)人:四川用联信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1