一种平均错分代价最小化的分类器集成方法技术

技术编号：6544617 阅读：327 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种平均错分代价最小化的分类器集成方法，该方法包括如下步骤：S1、获取训练样本集；S2、初始化样本权值并赋初值，S3、迭代T次后，训练得到T个最佳弱分类器，包括如下步骤：S31、基于有权值的训练样本集S训练弱分类器；S32、根据步骤S31的结果来调整样本权值，S33、判断t是否小于T，若是，则令t＝t+1，返回步骤S31，若否，则进入步骤S4；S4、组合T个最佳弱分类器得到最佳组合分类器，本发明专利技术相对于现有技术，可真正实现分类结果向错分代价小的类集中，并在不直接要求各个分类器相互独立的条件下，确保训练错误率随着训练的分类器的个数增加而降低，解决了目前已有的代价敏感学习方法只能向错分代价总和最小的类集中的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习和模式识别方法，特别涉及，具体涉及到多分类代价敏感学习的分类器集成方法和多标签分类问题的分类器集成方法。
技术介绍
目前的分类方法一般都追求分类准确率，即分类错误率最小，其基于所有类被错分的代价相等。当不同类被错分的代价不等时，便引出了代价敏感分类问题，此时要求设计的分类器满足错分代价最小而非分类错误率最小。目前已有不少代价敏感学习方法，如 Domingos 等人于 1999 年在文章《MetaCost :A general method for making classifiers cost-sensitive》中采用元代价处理方法把一般的分类模型转换成代价敏感分类模型的方法，Elkan 禾口 Bruka 等人在文章((The foundations of cost-sensitive learning))禾口《A support for decision making Cost-sensitive learning system》中也指出用错分代价调整样本初始分布来解决代价敏感分类的集成学习方法，以及Ling等人于2006年在文章《Test strategies for cost-sensitive decision trees》中提出的一些最小代价决策分类法等。Ling等人于2007年在文章《A comparative study of cost-sensitive classifiers)),叶志飞等人于2009年在文章《不平衡分类问题研究综述》中都对目前已有的众多代价敏感学习算法进行了比较。在众多代价敏感学习方法中，基于...

【技术保护点】
１．一种多分类代价敏感学习的分类器集成方法，包括以下步骤：Ｓ１、获取训练样本集；Ｓ２、初始化样本权值并赋初值；Ｓ３、迭代Ｔ次后，训练得到Ｔ个最佳弱分类器；Ｓ４、组合Ｔ个最佳弱分类器得到最佳组合分类器，其特征在于：所述步骤Ｓ２给训练样本赋初值的方法为：其中，ｉ＝１，．．．，ｍ，ｌ＝１，．．．，Ｋ，ｙｉ∈｛１，２，．．．，Ｋ｝，Ｚ０为的归一化因子，ｃ（ｙｉ，ｌ）表示ｙｉ类被错分成ｌ类的代价，ｍ为训练样本数；所述步骤Ｓ３具体包括如下步骤：Ｓ３１、基于有权值的训练样本集Ｓ训练弱分类器，ｔ＝１，．．．，Ｔ，通过如下步骤实现：Ｓ３１１、对应样本集Ｓ的划分，计算其中ｊ＝１，．．．，ｎｔ，ｌ表示多分类问题中的类，ｘｉ表示第ｉ个样本，表示划分段内ｌ标签子集不包含ｘｉ的概率；Ｓ３１２、定义弱分类器ｈｔ（ｘ），当时，有其中，ｈｔ（ｘ，ｌ）为弱分类器ｈｔ（ｘ）输出标签ｌ的置信度；Ｓ３１３、选取弱分类器ｈｔ（ｘ），使最小，其中，Ｚｔ代表样本权值调整后的归一化因子；Ｓ３２、根据步骤Ｓ３１的结果来调整样本权值，Ｓ３３、判断ｔ是否小于Ｔ，若是，则令ｔ＝ｔ＋１，返回步骤Ｓ３１，若否，则进入步骤Ｓ４。

【技术特征摘要】
1.一种多分类代价敏感学习的分类器集成方法，包括以下步骤.51、获取训练样本集；.52、初始化样本权值并赋初值；.53、迭代T次后，训练得到T个最佳弱分类器；.54、组合T个最佳弱分类器得到最佳组合分类器，其特征在于所述步骤S2给训练样本赋初值的方法为Al=(VZ0)(CiyJ)Im)，其中，i = 1, ... ,m, 1 = l,...,K,yi e {1,2,..., K}, Z0为咚的归一化因子，c (Yi, 1)表示yi类被错分成1类的代价，m为训练样本数；所述步骤S3具体包括如下步骤.531、基于有权值.<的训练样本集S训练弱分类器，t= 1，. . .，T，通过如下步骤实现.5311、对应样本集S的划分2.根据权利要求1所述的方法，其特征在于所述步骤S4得到最佳组合分类器的方法为3.一种利用权利要求1所述的方法实现的多分类连续AdaBoost集成学习方法，包括以下步骤.51、获取训练样本集；.52、初始化样本权值并赋初值；.53、迭代T次后，训练得到T个最佳弱分类器；.54、组合T个最佳弱分类器得到最佳组合分类器，其特征在于所述步骤S2给训练样本赋初值的方法为4.根据权利要求3所述的方法，其特征在于所述步骤S4得到最佳组合分类器的方法为F(x) = argmp{/(x’/)}，其中= ；^ 力仁/)。5.一种利用权利要求1所述的方法实现的过预测标签最少化Adaboost集成学习方法，包括以下步骤Si、获取训练样本集；S2a、初始化样本权值并赋初值；S3a、迭代T次后，训练得到T个最佳弱分类器；S4a、组合T个最佳弱分类器得到最佳组合分类器，其特征在于所述步骤Sh给训练样本赋初值的方法为<; = (Ce(uV(‘))/z。，其中，i = 1，. . .，m，1 =1,...,K,Z0是归一化因子，C0 (i，1)表示过预测标签最少化时，i类被错分成1类的代价矩阵；所述步骤S3a具体包括如下步骤S31a、基于有权值<的训练样本集S训练弱分类器，t = 1，. . .，T，通过如下步骤实现 S311a、对应样本集S的划分，S=SU + + + U《，计算<=[,:(,,碎)<，其中j = 1，. . .，nt，1表示多分类问题中的类...

【专利技术属性】
技术研发人员：付忠良，赵向辉，姚宇，李昕，
申请(专利权)人：中科院成都信息技术有限公司，
类型：发明
国别省市：90

全部详细技术资料下载我是这个专利的主人