一种平均错分代价最小化的分类器集成方法技术

技术编号:6544617 阅读:327 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种平均错分代价最小化的分类器集成方法,该方法包括如下步骤:S1、获取训练样本集;S2、初始化样本权值并赋初值,S3、迭代T次后,训练得到T个最佳弱分类器,包括如下步骤:S31、基于有权值的训练样本集S训练弱分类器;S32、根据步骤S31的结果来调整样本权值,S33、判断t是否小于T,若是,则令t=t+1,返回步骤S31,若否,则进入步骤S4;S4、组合T个最佳弱分类器得到最佳组合分类器,本发明专利技术相对于现有技术,可真正实现分类结果向错分代价小的类集中,并在不直接要求各个分类器相互独立的条件下,确保训练错误率随着训练的分类器的个数增加而降低,解决了目前已有的代价敏感学习方法只能向错分代价总和最小的类集中的问题。

【技术实现步骤摘要】

本专利技术涉及机器学习和模式识别方法,特别涉及,具体涉及到多分类代价敏感学习的分类器集成方法和多标签分类问题的分类器集成方法。
技术介绍
目前的分类方法一般都追求分类准确率,即分类错误率最小,其基于所有类被错分的代价相等。当不同类被错分的代价不等时,便引出了代价敏感分类问题,此时要求设计的分类器满足错分代价最小而非分类错误率最小。目前已有不少代价敏感学习方法,如 Domingos 等人于 1999 年在文章《MetaCost :A general method for making classifiers cost-sensitive》中采用元代价处理方法把一般的分类模型转换成代价敏感分类模型的方法,Elkan 禾口 Bruka 等人在文章((The foundations of cost-sensitive learning))禾口 《A support for decision making Cost-sensitive learning system》中也指出用错分代价调整样本初始分布来解决代价敏感分类的集成学习方法,以及Ling等人于2006年在文章《Test strategies for cost-sensitive decision trees》中提出的一些最小代价决策分类法等。Ling等人于2007年在文章《A comparative study of cost-sensitive classifiers)),叶志飞等人于2009年在文章《不平衡分类问题研究综述》中都对目前已有的众多代价敏感学习算法进行了比较。在众多代价敏感学习方法中,基于AdaBoost引入错分代价的代价敏感学习方法,因AdaBoost算法自身具有的显著性能,在代价敏感学习方法中受到了更多的重视和关注。目前的代价敏感学习方法主要针对二分类问题,已有的多分类问题的代价敏感学习方法只能区分错分代价总和而无法区分错分成不同类代价的差异。郝红卫等人在专利CNlOllM^eA中提出了一种分类器动态选择与循环集成方法,高常鑫等人在专利CN100587708C中阐述了一种分类器集成方法,Zhu和Fu等人于2009年分别在 JC M ((Multi-class AdaBoost))禾口〈〈Effictive property and best combination of classifiers linear combination》中考虑了直接用于多分类问题的集成学习方法,但都没有引入代价。对多分类的代价敏感分类,目前通常做法是把问题转换成多级二分类问题来处理,为此必须进行错分代价的合并,但只能考虑每一类被错分的代价总和而无法区分被错分成不同类的代价。合并错分代价完全掩盖了不同错分代价的差异,无法获得真正的错分代价最小化分类器。多标签分类问题是一种比较复杂的分类问题,它不同于两类分类问题,它允许问题中存在多个类别(或称为标签);不同于多类分类问题,它允许样本同时属于多个类别; 它不同于单标签分类问题(包括两类问题和多类问题),在单标签分类问题中,标签(类别)与标签之间都是相互排斥的,每个样本只能属于唯一的一个类别,而在多标签分类问题中,标签与标签之间是相瓦关联的,允许问题中的部分样本同时属于多个标签。由于多标签分类问题的复杂性和广泛的应用价值,引起了越来越多国内外研究者的关注,并取得了一定的成果。目前,对于多标签分类问题在许多文献资料中都有相关的研究,已形成多种解决多标签分类问题的方法,根据总体设计思路不同,一般分为两种一种是基于数据分解的多标签分类方法;一种是基于单个优化问题的多标签分类方法。其中,基于数据分解的多标签分类方法实质上是将多标签分类问题分解为多个单标签分类子问题,然后使用现有的单标签分类方法处理这些子问题,再将所有子问题的解集成,最终得到总的多标签分类问题的解。再者是基于单个优化问题的多标签分类方法,它通过对一般的分类方法进行改造,只建立一个最优化问题直接处理数据集中的所有样本,从而完成能够直接处理多标签分类问题的任务。在多标签数据集中的样本拥有多个标签,怎样建立和求解这样的最优化问题是要解决的重要问题,它没有改变数据集的结构,没有破坏类别之间的关联关系,反映了多标签分类的特殊性质,但该方法的实现有一定的难度。总的来说,构造多标签分类问题的集成学习方法是很难的。
技术实现思路
针对现有技术存在的问题,本专利技术的主要目的在于提供,该方法能够真正实现分类结果偏向错分代价较小的类,并在不直接要求各个分类器相互独立的条件下,确保训练错误率随着训练的分类器的个数增加而降低。为实现上述目的,本专利技术的技术方案构思原理如下本专利技术采取把用符号函数表示的错分代价的极值问题转换成用指数函数表示的极值问题,并基于递推思想,得到了。对训练样本集S = {(Xl,yi),···,0^^)},考虑1(分类问题^ e {1,2,... ,Kj0 弱分类器ht(x)输出标签1的置信度为ht(x,1),1 = 1,...,K. (x,y) e S简记为χ e S。集成学习方法通常指通过某种方式得到T个弱分类器ht (χ),t = 1,...,T, 然后进行组合得到分类性能更好的组合分类器。线性组合最常用,本文档来自技高网
...

【技术保护点】
1.一种多分类代价敏感学习的分类器集成方法,包括以下步骤:S1、获取训练样本集;S2、初始化样本权值并赋初值;S3、迭代T次后,训练得到T个最佳弱分类器;S4、组合T个最佳弱分类器得到最佳组合分类器,其特征在于:所述步骤S2给训练样本赋初值的方法为:其中,i=1,...,m,l=1,...,K,yi∈{1,2,...,K},Z0为的归一化因子,c(yi,l)表示yi类被错分成l类的代价,m为训练样本数;所述步骤S3具体包括如下步骤:S31、基于有权值的训练样本集S训练弱分类器,t=1,...,T,通过如下步骤实现:S311、对应样本集S的划分,计算其中j=1,...,nt,l表示多分类问题中的类,xi表示第i个样本,表示划分段内l标签子集不包含xi的概率;S312、定义弱分类器ht(x),当时,有其中,ht(x,l)为弱分类器ht(x)输出标签l的置信度;S313、选取弱分类器ht(x),使最小,其中,Zt代表样本权值调整后的归一化因子;S32、根据步骤S31的结果来调整样本权值,S33、判断t是否小于T,若是,则令t=t+1,返回步骤S31,若否,则进入步骤S4。

【技术特征摘要】
1.一种多分类代价敏感学习的分类器集成方法,包括以下步骤.51、获取训练样本集;.52、初始化样本权值并赋初值;.53、迭代T次后,训练得到T个最佳弱分类器;.54、组合T个最佳弱分类器得到最佳组合分类器,其特征在于所述步骤S2给训练样本赋初值的方法为Al=(VZ0)(CiyJ)Im),其中,i = 1, ... ,m, 1 = l,...,K,yi e {1,2,..., K}, Z0为咚的归一化因子,c (Yi, 1)表示yi类被错分成1类的代价,m为训练样本数;所述步骤S3具体包括如下步骤.531、基于有权值.<的训练样本集S训练弱分类器,t= 1,. . .,T,通过如下步骤实现.5311、对应样本集S的划分2.根据权利要求1所述的方法,其特征在于所述步骤S4得到最佳组合分类器的方法为3.一种利用权利要求1所述的方法实现的多分类连续AdaBoost集成学习方法,包括以下步骤.51、获取训练样本集;.52、初始化样本权值并赋初值;.53、迭代T次后,训练得到T个最佳弱分类器;.54、组合T个最佳弱分类器得到最佳组合分类器,其特征在于所述步骤S2给训练样本赋初值的方法为4.根据权利要求3所述的方法,其特征在于所述步骤S4得到最佳组合分类器的方法为F(x) = argmp{/(x’/)},其中= ;^ 力仁/)。5.一种利用权利要求1所述的方法实现的过预测标签最少化Adaboost集成学习方法, 包括以下步骤Si、获取训练样本集;S2a、初始化样本权值并赋初值;S3a、迭代T次后,训练得到T个最佳弱分类器;S4a、组合T个最佳弱分类器得到最佳组合分类器,其特征在于所述步骤Sh给训练样本赋初值的方法为<; = (Ce(uV(‘))/z。,其中,i = 1,. . .,m,1 =1,...,K,Z0是归一化因子,C0 (i,1)表示过预测标签最少化时,i类被错分成1类的代价矩阵;所述步骤S3a具体包括如下步骤S31a、基于有权值<的训练样本集S训练弱分类器,t = 1,. . .,T,通过如下步骤实现 S311a、对应样本集S的划分,S=SU + + + U《,计算<=[,:(,,碎)<,其中j = 1,. . .,nt,1表示多分类问题中的类...

【专利技术属性】
技术研发人员:付忠良赵向辉姚宇李昕
申请(专利权)人:中科院成都信息技术有限公司
类型:发明
国别省市:90

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1