一种基于支持向量机的主动学习方法技术

技术编号:8907099 阅读:159 留言:0更新日期:2013-07-11 04:46
本发明专利技术具体公开了一种基于支持向量机的主动学习方法。该方法在主动学习的每轮迭代过程中,从距离支持向量机分类器的分类面较近的样本中进一步挖掘样本的信息量,进而挑选信息含量更大的样本进行人工标注,以达到提高分类器的分类性能,减少人工标注工作量的目的。考虑到支持向量机边界(margin)内的样本距离分类面较近,本发明专利技术实施例将支持向量机边界内的样本作为信息含量较大的候选样本。在这些候选样本中,本发明专利技术实施例进一步选择那些处在两类边界概率较大的样本作为信息含量更大的样本交由专家进行人工标注。

【技术实现步骤摘要】

本专利技术涉及机器学习领域,特别是。
技术介绍
在机器学习领域,训练一个具有良好分类性能的分类器需要大量已经标注好的样本参与训练。然而标注样本并不是越多越好,过多的标注样本可能会产生冗余,增加计算的工作量;而且,大量的已标注样本中并不是每个样本都是对分类器的训练有用的。那些信息含量大的样本,由于其对提高分类器性能的贡献大,因而是有用的样本,是值得我们标注的样本。因此,在进行样本标注时,除了要保证一定的数量以外,还应该保证标注样本的质量,这样不但能提高分类器的分类性能,而且可以减少人工标注的工作量。挑选最有用的样本进行人工标注,这正是主动学习技术的核心所在。主动学习是当前机器学习领域的一个研究热点。所有的主动学习方法都需要对未标注样本的信息量大小进行评价,以挑选信息量大的样本交由专家标注。根据评价策略的不同,主动学习方法主要分为以下几类:( I)基于不确定性米样的主动学习;(2)基于委员会的主动学习;(3)基于预期误差缩减的主动学习;本专利技术是基于支持向量机的主动学习方法,属于基于不确定性采样的主动学习范畴。支持向量机(supportvector machines, SVM)是一个二值分类器。Tong&Koller在对称版本空间的假设下证明了距离SVM的分类面最近的样本其信息含量最大,因为此样本能迅速缩减版本空间。但是herbrich指出,现实中许多情况都难以很好地满足对称版本空间这一假设,因此距离分类面最近的样本的信息含量并没有我们预期的那么大。有鉴于此,本专利技术在样本与分类面距离的基础上进一步挖掘样本的信息量,以找到信息量更大的样本交由专家标注。
技术实现思路
为了在样本与分类面距离的基础上进一步挖掘样本的信息量,以采样信息量更大的样本,本专利技术具体公开了。本专利技术采用的技术方案如下:,包括以下步骤:步骤I用初始已标注样本集L训练初始SVM分类器;步骤2用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本,组成候选样本集S ;步骤3从候选样本集S中挑选信息含量最大的样本交给专家标注;步骤4将专家标注后的样本放入已标注样本集L中;步骤5用更新的已标注样本集L重新训练SVM分类器;步骤6根据停止准则判断是退出循环还是继续迭代。所述的步骤2中,用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本,组成候选样本集S的方法如下:以SVM分类器边界(margin)内的样本作为候选样本,组成候选样本集S,即:S= UiIxi e U,且 If(Xi) I < 1}放入候选样本集S中的样本应同时从未标注样本集U中移除。所述步骤3中,从候选样本集S中挑选信息含量最大的样本的方法如下:首先对候选样本集S中的每个样本Xi,从已标注样本集L中寻找其K个最近邻样本,记作权利要求1.,其特征在于,包括以下步骤: 步骤I用初始已标注样本集L训练初始SVM分类器; 步骤2用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本,组成候选样本集S ; 步骤3从候选样本集S中挑选信息含量最大的样本交给专家标注; 步骤4将专家标注后的样本放入已标注样本集L中; 步骤5用更新的已标注样本集L重新训练SVM分 类器; 步骤6根据停止准则判断是退出循环还是继续迭代。2.如权利要求1所述的,其特征在于,用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本,组成候选样本集S的方法如下:以SVM分类器边界内的样本作为候选样本,组成候选样本集S,即:S= (Xi Ixi e U,且 I f (Xi) I < 1} 放入候选样本集S中的样本应同时从未标注样本集U中移除。3.如权利要求1所述的,其特征在于,所述步骤3中,从候选样本集S中挑选信息含量最大的样本的方法如下:首先对候选样本集S中的每个样本Xi,从已标注样本集L中寻找其K个最近邻样本,记作|4,4,*-,1丨1;假设这K个最近邻样本中,正类样本的数目为kV,负类样本的数目为kL,求两者中的最小值,即: kl =minm 最后,从候选样本集S中寻找Ici值最大的那个未标注样本作为信息含量最大的样本,并将其交由专家进行人工标注,而对于候选样本集S中其余的样本,应当将其从候选样本集S中移除,并重新放回未标注样本集U中。4.如权利要求1所述的,其特征在于,所述步骤6中,停止准则的设定方法如下:采用最大迭代次数作为停止准则,即设定迭代次数的最大值,当迭代次数达到此最大值时则停止迭代;最大迭代次数的取值可以根据标注专家对标注工作量的接受程度来定,即,如果标注专家在主动学习的迭代过程中最多愿意标注I个样本,则最大迭代次数的取值即设定为I。全文摘要本专利技术具体公开了。该方法在主动学习的每轮迭代过程中,从距离支持向量机分类器的分类面较近的样本中进一步挖掘样本的信息量,进而挑选信息含量更大的样本进行人工标注,以达到提高分类器的分类性能,减少人工标注工作量的目的。考虑到支持向量机边界(margin)内的样本距离分类面较近,本专利技术实施例将支持向量机边界内的样本作为信息含量较大的候选样本。在这些候选样本中,本专利技术实施例进一步选择那些处在两类边界概率较大的样本作为信息含量更大的样本交由专家进行人工标注。文档编号G06F15/18GK103198052SQ20131012224公开日2013年7月10日 申请日期2013年4月9日 优先权日2013年4月9日专利技术者冷严, 徐新艳 申请人:山东师范大学本文档来自技高网
...

【技术保护点】
一种基于支持向量机的主动学习方法,其特征在于,包括以下步骤:步骤1用初始已标注样本集L训练初始SVM分类器;步骤2用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本,组成候选样本集S;步骤3从候选样本集S中挑选信息含量最大的样本交给专家标注;步骤4将专家标注后的样本放入已标注样本集L中;步骤5用更新的已标注样本集L重新训练SVM分类器;步骤6根据停止准则判断是退出循环还是继续迭代。

【技术特征摘要】

【专利技术属性】
技术研发人员:冷严徐新艳
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1