一种基于半监督学习的支持向量机分类器训练方法技术

技术编号:8801375 阅读:240 留言:0更新日期:2013-06-13 06:00
本发明专利技术具体公开了一种基于半监督学习的支持向量机分类器训练方法,包括如下步骤:步骤1用初始已标注样本集训练一个初始SVM分类器;步骤2从未标注样本集U中寻找分类置信度高的样本,组成高置信度样本集S;步骤3对高置信度样本集S中的每个样本,按照图3所描述的方法判断其信息量大小,如果信息量小则将其从高置信度样本集S中移除,并重新放回未标注样本集U中;步骤4将S中置信度高且信息量大的样本由机器自动标注后加入SVM分类器的已标注样本集L中;步骤5用更新的已标注样本集L重新训练SVM分类器;步骤6根据停止准则判断是退出循环还是继续迭代。

【技术实现步骤摘要】

本专利技术涉及机器学习领域,特别是。
技术介绍
在机器学习领域,为了训练一个具有良好分类性能的分类器,需要用大量已标注样本来参与训练。但是样本的标注工作枯燥无味,且需要耗费人们大量的时间与精力,这使得通过人工标注来获得标注样本的代价昂贵。为了克服这一难题,专家们提出了半监督学习技术。半监督学习是一个循环迭代的过程,具体可分为以下几类:自训练半监督学习、以生成式模型为分类器的半监督学习、直推式支持向量机半监督学习、基于图的半监督学习和协同训练半监督学习。本专利技术实施例所采用的半监督学习属于自训练半监督学习。自训练半监督学习的一般流程为:①用少量初始已标注样本训练一个初始分类器;②用分类器对未标注样本进行分类;③从未标注样本集中寻找分类置信度高的样本;④由机器为这些高置信度的未标注样本自动标注;⑤将标注后的高置信度样本加入分类器的训练集中,并用更新后的训练集重新训练分类器;⑥检查是否满足停止准则,不满足则返回②,进入下一轮循环;满足则停止迭代,输出训练好的分类器。在半监督学习中,采样分类置信度高的样本能确保在机器自动标注时不至于引入太多的标注错误,但是高置信度的样本未必是有用的样本,尤其是对于像支持向量机(Support Vector Machines, SVM)这种判别式分类器来说。对SVM分类器来说,那些远离当前分类面的样本的分类置信度较高。然而,仅仅是分类置信度高还不够,我们希望样本在保证高置信度的同时,其信息含量也要大。所谓信息含量大是指样本对分类训练来说是有用的样本,其对分类器训练的贡献度大。基于此,本专利技术实施例在高置信度的基础上进一步挖掘样本的信息量,进而提出了一种新的基于半监督学习的支持向量机分类器训练方法
技术实现思路
本专利技术具体公开了。该方法对于那些远离当前分类面的高置信度样本,进一步挖掘其信息量;然后挑选那些置信度高且信息量大的样本,由机器自动标注后放入已标注样本集中重新训练分类器,以达到加快SVM分类器的收敛,提高SVM分类器的分类性能的目的。本专利技术采用的技术方案如下:,包括如下步骤:步骤I用初始已标注样本集训练一个初始SVM分类器;步骤2用SVM分类器从未标注样本集U中寻找分类置信度高的样本,组成高置信度样本集S ;步骤3对高置信度样本集S中的每个样本,判断其信息量大小,如果信息量小则将其从高置信度样本集S中移除,并重新放回未标注样本集U中;步骤4将高置信度样本集S中置信度高且信息量大的样本由机器自动标注后加入SVM分类器的已标注样本集L中;步骤5用更新的已标注样本集L重新训练SVM分类器;步骤6根据停止准则判断是退出循环还是继续迭代。所述的步骤I中,初始已标注样本集的选择方法如下:首先对所有未标注样本进行聚类,得到若干个簇,然后从每个簇中选择距离质心最近的样本进行人工标注,进而形成初始已标注样本集。所述的步骤2中,寻找置信度高的样本,进而组成高置信度样本集S的方法如下:支持向量机分类器在每轮迭代训练过程中会不断更新,进而得到新的分类面,把当前这轮迭代后生成的新分类面称为当前分类面;设定一个阈值dth,规定那些距离当前分类面距离大于阈值dth的样本是高置信度样本;由这些高置信度样本组成如下高置信度样本集S:S= (Xi I Xi e U, d (Xi) > dth}其中,(Kxi)表示样本Xi距离当前分类面的距离;通常分类间隔被置为1,则本文档来自技高网
...

【技术保护点】
一种基于半监督学习的支持向量机分类器训练方法,其特征在于:包括如下步骤:步骤1用初始已标注样本集训练一个初始SVM分类器;步骤2用SVM分类器从未标注样本集U中寻找分类置信度高的样本,组成高置信度样本集S;步骤3对高置信度样本集S中的每个样本,判断其信息量大小,如果信息量小则将其从高置信度样本集S中移除,并重新放回未标注样本集U中;步骤4将高置信度样本集S中置信度高且信息量大的样本由机器自动标注后加入SVM分类器的已标注样本集L中;步骤5用更新的已标注样本集L重新训练SVM分类器;步骤6根据停止准则判断是退出循环还是继续迭代。

【技术特征摘要】
1.一种基于半监督学习的支持向量机分类器训练方法,其特征在于:包括如下步骤: 步骤I用初始已标注样本集训练一个初始SVM分类器; 步骤2用SVM分类器从未标注样本集U中寻找分类置信度高的样本,组成高置信度样本集S ; 步骤3对高置信度样本集S中的每个样本,判断其信息量大小,如果信息量小则将其从高置信度样本集S中移除,并重新放回未标注样本集U中; 步骤4将高置信度样本集S中置信度高且信息量大的样本由机器自动标注后加入SVM分类器的已标注样本集L中; 步骤5用更新的已标注样本集L重新训练SVM分类器; 步骤6根据停止准则判断是退出循环还是继续迭代。2.如权利要求1所述的一种基于半监督学习的支持向量机分类器训练方法,其特征在于:所述的步骤I中,初始已标注样本集的选择方法如下: 首先对所有未标注样本进行聚类,得到若干个簇,然后从每个簇中选择距离质心最近的样本进行人工标注,进而形成初始已标注样本集。3.如权利要求1所述的一种基于半监督学习的支持向量机分类器训练方法,其特征在于:所述的步骤2中,寻找置信度高的样本,进而组成高置信度样本集S的方法如下: 支持向量机分类器在每轮迭代训练过程中会不断更新,进而得到新的分类面,把当前这轮迭代后生成的新分类面称为当前分类面;设定一个阈值dth,规定那些距离当前分类面距离大于阈值dth的样本是高置 信度样本;由这些高置信度样本组成如下高置信度样本集S:4.如权利要求1所述的一种基于半监督学习的支持向量机分类器训练方法,...

【专利技术属性】
技术研发人员:冷严徐新艳
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1