一种基于支持向量机的主动学习方法技术

技术编号：8907099 阅读：181 留言：0更新日期：2013-07-11 04:46

本发明专利技术具体公开了一种基于支持向量机的主动学习方法。该方法在主动学习的每轮迭代过程中，从距离支持向量机分类器的分类面较近的样本中进一步挖掘样本的信息量，进而挑选信息含量更大的样本进行人工标注，以达到提高分类器的分类性能，减少人工标注工作量的目的。考虑到支持向量机边界（margin）内的样本距离分类面较近，本发明专利技术实施例将支持向量机边界内的样本作为信息含量较大的候选样本。在这些候选样本中，本发明专利技术实施例进一步选择那些处在两类边界概率较大的样本作为信息含量更大的样本交由专家进行人工标注。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习领域，特别是。
技术介绍
在机器学习领域，训练一个具有良好分类性能的分类器需要大量已经标注好的样本参与训练。然而标注样本并不是越多越好，过多的标注样本可能会产生冗余，增加计算的工作量；而且，大量的已标注样本中并不是每个样本都是对分类器的训练有用的。那些信息含量大的样本，由于其对提高分类器性能的贡献大，因而是有用的样本，是值得我们标注的样本。因此，在进行样本标注时，除了要保证一定的数量以外，还应该保证标注样本的质量，这样不但能提高分类器的分类性能，而且可以减少人工标注的工作量。挑选最有用的样本进行人工标注，这正是主动学习技术的核心所在。主动学习是当前机器学习领域的一个研究热点。所有的主动学习方法都需要对未标注样本的信息量大小进行评价，以挑选信息量大的样本交由专家标注。根据评价策略的不同，主动学习方法主要分为以下几类:( I)基于不确定性米样的主动学习；(2)基于委员会的主动学习；(3)基于预期误差缩减的主动学习；本专利技术是基于支持向量机的主动学习方法，属于基于不确定性采样的主动学习范畴。支持向量机(supportvector machine...

【技术保护点】
一种基于支持向量机的主动学习方法，其特征在于，包括以下步骤：步骤1用初始已标注样本集L训练初始SVM分类器；步骤2用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本，组成候选样本集S；步骤3从候选样本集S中挑选信息含量最大的样本交给专家标注；步骤4将专家标注后的样本放入已标注样本集L中；步骤5用更新的已标注样本集L重新训练SVM分类器；步骤6根据停止准则判断是退出循环还是继续迭代。

【技术特征摘要】

【专利技术属性】
技术研发人员：冷严，徐新艳，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人