【技术实现步骤摘要】
本专利技术涉及机器学习领域,特别是。
技术介绍
在机器学习领域,训练一个具有良好分类性能的分类器需要大量已经标注好的样本参与训练。然而标注样本并不是越多越好,过多的标注样本可能会产生冗余,增加计算的工作量;而且,大量的已标注样本中并不是每个样本都是对分类器的训练有用的。那些信息含量大的样本,由于其对提高分类器性能的贡献大,因而是有用的样本,是值得我们标注的样本。因此,在进行样本标注时,除了要保证一定的数量以外,还应该保证标注样本的质量,这样不但能提高分类器的分类性能,而且可以减少人工标注的工作量。挑选最有用的样本进行人工标注,这正是主动学习技术的核心所在。主动学习是当前机器学习领域的一个研究热点。所有的主动学习方法都需要对未标注样本的信息量大小进行评价,以挑选信息量大的样本交由专家标注。根据评价策略的不同,主动学习方法主要分为以下几类:( I)基于不确定性米样的主动学习;(2)基于委员会的主动学习;(3)基于预期误差缩减的主动学习;本专利技术是基于支持向量机的主动学习方法,属于基于不确定性采样的主动学习范畴。支持向量机(supportvector machine ...
【技术保护点】
一种基于支持向量机的主动学习方法,其特征在于,包括以下步骤:步骤1用初始已标注样本集L训练初始SVM分类器;步骤2用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本,组成候选样本集S;步骤3从候选样本集S中挑选信息含量最大的样本交给专家标注;步骤4将专家标注后的样本放入已标注样本集L中;步骤5用更新的已标注样本集L重新训练SVM分类器;步骤6根据停止准则判断是退出循环还是继续迭代。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。