【技术实现步骤摘要】
一种基于K近邻的支持向量机主动学习的方法
本专利技术涉及一种支持向量机主动学习的方法,尤其涉及一种基于K近邻的支持向量机主动学习的方法。
技术介绍
在模式识别与机器学习领域,训练一个分类性能良好的分类器需要大量的已标注样本。然而标注样本并不是越多越好。过多的样本对分类器性能的提高上帮助有限,但却会引起冗余,增加计算量。此外,在大量的训练样本中,并不是每个样本都是对训练有益的。只有那些信息含量大,对提高分类器性能贡献大的样本才是有用的样本,这样的样本才是值得我们标注的样本。因此,当标注训练样本时,除了数量之外,还应当保证标注样本的质量。这样不但能提高分类器的分类性能,而且能减少手工标注的工作量。主动学习(ActiveLearning,AL)技术正是针对这一问题提出的。主动学习技术的核心思想是:选择最有用的样本参与训练,尽可能地减少手工标注的工作量。目前已经有大量主动学习的相关研究,但是针对支持向量机(SupportVectorMachines,SVM)的主动学习研究还很少。SVM是一种非常有效的分类模型,现已广泛应用于众多分类领域。在许多分类问题中,由于手工标注非常 ...
【技术保护点】
一种基于K近邻的支持向量机主动学习的方法,其特征是,具体步骤为:步骤一:用初始已标注样本集L训练一个初始SVM分类器;步骤二:用SVM分类器对未标注样本集U中的样本进行分类,取分类间隔内的未标注样本组成潜在的高信息含量样本集Sp;步骤三:对高信息含量样本集Sp内的每个样本,确定每个样本与其K近邻样本所组成的样本集中任意两个样本之间距离的平均值,取平均值最大的样本作为信息含量最大的样本;步骤四:将此高信息含量的样本从未标注样本集U中移除,并交由专家手工标注后放入已标注样本集L中;步骤五:用更新的已标注样本集L重新训练SVM分类器;步骤六:判断是否满足停止准则,满足则停止迭代, ...
【技术特征摘要】
1.一种基于K近邻的支持向量机主动学习的方法,其特征是,具体步骤为:步骤一:用初始已标注样本集L训练一个初始SVM分类器;步骤二:用SVM分类器对未标注样本集U中的样本进行分类,取分类间隔内的未标注样本组成潜在的高信息含量样本集Sp;步骤三:对高信息含量样本集Sp内的每个样本,确定每个样本与其K近邻样本所组成的样本集中任意两个样本之间距离的平均值,取平均值最大的样本作为信息含量最大的样本;步骤四:将此高信息含量的样本从未标注样本集U中移除,并交由专家手工标注后放入已标注样本集L中;步骤五:用更新的已标注样本集L重新训练SVM分类器;步骤六:判断是否满足停止准则,满足则停止迭代,输出训练好的SVM分类器,不满足则重复步骤二至步骤五;所述步骤三的具体步骤为:(3-1)对高信息含量样本集Sp内每个样本xi(i=1,2,…,|Sp|),首先寻找与其距离最近的K个近邻样本,|Sp|表示高信息含量样本集Sp中的样本数量;(3-2)假设样本xi和其K近邻组成样本集Xi,然后计算Xi中任意两个样本xj、xl之间距离的平均值,将此平均距离表达为关于xi的函数:其中,D(xj,xl)表示样本xj、xl之间的欧式距离;(3-3)将具有最大平均距离值的样本选作信息含量最大的样本,记此样本为xinf,则:所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。