一种基于主动学习的分类器构建方法技术

技术编号：10040232 阅读：133 留言：0更新日期：2014-05-14 10:50

本发明专利技术公开了一种基于主动学习的分类器构建方法，充分考虑未标注样本的当前价值和预期价值，挑选高价值的样本。首先利用样本的最优和次优类别信息计算样本的当前价值，根据样本的当前价值的高低选出一部分价值高的样本组成候选样本集，然后计算候选样本集中样本的预期价值，结合样本的当前价值，得到样本的总价值，最后根据样本的总价值，挑选高价值的未标注样本进行标注，添加到训练样本集中，更新分类器。根据不同数据集上的实验结果表明，本发明专利技术的方法能够在选择相同数量样本的条件下，得到较高分类正确率的分类器。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种采用计算机进行数据分类的方法，具体涉及基于主动学习方法从大量样本中选择生成训练样本集，并构建经过训练的数据分类器的方法。
技术介绍
数据的自动分类是计算机自动处理中的一项重要技术，广泛应用于数据挖掘、医学诊断、交通管理、人体特征识别等领域。计算机处理中的数据分类方法，通常包括构建分类器模型并采用训练样本集对分类器模型进行训练，获得经过训练的数据分类器。数据分类方法中训练分类器模型是关键的难点，主要是原因是由于分类器模型需要用户标注大量的数据训练样本，而标注大量的数据样本需要花费大量的人力和时间。且在实际的应用中，有大量的图像标注工作比较困难，需要专家进行标注。为了解决标注大量样本困难的问题，主动学习算法已经在机器学习和模式识别领域收到广大研究学者的广泛关注和深入研究。在主动学习算法中，不是被动地接受训练样本，而是利用一定的准则主动选择有价值的样本去训练学习器。因此，主动学习算法主要通过选择少量高价值的训练样本来提高学习器的分类性能，减少人工标注的工作量，提高效率。主动学习算法主要包括学习和采样两部...
一种<a href="http://www.xjishu.com/zhuanli/55/201410042498.html" title="一种基于主动学习的分类器构建方法原文来自X技术">基于主动学习的分类器构建方法</a>

【技术保护点】
一种基于主动学习的分类器构建方法，根据未标注样本和数据特征生成训练样本集并训练分类器，包括下列步骤：(1) 从未标注样本集中随机选择20~50个样本进行人工标注，构建初始训练样本集，然后根据初始训练样本集的数据特征构建初始分类器H(0)；(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值，BvSB值的计算方法是：，其中，x是未标注样本集U中的样本，是样本属于最优类别的后验概率，是样本属于次优类别的后验概率，t是步骤(2)至(6)的循环次数；(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集，其中，h为步骤(5)中选择的样本个数的2～5倍；(4)计算候选样本集...

【技术特征摘要】
1.一种基于主动学习的分类器构建方法，根据未标注样本和数据特征生成训练样本集并训练分类器，包括下列步骤：
(1) 从未标注样本集中随机选择20~50个样本进行人工标注，构建初始训练样本集，然后根据初始训练样本集的数据特征构建初始分类器H(0)；
(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值，BvSB值的计算方法是：
，
其中，x是未标注样本集U中的样本，是样本属于最优类别的后验概率，是样本属于次优类别的后验概率，t是步骤(2)至(6)的循环次数；
(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集，其中，h为步骤(5)中选择的样本个数的2～5倍；
(4)计算候选样本集中每个未标注样本的总价值，方法是：
[4-1] 取候选样本集中的一个未标注样本，用该样本分别结合其最优类别和次优类别标签更新分类器H(t)，得到临时分类器和，其中是最优类别标签，是次优类别标签；
[4-2] 利用得到的两个临时分类器计算该未标注样本的两个BvSB值，在这两个BvSB值中较大的BvS...

【专利技术属性】
技术研发人员：吴健，张宇，徐在俊，
申请(专利权)人：苏州融希信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人