一种基于主动学习的分类器构建方法技术

技术编号:10040232 阅读:125 留言:0更新日期:2014-05-14 10:50
本发明专利技术公开了一种基于主动学习的分类器构建方法,充分考虑未标注样本的当前价值和预期价值,挑选高价值的样本。首先利用样本的最优和次优类别信息计算样本的当前价值,根据样本的当前价值的高低选出一部分价值高的样本组成候选样本集,然后计算候选样本集中样本的预期价值,结合样本的当前价值,得到样本的总价值,最后根据样本的总价值,挑选高价值的未标注样本进行标注,添加到训练样本集中,更新分类器。根据不同数据集上的实验结果表明,本发明专利技术的方法能够在选择相同数量样本的条件下,得到较高分类正确率的分类器。

【技术实现步骤摘要】

本专利技术涉及一种采用计算机进行数据分类的方法,具体涉及基于主动学习方法从大量样本中选择生成训练样本集,并构建经过训练的数据分类器的方法。
技术介绍
数据的自动分类是计算机自动处理中的一项重要技术,广泛应用于数据挖掘、医学诊断、交通管理、人体特征识别等领域。计算机处理中的数据分类方法,通常包括构建分类器模型并采用训练样本集对分类器模型进行训练,获得经过训练的数据分类器。数据分类方法中训练分类器模型是关键的难点,主要是原因是由于分类器模型需要用户标注大量的数据训练样本,而标注大量的数据样本需要花费大量的人力和时间。且在实际的应用中,有大量的图像标注工作比较困难,需要专家进行标注。为了解决标注大量样本困难的问题,主动学习算法已经在机器学习和模式识别领域收到广大研究学者的广泛关注和深入研究。在主动学习算法中,不是被动地接受训练样本,而是利用一定的准则主动选择有价值的样本去训练学习器。因此,主动学习算法主要通过选择少量高价值的训练样本来提高学习器的分类性能,减少人工标注的工作量,提高效率。主动学习算法主要包括学习和采样两部分。学习即是利用得到的训练样本学习得到相应的学习器。采样策略就是从大量的未标注样本中挑选出少量的有价值的样本,降低分类算法的标记代价,利用少量的训练样本得到高性能的学习器。所以,采样策略是主动学习算法的关键部分。现有技术中,提出了基于样本最优次优类别(Best vs Second Best,BvSB)的主动学习算法,该算法仅考虑对样本的不确定性影响较大的部分类别,较好地改进了信息熵的不足。但是,BvSB算法仅考虑对于当前分类器不确定的样本,实际使用中,当样本添加到训练样本集后,添加的样本的不确定性对于更新之后的分类器会产生影响,导致训练结果不能达到预期目标。因此,采用BvSB算法构建的分类器存在一定的缺陷。
技术实现思路
本专利技术的专利技术目的是提供一种基于主动学习生成训练样本集并构建数据分类器的方法,以解决现有技术中训练样本集生成中存在的缺陷,获得高价值的样本,提高数据分类器的分类性能。为达到上述专利技术目的,本专利技术采用的技术方案是:一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤:(1) 从未标注样本集中随机选择20~50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H(0);(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值,BvSB值的计算方法是:,其中,x是未标注样本集U中的样本, 是样本属于最优类别的后验概率,是样本属于次优类别的后验概率,t是步骤(2)至(6)的循环次数;(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集,其中,h为步骤(5)中选择的样本个数的2~5倍;(4)计算候选样本集中每个未标注样本的总价值,方法是:[4-1] 取候选样本集中的一个未标注样本,用该样本分别结合其最优类别和次优类别标签更新分类器H(t),得到临时分类器和,其中是最优类别标签,是次优类别标签;[4-2] 利用得到的两个临时分类器计算该未标注样本的两个BvSB值,在这两个BvSB值中较大的BvSB值作为该未标注样本的期望价值,表达为;[4-3] 基于分类器H(t)得到该未标注样本的BvSB值,表达为,利用以下公式计算该未标注样本的总价值;;重复步骤[4-1]至[4-3],获得候选样本集中所有未标注样本的总价值;(5)在候选样本集中选择2~10个Opt值最小的未标注样本进行人工标注,添加到训练样本集中,获得当前训练样本集;(6) 利用当前训练样本集对分类器H(t)进行训练更新;(7) 重复步骤(2)至(6),直至满足分类器训练的停止条件。上述技术方案中,总样本数(即初始的未标注样本数)根据待分类的数据而定,通常为数千至数十万。初始分类器的构建为现有技术,可以采用现有的任一种分类器构建方法构建,例如,贝叶斯分类器、BP神经网络分类器、支持向量机,等等。优选的技术方案,步骤(3)中,h为步骤(5)中选择的样本个数的2~3倍。候选样本集过大,会导致速度变慢,因此,上述选择能有效加快训练速度。优选的技术方案,步骤(5)中,在候选样本集中选择2~5个Opt值最小的未标注样本进行人工标注。从而在保证分类器训练速度的同时,有效减少样本冗余。上述技术方案中,步骤(7)中,分类器训练的停止条件是,分类正确率≥95%,或者训练样本集中的样本数≥总样本数×70%。由于上述技术方案运用,本专利技术与现有技术相比具有下列优点:1.本专利技术在计算未标注样本的价值时,综合考虑样本的当前价值和预期价值,充分考虑了未标注样本对新分类器的价值。2.与基于熵的主动算法相比,本专利技术利用样本的最优和次优类别信息计算样本的价值,减少样本的其他类别信息对样本价值的影响。3.与BvSB主动算法相比,本专利技术考虑样本的预期价值,结合当前价值和预期价值,得到未标注样本的总价值,能够优化样本价值的计算方法。4.与BvSB+EER主动算法相比,本专利技术有较低的时间复杂度。5.实验结果表明,本专利技术的方法能够在选择较少样本的情况下获得较高分类性能的分类器。附图说明图1是本专利技术实施例中基于最大分类优化主动学习算法框架图。图2是实施例中各种方法在人工数据集上实验结果比较图;图3是实施例中各种方法在UCI标准数据集上Letter数据集的实验结果比较图; 图4是实施例中各种方法在UCI标准数据集上Pen-Digits数据集的实验结果比较图;图5是实施例中各种方法在高维数据集上的实验结果比较图。具体实施方式下面结合附图及实施例对本专利技术作进一步描述:实施例一:参见图1所示,一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤:(1) 从未标注样本集中随机选择20~50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H(0);(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值,BvSB值的计算方法是:,其中,x是未标注样本集U中的样本, 是样本属于最优类别的后验概率,是样本属于次优类别的后验概率,t是步骤(2)至(6)的循环次数;(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集,其中,h为步骤(5)中选择的样本个数的2~5倍;(4)计算候选样本集中每个未标注样本的总价值,方法是:[4-1] 取候选样本集中的一个未标注样本,用该样本分别结合其最优类别和次优类别标签更新分类器H(t),得到临时分类器和,其中是最优类别标签,是次优类别标签;[4-2] 利用得到的两个临时分类器计算该未标注样本的两个BvSB值,在这两个BvSB值中较大的BvSB值本文档来自技高网
...
一种基于主动学习的分类器构建方法

【技术保护点】
一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤:(1) 从未标注样本集中随机选择20~50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H(0);(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值,BvSB值的计算方法是:,其中,x是未标注样本集U中的样本,是样本属于最优类别的后验概率,是样本属于次优类别的后验概率,t是步骤(2)至(6)的循环次数;(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集,其中,h为步骤(5)中选择的样本个数的2~5倍;(4)计算候选样本集中每个未标注样本的总价值,方法是:[4‑1] 取候选样本集中的一个未标注样本,用该样本分别结合其最优类别和次优类别标签更新分类器H(t),得到临时分类器和,其中是最优类别标签,是次优类别标签;[4‑2] 利用得到的两个临时分类器计算该未标注样本的两个BvSB值,在这两个BvSB值中较大的BvSB值作为该未标注样本的期望价值,表达为;[4‑3] 基于分类器H(t)得到该未标注样本的BvSB值,表达为,利用以下公式计算该未标注样本的总价值;;重复步骤[4‑1]至[4‑3],获得候选样本集中所有未标注样本的总价值;(5)在候选样本集中选择2~10个Opt值最小的未标注样本进行人工标注,添加到训练样本集中,获得当前训练样本集;(6) 利用当前训练样本集对分类器H(t)进行训练更新;(7) 重复步骤(2)至(6),直至满足分类器训练的停止条件。...

【技术特征摘要】
1.一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤:
(1) 从未标注样本集中随机选择20~50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H(0);
(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值,BvSB值的计算方法是:

其中,x是未标注样本集U中的样本, 是样本属于最优类别的后验概率,是样本属于次优类别的后验概率,t是步骤(2)至(6)的循环次数;
(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集,其中,h为步骤(5)中选择的样本个数的2~5倍;
(4)计算候选样本集中每个未标注样本的总价值,方法是:
[4-1] 取候选样本集中的一个未标注样本,用该样本分别结合其最优类别和次优类别标签更新分类器H(t),得到临时分类器和,其中是最优类别标签,是次优类别标签;
[4-2] 利用得到的两个临时分类器计算该未标注样本的两个BvSB值,在这两个BvSB值中较大的BvS...

【专利技术属性】
技术研发人员:吴健张宇徐在俊
申请(专利权)人:苏州融希信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1