结合主动学习的四分类器协同训练方法技术

技术编号:7070947 阅读:401 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种结合主动学习的四分类器协同训练方法,涉及结合主动学习的协同训练,属于机器学习技术领域。本发明专利技术在实现过程中使用了四个分类器,及主动学习,对协同训练方法作了进一步的改进。本发明专利技术由于采用四个分类器进行协同训练,将三个分类器的判决都一致的样本直接添加到训练集中,可以保证在提高未标记样本置信度的同时,避免引入过多噪声;本发明专利技术由于针对难分样本进行主动学习,提高了学习的效果,同时对这类样本的妥善处理有助于修正各分类器的识别函数;本发明专利技术由于将三个分类器的判决都不一致的样本作为难分样本,使得进行主动学习的条件要求较高,且实现简单。本发明专利技术适用于诸如网页分类、图象处理、人脸识别、入侵监测等应用领域。

【技术实现步骤摘要】

本专利技术属于机器学习
,涉及结合主动学习的协同训练,具体是一种,可用于提高半监督学习中未标记样本的利用率,进一步提高半监督学习的学习性能。所提出的方法适用于诸如网页分类、图象处理、人脸识别、 入侵监测等应用领域。
技术介绍
标准协同训练方法是Blum和Mitchell在1998年提出的。他们提出了标准协同训练方法基于如下三个基本假设(1)属性集可以被划分为两个集合;(2)每一个属性集的子集合都足以训练一个分类器;C3)在给定类标记的情况下,这两个属性集是相互独立的。 其中每个属性集构成一个视图,满足上述假设的视图称为充分冗余的视图。然后分别对已标记的样本在这两个属性集上训练分类器,这样得到两个分类器,将这两个分类器应用到未标记样本上,然后选择每个分类器对分类结果置信度高的未标记样本以及该样本的预测标记加入到另一个分类器已标记样本集中进行下一轮的训练,如此迭代。标准协同训练方法的前提条件比较苛刻,在真实的问题中,满足充分冗余的要求往往很难达到。就Blum和Mitchell所述的网页分类而言,因为网页本身的信息这一视图与超链接上的信息这一视图很难满足条件独立性,而且大多数问题不具有足够大的属性集, 因此很难满足该方法有效的前提条件。很多研究人员就尝试放松这三个假设。也有学者提出了使用不同的分类器在整个属性集上训练的方法,训练时,首先利用已标记样本对两个不同的分类器在整个属性集上进行训练,再用这两个分类器互相将自己在未标记样本上置信度较高的标记加入到对方的训练集中去再训练。此后又将集成学习的思想加入到以前的方法中去提高算法性能,基于整个属性集训练一组分类器,利用投票机制对未标记样本进行标记,加入到已标记样本集中再训练,最后的分类结果由一种改进的加权投票机制决定。 但是由于上述的方法挑选未标记示例进行标记的过程中以及选择分类器对未见示例进行预测的过程中频繁地使用10倍交叉验证,使得其计算开销很大,因此Z. H. Zhou和M. Li在 2005年提出了 tri-training的方法,使用三个分类器,如果两个分类器分类结果一致,那么就将该未标记样本加入到已标记样本中去,这样的做法避免了频繁地计算10倍交叉验证,节省了计算开销,同时他们的方法不需要基于冗余的视图。并且他们基于噪音学习理论分析出以较高概率确保这一做法有效的条件,在引入大量未标记样本的情况下,噪声所带来的负面影响可以被抵消。Tri-Training方法的步骤如下输入未标记数据集Du,已标记数据集(初始训练集)D1;测试集T,某种学习算法 L0输出分类的错误率。Stepl 随即抽样D1,抽取三次,得到样本数等于|D」的三个训练集Si, Si, S3,用L 训练出分类器CnCyC315St印2 对于任一个由算法L训练出的分类器(;(1 = 1,2,3),维护其独自的训练集 Si (i = 1,2,3),将满足{χ ι X e Du,且 Cj (χ) = Ck (χ), j, k ^ i}的无标记样本 χ 加入到 Si 中。遍历完Du后,得到更新后的S/。乂印3:对于每个(;“ =1,2,3),若ISi' I > I S」,则对Ci利用训练集S/重新训练,得到分类器C/。乂印4:对于每个Ci,若Ci'兴Ci,则转乂印2,直到3个分类器都不再更新为止。St印5 最终的判决结果由这3个分类器的判决结果组合而成。通过上面的步骤可以看出来,标准的Tri-Training方法,使用的是3个同构的分类器,通过在D1I随机抽取样本大小为ID1I的数据来训练出不同的分类器,训练出三个分类器C1,c2,C3都维护着各自的训练集。遍历未标记数据集Du,对于每一个样本,由其中两个分类器协同对其类别进行判断,如果分类一致就加入到第三个分类器的训练集中,遍历完后在更新后的训练集上使用学习算法重新训练分类器,重复此过程直到分类器都不再更新为止。在协同训练方法中,扩充训练集的前提是对未标记样本进行标记,该标记的置信度非常重要,如果置信度很低,那会引入很多“噪声”,训练出的分类器性能会降低,用两个分类器对一个未标记样本做判断,判断一致的概率很高,考虑一种极端情况,待标记样本只有两种可能的类别,即使分类器是对样本随机分类的,依然有50%的概率分类一致,因此引入更多的分类器对未标记样本的类别做出判定可以提高被标记样本的置信度,若多个分类器对一个样本的标记一致,则该标记的置信度会更高。另一方面,对于两个分类器判定不一致的未标记样本,传统协同训练方法的做法是舍弃该样本,这样会对未标记样本造成一定程度的浪费,尤其是当两个分类器误识率比较高,数据集的类别比较多时,对于未标记样本类别的判定不一致的可能性会增大。
技术实现思路
本专利技术的目的在于克服现有协同训练方法的不足,提出一种,避免了在学习过程中引入过多噪声,提高了对标记样本的利用率,实现简单,能够得到更高的识别率。本专利技术是一种,即CTAKollaborative Training with Active Learning)。为了实现专利技术目的,本专利技术的技术方案是采用四个分类器进行协同训练并结合主动学习技术提高半监督学习性能,操作步骤包括(1)选取对数据集敏感的学习算法L ;(2)针对给定的未标记数据集Du、已标记数据集(初始训练集、测试集T及学习算法LJiD1运用Bootstrap技术抽取四次,得到样本数等于!D1I的四个训练集S1, S2,S3, S4,用L训练出分类器C1, C2, C3, C4 ;(3)对于任一个由算法L训练出的分类器Ci (i = 1,2,3,4),维护其独自的训练集 Si (i = 1,2,3,4),将满足{x IX e Du,且 Cj (X) = Ck(x) = Cm(x),j,k,m 兴 i}的无标记样本 χ加入到Si中,将满足{χ I χ e Du,且Cj (χ) Φ Ck (χ)兴Cm(χ),j,k,m乒i}的无标记样本χ, 由主动学习对其类别进行标记后也加入到Si中,遍历完Du后,得到更新后的S/ ;(4)对于每个CiQ = 1,2,3,4),若| > | Si |,则对Ci利用训练集S/重新训练,得到分类器C/ ;(5)对于每个Ci,若C/ Φ Ci,则转(3),直到四个分类器都不再更新为止;(6)最终的判决结果由四个分类器的判决结果组合而成,输出分类的错误率。现有的使用三个分器的Tri-Training技术中,在更新每一个分类器的训练集时, 对于每一个未标记样本,另外两个分类器判决结果一致的可能性很大,使未标记样本的置信度不够高,会引入许多噪音;在本专利技术中,使用了四个分类器,提高了未标记样本的置信度,从而避免了引入噪音。在传统的协同训练方法中,对于两个分类器分类不一致的标记样本,在操作中会舍弃这个样本,在一定程度上造成了对未标记样本的浪费;本专利技术中采取了对训练集敏感的学习算法,在分类器对未标记样本分类都不一致时,利用主动学习对这样的未标记样本进行标记并加以利用,从而更有效的利用了未标记样本并且有助于修正各分类器的分类函数。本专利技术的实现还在于步骤C3)所述的主动学习对无标记样本χ进行标记时,是在实验验证中通过查看原始数据集获取真实类别实现的;这样做可以更有效的利用未标记样本,通过这样本文档来自技高网
...

【技术保护点】
1.结合主动学习的四分类器协同训练方法,其特征在于:采用四个分类器进行协同训练并结合主动学习技术提高半监督学习性能,操作步骤包括:(1)选取对数据集敏感的学习算法L;(2)针对给定的未标记数据集Du、已标记数据集(初始训练集)D1、测试集T及学习算法L,对D1运用Bootstrap技术抽取四次,得到样本数等于|D1|的四个训练集S1,S2,S3,S4,用算法L对四个训练集分别训练出分类器C1,C2,C3,C4;(3)对于任一个由算法L训练出的分类器Ci(i=1,2,3,4),维护其独自的训练集Si(i=1,2,3,4),将满足{x|x∈Du,且Cj(x)=Ck(x)=Cm(x),j,k,m≠i}的无标记样本x加入到Si中,将满足{x|x∈Du,且Cj(x)≠Ck(x)≠Cm(x),j,k,m≠i}的无标记样本x,由主动学习对无标记样本x进行标记后也加入到Si中,遍历完Du后,得到更新后的Si’;(4)对于每个分类器Ci(i=1,2,3,4),若|Si′|>|Si|,则对Ci利用训练集Si’重新训练,得到分类器Ci’;(5)对于每个分类器Ci,若Ci’≠Ci,则转步骤(3),直到四个分类器都不再更新为止;(6)最终的判决结果由四个分类器的判决结果组合而成,输出分类的错误率。...

【技术特征摘要】

【专利技术属性】
技术研发人员:杨利英王轶初韩玉想盛立杰
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:87

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1