结合主动学习的四分类器协同训练方法技术

技术编号：7070947 阅读：401 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种结合主动学习的四分类器协同训练方法，涉及结合主动学习的协同训练，属于机器学习技术领域。本发明专利技术在实现过程中使用了四个分类器，及主动学习，对协同训练方法作了进一步的改进。本发明专利技术由于采用四个分类器进行协同训练，将三个分类器的判决都一致的样本直接添加到训练集中，可以保证在提高未标记样本置信度的同时，避免引入过多噪声；本发明专利技术由于针对难分样本进行主动学习，提高了学习的效果，同时对这类样本的妥善处理有助于修正各分类器的识别函数；本发明专利技术由于将三个分类器的判决都不一致的样本作为难分样本，使得进行主动学习的条件要求较高，且实现简单。本发明专利技术适用于诸如网页分类、图象处理、人脸识别、入侵监测等应用领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器学习
，涉及结合主动学习的协同训练，具体是一种，可用于提高半监督学习中未标记样本的利用率，进一步提高半监督学习的学习性能。所提出的方法适用于诸如网页分类、图象处理、人脸识别、入侵监测等应用领域。
技术介绍
标准协同训练方法是Blum和Mitchell在1998年提出的。他们提出了标准协同训练方法基于如下三个基本假设(1)属性集可以被划分为两个集合；(2)每一个属性集的子集合都足以训练一个分类器；C3)在给定类标记的情况下，这两个属性集是相互独立的。其中每个属性集构成一个视图，满足上述假设的视图称为充分冗余的视图。然后分别对已标记的样本在这两个属性集上训练分类器，这样得到两个分类器，将这两个分类器应用到未标记样本上，然后选择每个分类器对分类结果置信度高的未标记样本以及该样本的预测标记加入到另一个分类器已标记样本集中进行下一轮的训练，如此迭代。标准协同训练方法的前提条件比较苛刻，在真实的问题中，满足充分冗余的要求往往很难达到。就Blum和Mitchell所述的网页分类而言，因为网页本身的信息这一视图与超链接上的信息这一视图很难满足条件独立性，而且大多数问题不具有足够大的属性集，因此很难满足该方法有效的前提条件。很多研究人员就尝试放松这三个假设。也有学者提出了使用不同的分类器在整个属性集上训练的方法，训练时，首先利用已标记样本对两个不同的分类器在整个属性集上进行训练，再用这两个分类器互相将自己在未标记样本上置信度较高的标记加入到对方的训练集中去再训练。此后又将集成学习的思想加入到以前的方法中去提高算法性能，基于整个属性集训练一组分...

【技术保护点】
１．结合主动学习的四分类器协同训练方法，其特征在于：采用四个分类器进行协同训练并结合主动学习技术提高半监督学习性能，操作步骤包括：（１）选取对数据集敏感的学习算法Ｌ；（２）针对给定的未标记数据集Ｄｕ、已标记数据集（初始训练集）Ｄ１、测试集Ｔ及学习算法Ｌ，对Ｄ１运用Ｂｏｏｔｓｔｒａｐ技术抽取四次，得到样本数等于｜Ｄ１｜的四个训练集Ｓ１，Ｓ２，Ｓ３，Ｓ４，用算法Ｌ对四个训练集分别训练出分类器Ｃ１，Ｃ２，Ｃ３，Ｃ４；（３）对于任一个由算法Ｌ训练出的分类器Ｃｉ（ｉ＝１，２，３，４），维护其独自的训练集Ｓｉ（ｉ＝１，２，３，４），将满足｛ｘ｜ｘ∈Ｄｕ，且Ｃｊ（ｘ）＝Ｃｋ（ｘ）＝Ｃｍ（ｘ），ｊ，ｋ，ｍ≠ｉ｝的无标记样本ｘ加入到Ｓｉ中，将满足｛ｘ｜ｘ∈Ｄｕ，且Ｃｊ（ｘ）≠Ｃｋ（ｘ）≠Ｃｍ（ｘ），ｊ，ｋ，ｍ≠ｉ｝的无标记样本ｘ，由主动学习对无标记样本ｘ进行标记后也加入到Ｓｉ中，遍历完Ｄｕ后，得到更新后的Ｓｉ’；（４）对于每个分类器Ｃｉ（ｉ＝１，２，３，４），若｜Ｓｉ′｜＞｜Ｓｉ｜，则对Ｃｉ利用训练集Ｓｉ’重新训练，得到分类器Ｃｉ’；（５）对于每个分类器Ｃｉ，若Ｃｉ’≠Ｃｉ，则转步骤（３），直到四个分类...

【技术特征摘要】

【专利技术属性】
技术研发人员：杨利英，王轶初，韩玉想，盛立杰，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：87

全部详细技术资料下载我是这个专利的主人