一种基于生成对抗模型的主动学习方法技术

技术编号:25346959 阅读:47 留言:0更新日期:2020-08-21 17:06
本发明专利技术公开了一种基于生成对抗模型的主动学习方法,所述方法包括:首先,利用已标注数据集和未标注数据集训练生成对抗模型,并使用训练后的生成对抗模型将已标注数据集和未标注数据集中的每个样本转换成某个隐藏特征空间中的向量;然后,利用已标注数据集的转换向量对基准分类器进行训练;再使用训练后的基准分类器对测试集中样本进行测试,并检查预设终止条件是否达到;如果预设终止条件达到,从未标注数据集中选择真实基准分类器决策边界周围的样本;之后,让标注者标注选出样本的类别,加入已标记数据集;循环重复上述步骤,直到满足预设终止条件。本发明专利技术可以减少人工标注样本的代价,以尽量小的标注代价训练得到高性能模型。

【技术实现步骤摘要】
一种基于生成对抗模型的主动学习方法
本专利技术涉及计算机
,尤其涉及一种基于生成对抗模型的主动学习方法。
技术介绍
目前,深度学习在诸多领域中取得显著成功,例如计算机视觉、语音识别、自然语言处理等等。尽管神经网络在如此多任务中普遍成功,但它有一个明显的缺点,神经网络需要大量的标注数据,这样才能学习大量参数以确保模型的性能。并且拥有更多的数据几乎总是更好的,神经网络的性能通常不会随着数据集的增加而饱和,反而会提升它的泛化性能。从算法的角度来看,人们期望拥有更多的标注数据。但实际上,标注数据集需要消耗大量的时间和精力,特别是医学图像等专业领域,标注更加繁琐耗时,而且需要标注者具有良好的专业知识技能,标注代价昂贵。通常,模型的训练集中很可能包含大量的冗余样本。理论上,从训练集中选出具有高价值的部分样本集,利用这部分样本集训练出的模型,能够达到使用所有样本训练的模型同样的性能。主动学习的目标立足于此,如何利用众多未标注样例,从中挑选出对模型训练贡献度高的样例,标注后补充到训练集中来提升模型性能。即,尽可能地减小训练集及标注成本,而达到同样高的模型性能。随着生成对抗模型的发展,使得信息可以在可视的图像样本空间和看不见的隐空间中相互转换,能够将人类看不见的隐信息以图像的形式展现出来。将生成对抗模型引入主动学习方法中,可以让人类标注者观察到更多信息,将其标注出来后用于模型训练,将会给模型提供更完备的知识,能够提升模型的性能。现有的一些技术,如Uncertainty-dense(SettlesB,CravenM.AnAnalysisofActiveLearningStrategiesforSequenceLabelingTasks[C].empiricalmethodsinnaturallanguageprocessing,2008:1070-1079.)和Clustering(ShenX,ZhaiC.Activefeedbackinadhocinformationretrieval[C].internationalacmsigirconferenceonresearchanddevelopmentininformationretrieval,2005:59-66.),没有让人类专家提供更多的信息供给模型学习,使得模型性能收敛较慢。而ADBA(HuijserMW,VanGemertJC.ActiveDecisionBoundaryAnnotationwithDeepGenerativeModels[C].internationalconferenceoncomputervision,2017:5296-5305.)能够让人类标注者直接标注模型的决策边界,利用决策边界标记提升模型的性能收敛速度,但是它严重依赖于其他主动学习方法的性能,在其它主动学习方法性能不够好的情况下,不能达到理想的效果。
技术实现思路
有鉴于此,本专利技术提供了一种基于生成对抗模型的主动学习方法,能够利用生成对抗模型选出真实模型决策边界周围的样本,选出的样本对模型性能提升具有较高的贡献度,同时解决了选择到冗余样本、选择到孤立样本点等问题。本专利技术的目的至少通过如下技术方案之一实现。一种基于生成对抗模型的主动学习方法,包括以下步骤:步骤1、构建生成对抗模型,利用已标注数据集和未标注数据集训练生成对抗模型,并使用训练后的生成对抗模型分别将已标注数据集和未标注数据集中的每个样本转换成某个隐藏特征空间中的向量得到已标注数据集的转换向量和未标注数据集的转换向量;步骤2、利用步骤1中得到的已标注数据集的转换向量对基准分类器进行训练,得到训练后的基准分类器;步骤3、使用当前的训练后的基准分类器对测试集中的样本进行测试,并检查预设终止条件是否达到,若预设终止条件未达到,则从未标注数据集中选择真实基准分类器决策边界周围的样本;否则跳至步骤6;步骤4、让标注者标注步骤3中选出的样本的类别,加入已标记数据集,完成已标记数据集的更新;步骤5、利用更新后的已标注数据集的转换向量对步骤3中的基准分类器进行训练,得到训练后的基准分类器,完成基准分类器的更新,跳至步骤3;步骤6、预设终止条件达成,最终基准分类器训练完成,完成基于生成对抗模型的主动学习。进一步地,步骤1中,从未标注数据集中选择高价值样本时,目标是选出真实模型的决策边界周围的样本,其中需要标注者标记决策边界,此时需要将隐藏特征空间中的向量转换成图像,给标注者直观的视觉展现,因此需要在两种表达空间中进行转换,一个是观察数据所在的数据空间,一个是隐变量所在的隐空间,后者是前者的一种抽象;生成网络用于建立从隐空间到数据空间的映射,视为一个译码器D(z)=x;推断网络用于建立从数据空间到隐空间的映射,视为一个编码器E(x)=z;其中x为原图像样本,z为原图像经推断网络得到的隐变量,D(·)为代表译码器的生成网络,E(·)为代表编码器的推断网络;标准的GAN拥有生成器和判别器,生成器完成z→D(z)的映射,z从先验分布中进行采样,经过神经网络,得到合成样本;判别器区分来自生成网络的模拟样本和来自实际数据集的真实样本;但是由于标准的GAN没有推断网络,需要将推断网络加入GANs框架下;所述生成对抗模型为将推断网络和生成网络联合加入GANs框架下的ALI(AdversariallyLearnedInference)模型,该模型将推断网络和生成网络一起放入GANs框架下,进而联合训练生成网络和推断网络,而且拥有不错的效果。进一步地,步骤2中,所述基准分类器为任何可以进行二分类任务的模型。进一步地,步骤3中,所述预设终止条件包括选择标注的样本数量达到预设数目或基准分类器达到预设的性能指标数值。进一步地,步骤3中,所述从未标注数据集中选出真实基准分类器决策边界周围的样本具体包括如下步骤:步骤3.1、计算可容纳未标记数据集和已标记数据集中所有样本的最小超球面;步骤3.2、通过K-means算法对未标注数据集的转换向量进行聚类得到聚类中心;步骤3.3、使用步骤3.2中得到的聚类中心对当前基准分类器的决策边界作垂线;步骤3.4、计算步骤3.3中所作垂线与步骤3.1中得到的最小超球面的两个交点,得到两个交点之间的线段;步骤3.5、从步骤3.4中得到的线段上均匀采样预定数量个采样点;步骤3.6、使用生成对抗模型将采样点按顺序生成图像序列,让标注者标记所述图像序列类别发生变化的采样点;步骤3.7、通过最近邻算法得到离标记的采样点最近的真实样本,该样本为最终选择的样本。进一步地,所述计算可容纳未标记数据集和已标记数据集中所有样本的最小超球面的方法,具体如下:最小超球面的球心:最小超球面的半径:其中,zi为未标记数据集和已标记数据集中的第i个样本对应的隐变量,N为所有样本的数量。进一步地,所述最近邻算法中,采用的距离度量包括欧式距离,计算公式如下:本文档来自技高网
...

【技术保护点】
1.一种基于生成对抗模型的主动学习方法,其特征在于,包括以下步骤:/n步骤1、构建生成对抗模型,利用已标注数据集和未标注数据集训练生成对抗模型,并使用训练后的生成对抗模型分别将已标注数据集和未标注数据集中的每个样本转换成某个隐藏特征空间中的向量得到已标注数据集的转换向量和未标注数据集的转换向量;/n步骤2、利用步骤1中得到的已标注数据集的转换向量对基准分类器进行训练,得到训练后的基准分类器;/n步骤3、使用当前的训练后的基准分类器对测试集中的样本进行测试,并检查预设终止条件是否达到,若预设终止条件未达到,则从未标注数据集中选择真实基准分类器决策边界周围的样本;否则跳至步骤6;/n步骤4、让标注者标注步骤3中选出的样本的类别,加入已标记数据集,完成已标记数据集的更新;/n步骤5、利用更新后的已标注数据集的转换向量对步骤3中的基准分类器进行训练,得到训练后的基准分类器,完成基准分类器的更新,跳至步骤3;/n步骤6、预设终止条件达成,最终基准分类器训练完成,完成基于生成对抗模型的主动学习。/n

【技术特征摘要】
1.一种基于生成对抗模型的主动学习方法,其特征在于,包括以下步骤:
步骤1、构建生成对抗模型,利用已标注数据集和未标注数据集训练生成对抗模型,并使用训练后的生成对抗模型分别将已标注数据集和未标注数据集中的每个样本转换成某个隐藏特征空间中的向量得到已标注数据集的转换向量和未标注数据集的转换向量;
步骤2、利用步骤1中得到的已标注数据集的转换向量对基准分类器进行训练,得到训练后的基准分类器;
步骤3、使用当前的训练后的基准分类器对测试集中的样本进行测试,并检查预设终止条件是否达到,若预设终止条件未达到,则从未标注数据集中选择真实基准分类器决策边界周围的样本;否则跳至步骤6;
步骤4、让标注者标注步骤3中选出的样本的类别,加入已标记数据集,完成已标记数据集的更新;
步骤5、利用更新后的已标注数据集的转换向量对步骤3中的基准分类器进行训练,得到训练后的基准分类器,完成基准分类器的更新,跳至步骤3;
步骤6、预设终止条件达成,最终基准分类器训练完成,完成基于生成对抗模型的主动学习。


2.根据权利要求1所述的一种基于生成对抗模型的主动学习方法,其特征在于,步骤1中,从未标注数据集中选择高价值样本时,目标是选出真实模型的决策边界周围的样本,其中需要标注者标记决策边界,此时需要将隐藏特征空间中的向量转换成图像,给标注者直观的视觉展现,因此需要在两种表达空间中进行转换,一个是观察数据所在的数据空间,一个是隐变量所在的隐空间,后者是前者的一种抽象;生成网络用于建立从隐空间到数据空间的映射,视为一个译码器D(z)=x;推断网络用于建立从数据空间到隐空间的映射,视为一个编码器E(x)=z;其中x为原图像样本,z为原图像经推断网络得到的隐变量,D(·)为代表译码器的生成网络,E(·)为代表编码器的推断网络;
标准的GAN拥有生成器和判别器,生成器完成z→D(z)的映射,z从先验分布中进行采样,经过神经网络,得到合成样本;判别器区分来自生成网络的模拟样本和来自实际数据集的真实样本;但是由于标准的GAN没有推断网络,需要将推断网络加入GANs框架下;
所述生成对抗模型为将推断网络和生成网络联合加入GANs框架下的ALI(AdversariallyLearne...

【专利技术属性】
技术研发人员:罗荣华王翔
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1