【技术实现步骤摘要】
一种基于生成对抗模型的主动学习方法
本专利技术涉及计算机
,尤其涉及一种基于生成对抗模型的主动学习方法。
技术介绍
目前,深度学习在诸多领域中取得显著成功,例如计算机视觉、语音识别、自然语言处理等等。尽管神经网络在如此多任务中普遍成功,但它有一个明显的缺点,神经网络需要大量的标注数据,这样才能学习大量参数以确保模型的性能。并且拥有更多的数据几乎总是更好的,神经网络的性能通常不会随着数据集的增加而饱和,反而会提升它的泛化性能。从算法的角度来看,人们期望拥有更多的标注数据。但实际上,标注数据集需要消耗大量的时间和精力,特别是医学图像等专业领域,标注更加繁琐耗时,而且需要标注者具有良好的专业知识技能,标注代价昂贵。通常,模型的训练集中很可能包含大量的冗余样本。理论上,从训练集中选出具有高价值的部分样本集,利用这部分样本集训练出的模型,能够达到使用所有样本训练的模型同样的性能。主动学习的目标立足于此,如何利用众多未标注样例,从中挑选出对模型训练贡献度高的样例,标注后补充到训练集中来提升模型性能。即,尽可能地减小 ...
【技术保护点】
1.一种基于生成对抗模型的主动学习方法,其特征在于,包括以下步骤:/n步骤1、构建生成对抗模型,利用已标注数据集和未标注数据集训练生成对抗模型,并使用训练后的生成对抗模型分别将已标注数据集和未标注数据集中的每个样本转换成某个隐藏特征空间中的向量得到已标注数据集的转换向量和未标注数据集的转换向量;/n步骤2、利用步骤1中得到的已标注数据集的转换向量对基准分类器进行训练,得到训练后的基准分类器;/n步骤3、使用当前的训练后的基准分类器对测试集中的样本进行测试,并检查预设终止条件是否达到,若预设终止条件未达到,则从未标注数据集中选择真实基准分类器决策边界周围的样本;否则跳至步骤6 ...
【技术特征摘要】
1.一种基于生成对抗模型的主动学习方法,其特征在于,包括以下步骤:
步骤1、构建生成对抗模型,利用已标注数据集和未标注数据集训练生成对抗模型,并使用训练后的生成对抗模型分别将已标注数据集和未标注数据集中的每个样本转换成某个隐藏特征空间中的向量得到已标注数据集的转换向量和未标注数据集的转换向量;
步骤2、利用步骤1中得到的已标注数据集的转换向量对基准分类器进行训练,得到训练后的基准分类器;
步骤3、使用当前的训练后的基准分类器对测试集中的样本进行测试,并检查预设终止条件是否达到,若预设终止条件未达到,则从未标注数据集中选择真实基准分类器决策边界周围的样本;否则跳至步骤6;
步骤4、让标注者标注步骤3中选出的样本的类别,加入已标记数据集,完成已标记数据集的更新;
步骤5、利用更新后的已标注数据集的转换向量对步骤3中的基准分类器进行训练,得到训练后的基准分类器,完成基准分类器的更新,跳至步骤3;
步骤6、预设终止条件达成,最终基准分类器训练完成,完成基于生成对抗模型的主动学习。
2.根据权利要求1所述的一种基于生成对抗模型的主动学习方法,其特征在于,步骤1中,从未标注数据集中选择高价值样本时,目标是选出真实模型的决策边界周围的样本,其中需要标注者标记决策边界,此时需要将隐藏特征空间中的向量转换成图像,给标注者直观的视觉展现,因此需要在两种表达空间中进行转换,一个是观察数据所在的数据空间,一个是隐变量所在的隐空间,后者是前者的一种抽象;生成网络用于建立从隐空间到数据空间的映射,视为一个译码器D(z)=x;推断网络用于建立从数据空间到隐空间的映射,视为一个编码器E(x)=z;其中x为原图像样本,z为原图像经推断网络得到的隐变量,D(·)为代表译码器的生成网络,E(·)为代表编码器的推断网络;
标准的GAN拥有生成器和判别器,生成器完成z→D(z)的映射,z从先验分布中进行采样,经过神经网络,得到合成样本;判别器区分来自生成网络的模拟样本和来自实际数据集的真实样本;但是由于标准的GAN没有推断网络,需要将推断网络加入GANs框架下;
所述生成对抗模型为将推断网络和生成网络联合加入GANs框架下的ALI(AdversariallyLearne...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。