基于注意力扰动的图像自动标注方法、系统和介质技术方案

技术编号:33125816 阅读:31 留言:0更新日期:2022-04-17 00:35
本发明专利技术公开了基于注意力扰动的图像自动标注方法、系统和介质,方法包括下述步骤:将待标注数据集划分为有标签数据集和无标签数据集,对有标签数据集进行图像增强以扩充数据集,并使用对应标签进行标注;构建基于注意力扰动机制的生成对抗网络,所述生成对抗网络包括图像自编码器、生成器和判别器;使用待标注数据集迭代训练生成对抗网络,同时使用扩充后的有标签数据集优化判别器的多任务全连接分类网络;使用训练好的判别器对无标签的待标注图像进行分类标注。本方法构建基于注意力扰动机制的生成对抗网络,同时引入多任务全连接分类网络,通过对抗训练,优化了图像特征表示,实现了图像的自动标注,提升了图像生成的多样性和质量。和质量。和质量。

【技术实现步骤摘要】
基于注意力扰动的图像自动标注方法、系统和介质


[0001]本专利技术涉及图像处理
,具体涉及一种基于注意力扰动的图像自动标注方法、系统和介质。

技术介绍

[0002]图像作为现代社会的一种重要的信息承载方式,凭借其与人类视觉感知的天然契合,在各行各业中都有着其广泛的应用。然而,在如今这一信息爆炸的大数据时代,正是由于图像的广泛应用,导致图像数据的数量与类别均大量增长,对具体类别图像进行筛选及过滤变得更为困难。例如,社交平台需要从每天上传的海量图像中检索不良内容并删除,而人工地对内容进行审查,不仅工作量过大,而且效率低下。
[0003]近年来,随着人工智能技术的涌现,在计算机视觉领域中诸如图像分类、图像生成、图像转换等复杂任务均使用神经网络取得了令人瞩目的成果。绝大部分前沿应用的成功均建立在训练神经网络时使用的图像数据集包含大量有标注样本这一前提下。因此,对数据样本进行标注是人工智能应用中不可或缺的一环。现有的图像自动标注的方法大致可分为两类。第一类方法为无监督标注方法,采用特征工程对样本进行标注,如在某个特征空间使用k

means算法将图像划分为k种类别,这类方法不需要使用图像的真实类别信息,简便高效,但通过类该方法标注的数据集往往类内差距较大,且标签信息无实际意义,不能为网络提供可靠的指引;第二类方法为有监督标注方法,这类方法需使用图像的真实类别信息,同时,根据是否使用其它数据集的先验知识又可将该类方法具体划分为基于迁移学习的有监督标注方法和基于自身特征的有监督标注方法,前者要求不同数据集的特征需存在交集,否则其他数据集的有效信息无法迁移至目标数据集上,后者则完全依赖于自身数据的特征,要求通过有效手短来提升对特征的理解。
[0004]生成对抗网络作为近年来位于计算机视觉领域前沿的生成模型,拥有强大的特征学习能力。生成对抗网络由判别器与生成器组成,判别器的任务是正确区分生成图像与真实图像的区别,而生成器则需要生成足够逼真的图像来骗过判别器,通过这种对抗性训练的方式,神经网络能对数据分布进行拟合。生成对抗网络虽有着强大的学习能力,但若在训练时缺少监督信息则会产生诸如模式坍塌、灾难性遗忘、循环表现等问题,这将导致网络无法学到关于数据集特征的有效表示。

技术实现思路

[0005]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于注意力扰动的图像自动标注方法、系统和介质,本方法基于注意力扰动机制构建生成对抗网络,同时引入多任务全连接分类网络,通过对抗训练完成对数据集复杂特征的学习,并基于该习得的特征表示进行图像的自动标注,提升了图像生成的多样性和质量。
[0006]为了达到上述目的,本专利技术采用以下技术方案:
[0007]本专利技术一方面提供了一种基于注意力扰动的图像自动标注方法,包括下述步骤:
[0008]根据待标注数据集是否拥有对应标签,将待标注数据集划分为有标签数据集和无标签数据集;对有标签数据集进行图像增强以扩充数据集,并使用对应标签进行标注;
[0009]构建基于注意力扰动机制的生成对抗网络,所述生成对抗网络包括图像自编码器、生成器和判别器;所述图像自编码器用于实现真实图像的重构;所述生成器中加入注意力扰动机制,用于产生图像的伪标签;所述判别器引入多任务全连接分类网络,用于预测图像具体类别;
[0010]使用待标注数据集迭代训练生成对抗网络,同时使用扩充后的有标签数据集优化判别器的多任务全连接分类网络;
[0011]使用训练好的判别器对无标签的待标注图像进行分类标注。
[0012]作为优选的技术方案,所述图像自编码器包括图像编码模块和图像解码模块,均有4层卷积层,对输出进行批归一化处理,采用ReLU激活函数;所述图像编码模块中的图像编码器用于对输入图像进行PCA来获取特征编码,所述图像解码模块中的图像解码器用于将图像的特征编码解码为生成器的输入。
[0013]作为优选的技术方案,所述生成器依次包括3层连续卷积层、注意力扰动层和最后一层卷积层;
[0014]输入的图像特征编码通过3层连续卷积层获得特征张量,并在输出前进行批归一化处理,使用ReLU激活函数计算激活值,将特征张量输入注意力扰动层进行注意力扰动,获得输出张量和伪标签;将输出张量输入最后一层卷积层进行卷积操作获得生成图像。
[0015]作为优选的技术方案,所述进行注意力扰动具体为:
[0016]使用三层独立的卷积层对输入的特征张量进行维度变换,得到输入特征张量的三个不同维度表示,记为Q、K、V;
[0017]随机选取输入的特征张量,从选中特征张量的三个不同维度表示中选取两个进行交换,得到转换后的表示Q
t
、K
t
、V
t

[0018]使用Q
t
、K
t
、V
t
计算特征张量的注意力图,乘以权重变量σ后与特征张量相加作为扰动后的输出张量;
[0019]对未被选中的未扰动输出张量设置值为1的伪标签;对选中的扰动后输出张量,根据Q
t
、K
t
、V
t
设置值为2~4的伪标签;
[0020]所述独立卷积层的卷积核大小为1
×
1,输出通道数与输入的特征张量保持一致。
[0021]作为优选的技术方案,所述判别器包括4层连续卷积层、多任务全连接分类网络和1层全连接层;所述卷积层采用ReLU激活函数;所述多任务全连接分类网络由扰动分类层与图像分类层组成,所述1层全连接层为图像真假判别层;
[0022]输入的图像通过4层连续卷积层映射为判别器隐空间中的特征张量,再通过重构操作将特征张量拉伸为向量用作多任务全连接分类网络和全连接层的输入,其中,图像真假判别层输出为1维向量,表示输入图像的真实程度预测;扰动分类层输出为4维向量,表示输入图像的伪标签预测;图像分类层输出为n维向量,表示输入图像的类别预测,n为待标注数据集中包含图像的具体类别数量。
[0023]作为优选的技术方案,所述训练生成对抗网络时,使用的目标函数包括自编码器目标函数、生成器与判别器对抗训练目标函数和判别器中多任务全连接分类网络目标函数;
[0024]所述图像自编码器目标函数为:
[0025]L
AE
=λ
r
L
recon

p
L
prior

[0026]其中,λ
r
、λ
p
为各项损失的系数,L
recon
为图像自编码器AE的输入图像与图像解码器Dec的输出图像在判别器D隐空间φ中的L2距离,L
prior
为图像编码器Enc输出的特征编码z
e
的分布与符合0

1均衡分布的特征空间P
z
的KL散度,L
recon
与L本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于注意力扰动的图像自动标注方法,其特征在于,包括下述步骤:根据待标注数据集是否拥有对应标签,将待标注数据集划分为有标签数据集和无标签数据集;对有标签数据集进行图像增强以扩充数据集,并使用对应标签进行标注;构建基于注意力扰动机制的生成对抗网络,所述生成对抗网络包括图像自编码器、生成器和判别器;所述图像自编码器用于实现真实图像的重构;所述生成器中加入注意力扰动机制,用于产生图像的伪标签;所述判别器引入多任务全连接分类网络,用于预测图像具体类别;使用待标注数据集迭代训练生成对抗网络,同时使用扩充后的有标签数据集优化判别器的多任务全连接分类网络;使用训练好的判别器对无标签的待标注图像进行分类标注。2.根据权利要求1所述的基于注意力扰动的图像自动标注方法,其特征在于,所述图像自编码器包括图像编码模块和图像解码模块,均有4层卷积层,对输出进行批归一化处理,采用ReLU激活函数;所述图像编码模块中的图像编码器用于对输入图像进行PCA来获取特征编码,所述图像解码模块中的图像解码器用于将图像的特征编码解码为生成器的输入。3.根据权利要求2所述的基于注意力扰动的图像自动标注方法,其特征在于,所述生成器依次包括3层连续卷积层、注意力扰动层和最后一层卷积层;输入的图像特征编码通过3层连续卷积层获得特征张量,并在输出前进行批归一化处理,使用ReLU激活函数计算激活值,将特征张量输入注意力扰动层进行注意力扰动,获得输出张量和伪标签;将输出张量输入最后一层卷积层进行卷积操作获得生成图像。4.根据权利要求3所述的基于注意力扰动的图像自动标注方法,其特征在于,所述进行注意力扰动具体为:使用三层独立的卷积层对输入的特征张量进行维度变换,得到输入特征张量的三个不同维度表示,记为Q、K、V;随机选取输入的特征张量,从选中特征张量的三个不同维度表示中选取两个进行交换,得到转换后的表示Q
t
、K
t
、V
t
;使用Q
t
、K
t
、V
t
计算特征张量的注意力图,乘以权重变量σ后与特征张量相加作为扰动后的输出张量;对未被选中的未扰动输出张量设置值为1的伪标签;对选中的扰动后输出张量,根据Q
t
、K
t
、V
t
设置值为2~4的伪标签;所述独立卷积层的卷积核大小为1
×
1,输出通道数与输入的特征张量保持一致。5.根据权利要求3所述的基于注意力扰动的图像自动标注方法,其特征在于,所述判别器包括4层连续卷积层、多任务全连接分类网络和1层全连接层;所述卷积层采用ReLU激活函数;所述多任务全连接分类网络由扰动分类层与图像分类层组成,所述1层全连接层为图像真假判别层;输入的图像通过4层连续卷积层映射为判别器隐空间中的特征张量,再通过重构操作将特征张量拉伸为向量用作多任务全连接分类网络和全连接层的输入,其中,图像真假判别层输出为1维向量,表示输入图像的真实程度预测;扰动分类层输出为4维向量,表示输入图像的伪标签预测;图像分类层输出为n维向量,表示输入图像的类别预测,n为待标注数据集中包含图像的具体类别数量。
6.根据权利要求5所述的基于注意力扰动的图像自动标注方法,其特征在于,所述训练生成对抗网络时,使用的目标函数包括自编码器目标函数、生成器与判别器对抗训练目标函数和判别器中多任务全连接分类网络目标函数;所述图像自编码器目标函数为:L
AE
=λ
r
L
recon

p
L
prior
,其中,λ
r
、λ
p
为各项损失的系数,L
recon
为图像自编码器AE的输入图像与图像解码器Dec的输出图像在判别器D隐空间φ中的L2距离,L
prior
...

【专利技术属性】
技术研发人员:周钦宇张见威韩国强
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1