一种基于语义引导鉴别器的半监督汉字图像生成方法技术

技术编号:35418440 阅读:17 留言:0更新日期:2022-11-03 11:17
本发明专利技术公开一种基于语义引导鉴别器的半监督汉字图像生成方法,在半监督场景下,从训练集中选取少量有标签的文字图像,其余作为无标签的文字数据,利用辅助分类器为无标签文字提供多重语义信息。分类器特征中隐含着语义信息,在鉴别器中引入文字图像的分类器特征。在鉴别器上采用双头结构:一个头接收类别标签,一个头采用特征融合模块融合鉴别器特征和分类器特征,使分类器特征作为鉴别真假的条件。最终生成器、鉴别器、分类器三者联合完成训练。本发明专利技术针对无标签真实文字图像,利用分类器预测的伪标签和分类器特征,提供丰富的语义信息,提升鉴别器在类别条件下区分真假样本的能力,使生成器生成更符合真实类条件分布且真实度和多样性高的文字。度和多样性高的文字。度和多样性高的文字。

【技术实现步骤摘要】
一种基于语义引导鉴别器的半监督汉字图像生成方法


[0001]本专利技术涉及文字生成的
,尤其是指一种基于生成对抗神经网络的半监督类条件汉字图像生成方法。

技术介绍

[0002]近年来,生成式对抗神经网络在生成具备多样性且高保真度的图像方面表现出了优异的性能。为了控制类条件图像的生成,许多工作都致力于类条件图像的生成,它通过生成与特定类别相关但具有足够多样性的实例来为下游任务服务。
[0003]当数据量足够时,类条件文字图像生成的效果比较理想。然而在实际应用中条件生成对抗神经网络的训练会受到一些限制。现实中大多数数据都是没有标签的,对每个图像进行标记需要消耗大量的人力物力财力,是一项艰巨的任务。如果忽略大量的未标记数据只利用少量的标记数据往往会导致生成的文字图像的多样性降低且语义不够准确,因此可以利用半监督技术来提高文字生成质量。已有的半监督图像生成方法大都是在生成对抗神经网络的基础上引入分类器来对未标记数据进行分类并为其分配伪标签,使得未标注数据能够像标注数据一样被使用。但是在本专利技术中,考虑到分类器特征中隐含着比类别信息更加丰富的语义信息,因此在鉴别器中引入文字数据的分类器特征使其加入到生成对抗训练过程中,从而提高真实数据和生成数据的类条件分布对齐,生成样式更加丰富的文字图像服务于文字检测、文字识别等下游任务。
[0004]具体来讲,本专利技术中采用了一种双头结构来增强鉴别器的能力:一个头接收类级别的语义信息,另一个头融合了鉴别器和分类器的特征。考虑到鉴别器和分类器在训练目标上的差异,且分类器特征中包含比类别标签更加丰富的实例级语义信息,本专利技术中采用特征融合模块引入分类器特征并将其与鉴别器特征进行融合作为对抗训练的条件。

技术实现思路

[0005]本专利技术的目的是在仅有少量标注文字数据的情境下利用未标注文字数据来提高生成文字图像的保真度和多样性,使得生成的文字更加符合相应的类别语义。本专利技术提供了一种基于生成对抗神经网络的半监督类条件汉字图像生成方法,结合少量的标注数据和大量的未标注数据训练一个用于类条件汉字生成的生成器,生成更加真实且更具备多样性的文字数据来为下游任务服务。
[0006]为了实现上述目的,本专利技术提供的技术方案为:一种基于语义引导鉴别器的半监督文字生成方法,包括以下步骤:
[0007]S1、准备一个数据集,其中只有一小部分训练数据有标注。将标注数据和其对应的标签集合记为L={(x
l
,y
l
)},未标注数据集合记为:U={x
u
}。
[0008]S2、准备一个由神经网络实现的生成器G:P
k
×
Y

R
h
×
w
,生成器通过一个k维的随机向量z和一个随机类别标签y来生成分辨率为h
×
w的高保真文字图像x
z
,随机类别标签是从文字数据集的标注空间Y中随机采样得到的。
[0009]S3、将S2中生成的文字和数据集中的有类别标签的文字作为标注数据,将数据集中的未标注文字作为未标注数据。利用这些数据训练一个由神经网络实现的分类器C,利用分类器C对未标注数据进行分类,预测未标注数据的标签,同时得到数据的分类器特征。
[0010]S4、将S2中生成的数据作为虚假数据,数据集中的标注数据和未标注数据作为真实数据,训练一个由神经网络实现的用于区分真实数据和虚假数据的鉴别器D:P
h
×
w
×
Y
×
P
M

[0,1]。鉴别器以类别标签y和分类器特征f
C
(
·
)∈P
M
为条件,其中M表示特征图的维度。
[0011]S5、通过生成器G、分类器C和鉴别器D三者之间的对抗来约束神经网络的学习,当三者的对抗学习达到平衡时,生成器便能够生成符合真实类别条件分布且样式更加丰富的文字图像。
[0012]进一步,在步骤S1中,由于未标注数据没有类别标签,所以需要一个分类器C来为其预测其伪标签。用于训练生成对抗神经网络的数据集形式为文字图像加类别标签。
[0013]进一步,在步骤S2中,生成器需要以类别标签为条件,通过随机向量生成文字图像。生成的文字用下述公式来表示:
[0014]x
z
=G(z,y
z
)
[0015]其中y
z
∈Y代表一个随机的类别标签,z代表一个随机向量,z通常从一个易于采样的分布中提取,如预定义的高斯分布
[0016]进一步,在步骤S3中,选用ResNet50作为分类器C的网络结构。为使得分类器C更加准确地预测未标注数据的类别,使用真实数据和生成数据来训练分类器神经网络。训练数据包括:标注数据

标签对(x
l
,y
l
),未标注数据x
u
,以及生成数据

标签对(x
z
,y
z
),相应的损失函数为:
[0017][0018]其中,C是分类器,代表期望,L
CE
(
·
,
·
)是交叉熵损失函数,其定义为:
[0019]L
CE
(x,y)=

ylogC(x)
[0020]进一步,在步骤S4中,为了与生成器进行对抗以提高生成图像的真实度,需要训练一个由多层卷积神经网络组成的鉴别器,鉴别器的目的是在类别标签条件下尽可能区分出真实文字与生成的文字。为了充分利用S3中分类器特征包含的实例级语义信息,本专利技术中为鉴别器采用了一种双头结构D={F,T1,T2},其中F是一个特征提取网络,T1中包含一个可学习的神经网络层用于学习类别标签的映射;T2中包含一个特征融合模块用于将分类器C和特征提取网络F学习的特征结合起来。T1和T2将共同作用以帮助G捕获精确的与每类文字相对应的类别语义信息,同时由于T2中融合了图像的分类器特征,分类器中编码的特征相比类别标签来说更加丰富,因此能够通过该操作将更加精细多样的语义信息编码到鉴别器中。为简单起见,本专利技术中用x来表示一个有标签或无标签文字图像样本,并将其相应的标签定义为:
[0021][0022]T1以类别标签y为条件来区分真实数据和生成数据。T1根据生成文字的特征表示分布是否与相应类别的真实文字的特征分布一致来鉴别真假数据,其表达式为:
[0023][0024]其中Embed(
·
)表示一个可学习类别标签映射的函数,是一个映射函数,表示最后一个线性表示层的权重。在上述公式中,T1(
·
,
·
)表示鉴别器网络将输入数据鉴别为真实数据的概率。T1上的损失函数用如下公式来表示:
[0025][0026]考虑到与类别标签相比,分类器特征f
C本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于,包括以下步骤:S1、准备一个数据集,其中只有一小部分训练数据有标注,将标注数据和其对应的标签集合记为L={(x
l
,y
l
)},未标注数据集合记为:U={x
u
};S2、准备一个由神经网络实现的生成器G:P
k
×
Y

R
h
×
w
,生成器通过一个k维的随机向量z和一个随机类别标签y来生成分辨率为h
×
w的高保真文字图像x
z
,随机类别标签是从文字数据集的标注空间Y中随机采样得到的;S3、将S2中生成的文字和数据集中的有类别标签的文字作为标注数据,将数据集中的未标注文字作为未标注数据,利用这些数据训练一个由神经网络实现的分类器C,利用分类器C对未标注数据进行分类,预测未标注数据的标签,同时得到数据的分类器特征;S4、将S2中生成的数据作为虚假数据,数据集中的标注数据和未标注数据作为真实数据,训练一个由神经网络实现的用于区分真实数据和虚假数据的鉴别器D:P
h
×
w
×
Y
×
P
M

[0,1],鉴别器以类别标签y和分类器特征f
C
(
·
)∈P
M
为条件,其中M表示特征图的维度;S5、通过生成器G、分类器C和鉴别器D三者之间的对抗来约束神经网络的学习,当三者的对抗学习达到平衡时,生成器便能够成符合真实类别条件分布且真实度高的文字。2.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于:在步骤S1中,由于未标注数据没有类别标签,所以需要一个分类器C来为其预测其伪标签,用于训练生成对抗神经网络的数据集形式为文字图像加类别标签。3.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于:在步骤S2中,生成器需要以类别标签为条件,通过随机向量生成文字图像,生成的文字用下述公式来表示:x
z
=G(z,y
z
)其中y
z
∈Y代表一个随机的类别标签,z代表一个随机向量,z从一个易于采样的分布中提取,本文采用均值为0方差为1的标准高斯分布4.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于:在步骤S3中,选用ResNet50作为分类器C的网络结构,为使得分类器C更加准确地预测未标注数据的类别,使用真实数据和生成数据来训练分类器神经网络,训练数据包括:标注数据

标签对(x
l
,y
l
),未标注数据x
u
,以及生成数据

标签对(x
z

【专利技术属性】
技术研发人员:吴斯霍晓阳李芃
申请(专利权)人:广东知乐技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1