【技术实现步骤摘要】
一种基于语义引导鉴别器的半监督汉字图像生成方法
[0001]本专利技术涉及文字生成的
,尤其是指一种基于生成对抗神经网络的半监督类条件汉字图像生成方法。
技术介绍
[0002]近年来,生成式对抗神经网络在生成具备多样性且高保真度的图像方面表现出了优异的性能。为了控制类条件图像的生成,许多工作都致力于类条件图像的生成,它通过生成与特定类别相关但具有足够多样性的实例来为下游任务服务。
[0003]当数据量足够时,类条件文字图像生成的效果比较理想。然而在实际应用中条件生成对抗神经网络的训练会受到一些限制。现实中大多数数据都是没有标签的,对每个图像进行标记需要消耗大量的人力物力财力,是一项艰巨的任务。如果忽略大量的未标记数据只利用少量的标记数据往往会导致生成的文字图像的多样性降低且语义不够准确,因此可以利用半监督技术来提高文字生成质量。已有的半监督图像生成方法大都是在生成对抗神经网络的基础上引入分类器来对未标记数据进行分类并为其分配伪标签,使得未标注数据能够像标注数据一样被使用。但是在本专利技术中,考虑到分类器特征中隐含着比类别信息更加丰富的语义信息,因此在鉴别器中引入文字数据的分类器特征使其加入到生成对抗训练过程中,从而提高真实数据和生成数据的类条件分布对齐,生成样式更加丰富的文字图像服务于文字检测、文字识别等下游任务。
[0004]具体来讲,本专利技术中采用了一种双头结构来增强鉴别器的能力:一个头接收类级别的语义信息,另一个头融合了鉴别器和分类器的特征。考虑到鉴别器和分类器在训练目标上的差异,且分类 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于,包括以下步骤:S1、准备一个数据集,其中只有一小部分训练数据有标注,将标注数据和其对应的标签集合记为L={(x
l
,y
l
)},未标注数据集合记为:U={x
u
};S2、准备一个由神经网络实现的生成器G:P
k
×
Y
→
R
h
×
w
,生成器通过一个k维的随机向量z和一个随机类别标签y来生成分辨率为h
×
w的高保真文字图像x
z
,随机类别标签是从文字数据集的标注空间Y中随机采样得到的;S3、将S2中生成的文字和数据集中的有类别标签的文字作为标注数据,将数据集中的未标注文字作为未标注数据,利用这些数据训练一个由神经网络实现的分类器C,利用分类器C对未标注数据进行分类,预测未标注数据的标签,同时得到数据的分类器特征;S4、将S2中生成的数据作为虚假数据,数据集中的标注数据和未标注数据作为真实数据,训练一个由神经网络实现的用于区分真实数据和虚假数据的鉴别器D:P
h
×
w
×
Y
×
P
M
→
[0,1],鉴别器以类别标签y和分类器特征f
C
(
·
)∈P
M
为条件,其中M表示特征图的维度;S5、通过生成器G、分类器C和鉴别器D三者之间的对抗来约束神经网络的学习,当三者的对抗学习达到平衡时,生成器便能够成符合真实类别条件分布且真实度高的文字。2.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于:在步骤S1中,由于未标注数据没有类别标签,所以需要一个分类器C来为其预测其伪标签,用于训练生成对抗神经网络的数据集形式为文字图像加类别标签。3.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于:在步骤S2中,生成器需要以类别标签为条件,通过随机向量生成文字图像,生成的文字用下述公式来表示:x
z
=G(z,y
z
)其中y
z
∈Y代表一个随机的类别标签,z代表一个随机向量,z从一个易于采样的分布中提取,本文采用均值为0方差为1的标准高斯分布4.根据权利要求1所述的一种基于语义引导鉴别器的半监督汉字图像生成方法,其特征在于:在步骤S3中,选用ResNet50作为分类器C的网络结构,为使得分类器C更加准确地预测未标注数据的类别,使用真实数据和生成数据来训练分类器神经网络,训练数据包括:标注数据
‑
标签对(x
l
,y
l
),未标注数据x
u
,以及生成数据
‑
标签对(x
z
技术研发人员:吴斯,霍晓阳,李芃,
申请(专利权)人:广东知乐技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。