文本生成图像的方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:32004017 阅读:59 留言:0更新日期:2022-01-22 18:20
本发明专利技术公开了一种文本生成图像的方法、装置、计算机设备和存储介质,所述方法包括:获取数据库中的文本图像对;文本图像对中的文本作为原始文本;将原始文本输入多级生成对抗网络,得到对应的图像;将对应的图像输入训练好的图像标注网络,生成预测文本;将预测文本与原始文本输入训练好的孪生神经网络,得到预测文本与原始文本间的相似度;根据相似度,训练多级生成对抗网络,得到训练好的多级生成对抗网络;将用户输入的文本,输入训练好的多级生成对抗网络,生成与文本对应的图像。本发明专利技术通过采用多级生成对抗网络,逐步提高生成图像的像素及质量,同时通过加入注意力机制,提升了生成图像的真实性,从而提升了生成图像与文本的语义一致性。的语义一致性。的语义一致性。

【技术实现步骤摘要】
文本生成图像的方法、装置、计算机设备和存储介质


[0001]本专利技术涉及自然语言处理与计算机视觉领域,特别是涉及一种文本生成图像的方法、装置、计算机设备和存储介质。

技术介绍

[0002]计算机视觉及自然语言处理均是用于处理单一类型的数据,即图像或文字,计算机视觉主要关注于图片的理解,包括图像语义分割、图像分类、目标检索等子任务,自然语言处理则主要关注对文本信息进行建模处理,包括机器翻译、命名实体识别、分词等子任务。而结合图像、文本及视频等多种数据类型的多模态任务近年来越来越受到研究人员的关注,它可以联系多种不同类型的数据之间的关系,例如映射、融合等。多模态任务中最常见的两种数据类型是文字及图像,跨模态检索、图像字幕生成等都是多模态任务中常见的研究方向。
[0003]文字与图像作为两种不同的类型的信息载体,在日常生活中扮演着重要的角色,图像直观地向人们展现包含的内容,展现出文字所不包含的细节,而文字的表达言简意赅,通过简洁的描述即可表达出大量图像才能表达出的内容,因此将文字与图像结合,通过图文并茂的方式才能对对象有一个全方位的描述。生活中这样的场景随处可见:设计师设计出的图片常常无法满足客户的描述,即使反复修改,依然无法达到客户的要求;在犯罪现场,目击案件发生及犯罪嫌疑人的目击者往往只能通过口头表达的形式将犯罪嫌疑人的外貌特征描述出来,而将描述转化成图片供社会参考需要专业人士参与,费时费力,并且不一定能获得较好的效果。
[0004]文本生成图像任务是指输入一段文字描述产生对应的图像的任务。Reed等人于 2016年提出的用于文本生成图像任务的GAN

INT

CLS实现了将人工编写的描述性文本转换成对应的图像。StackGAN开创性的将两个cGAN堆叠在一起,在第一阶段的 cGAN中生成低分辨率的图像,包含主要对象的轮廓和颜色,在第二阶段中对该低分辨率图像进行扩大,生成高分辨率的图像,并且包含较为生动的对象。AttnGAN则是用于提供语义一致性而提出的,该模型同时将文本描述编码成句子特征和单词特征,句子特征作为网络的输入产生初始低分辨率图像,单词特征用于在后续生成过程中提取出重要的单词,并且找出与之对应的图像子区域,提高该区域的注意力,在图像的重要子区域生成细粒度的细节,以此提高图像的语义一致性。

技术实现思路

[0005]为了解决上述现有技术的不足,本专利技术提供了一种文本生成图像的方法、装置、计算机设备和存储介质,该方法通过采用多级生成对抗网络,逐步提高生成图像的像素及质量,避免了单一式生成对抗网络生成的图像像素较低以及质量不佳的问题,同时,在级联生成器之间,加入注意力机制,关注输出特征中的重要部分,进一步提升了生成图像的真实性,从而提升生成图像与文本的语义一致性。
个注意力机制模块;
[0030]通过第i

1个注意力机制模块的注意力机制,计算第i

1个生成器的输出特征中与原始文本中关键词最相关的部分,得到第i

1个生成器的输出特征中的重要部分。
[0031]进一步的,所述多级生成对抗网络还包括n个鉴别器,每个所述鉴别器均与一个生成器对应;
[0032]所述根据所述预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络,具体包括:
[0033]在多级生成对抗网络训练过程中,一轮训练包括以下两个过程:
[0034]固定所有生成器的参数,使用鉴别器的损失函数更新鉴别器的参数;
[0035]固定所有鉴别器的参数,使用生成器的损失函数以及所述测文本与原始文本间的相似度,更新生成器的参数;
[0036]利用多个所述预测文本与原始文本间的相似度对所述多级生成对抗网络进行多轮训练,从而得到训练好的多级生成对抗网络。
[0037]进一步的,将原始文本对应的文本图像对中的图像,作为真实图像;
[0038]第t个鉴别器的输入包括第t个生成器的输出特征和所述真实图像;其中,t为大于等于1且小于n+1的正整数;
[0039]当k为1时,第k个鉴别器的输入还包括所述句嵌入特征向量;
[0040]当k为大于1且小于等于n时,第k个鉴别器的输入还包括所述文本特征向量的词嵌入特征矩阵;
[0041]鉴别器的损失函数,如下所示:
[0042][0043]其中,为句嵌入特征向量或词嵌入特征矩阵,I为真实图像,s0代表前一个生成器的输出特征,c为句嵌入特征向量,G(s0,c)为生成器的输出特征,IC为图像标注网络,为鉴别器的输出,sim为预测文本与原始文本间的相似度;
[0044]生成器的损失函数,如下所示:
[0045][0046]其中,为文本特征向量与高斯分布之间的KL散度。
[0047]进一步的,所述图像标注网络包括编码器和解码器;其中,所述编码器包括卷积神经网络和线性变换,所述解码器包括LSTM网络;
[0048]所述将所述对应的图像输入训练好的图像标注网络,生成预测文本,具体包括:
[0049]将所述对应的图像输入所述卷积神经网络,获取图像的特征矩阵;
[0050]将所述图像的特征矩阵通过所述线性变换后,得到变换后特征矩阵;
[0051]将所述变换后特征矩阵输入所述LSTM网络,生成预测文本。
[0052]进一步的,所述孪生神经网络包括文本特征提取网络和池化层;
[0053]所述将所述预测文本与所述原始文本输入训练好的孪生神经网络,得到预测文本与原始文本间的相似度,具体包括:
[0054]将所述预测文本与所述原始文本分别输入所述文本特征提取网络,分别得到提取后文本特征;
[0055]将分别得到的提取后文本特征输入所述池化层,得到特征向量U和特征向量V;
[0056]根据余弦相似度,计算特征向量U和特征向量V的相似度,公式如下:
[0057][0058]其中,U
i
及V
i
分别为U及V的第i个向量。
[0059]本专利技术的第二个目的可以通过采取如下技术方案达到:
[0060]一种文本生成图像的装置,所述装置包括:
[0061]文本图像对获取模块,用于获取数据库中的文本图像对;其中,所述文本图像对包括文本和图像,文本为图像的描述性文本,作为原始文本;
[0062]预测图像生成模块,用于将所述原始文本输入多级生成对抗网络,得到对应的图像;
[0063]预测文本生成模块,用于将所述对应的图像输入训练好的图像标注网络,生成预测文本;
[0064]相似度计算模块,用于将所述预测文本与所述原始文本输入训练好的孪生神经网络,得到预测文本与原始文本间的相似度;
[0065]多级生成对抗网络训练模块,用于根据所述预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络;
[0066]文本生成图像模块,用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成图像的方法,其特征在于,所述方法包括:获取数据库中的文本图像对;其中,所述文本图像对包括文本和图像,文本为图像的描述性文本,作为原始文本;将所述原始文本输入多级生成对抗网络,得到对应的图像;将所述对应的图像输入训练好的图像标注网络,生成预测文本;将所述预测文本与所述原始文本输入训练好的孪生神经网络,得到预测文本与原始文本间的相似度;根据所述预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络;将用户输入的文本,输入所述训练好的多级生成对抗网络,生成与所述文本对应的图像。2.根据权利要求1所述的文本生成图像的方法,其特征在于,所述将所述原始文本输入多级生成对抗网络,得到对应的图像,具体包括:将所述原始文本输入多级生成对抗网络之前,先将所述原始文本输入文本编码器,得到文本特征向量;将所述文本特征向量的句嵌入特征向量输入多级生成对抗网络,得到对应的图像。3.根据权利要求2所述的文本生成图像的方法,其特征在于,所述多级生成对抗网络包括n个生成器和n

1个注意力机制模块;其中,n为大于1的正整数;所述将所述文本特征向量的句嵌入特征向量输入多级生成对抗网络,得到对应的图像,具体包括:将所述句嵌入特征向量输入多级生成对抗网络中的生成器之前,对所述句嵌入特征向量进行条件增强,得到增强后句嵌入特征向量;当i为1时,将所述增强后句嵌入特征向量输入第i个生成器,得到第i个生成器的输出特征;当i为大于1且小于等于n的正整数时,将第i

1个生成器的输出特征输入第i

1个注意力机制模块,获取第i

1个生成器的输出特征中的重要部分;将第i

1个生成器的输出特征中的重要部分和第i

1个生成器的输出特征输入第i个生成器,得到第i个生成器的输出特征;将第n个生成器的输出特征作为对应的图像;随着生成器个数的增加,生成器输出图像的分辨率逐渐增大。4.根据权利要求3所述的文本生成图像的方法,其特征在于,所述将第i

1个生成器的输出特征输入第i

1个注意力机制模块,获取第i

1个生成器的输出特征中的重要部分,具体包括:将所述文本特征向量的词嵌入特征矩阵和第i

1个生成器的输出特征输入第i

1个注意力机制模块;通过第i

1个注意力机制模块的注意力机制,计算第i

1个生成器的输出特征中与原始文本中关键词最相关的部分,得到第i

1个生成器的输出特征中的重要部分。5.根据权利要求3所述的文本生成图像的方法,其特征在于,所述多级生成对抗网络还包括n个鉴别器,每个所述鉴别器均与一个生成器对应;
所述根据所述预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络,具体包括:在多级生成对抗网络训练过程中,一轮训练包括以下两个过程:...

【专利技术属性】
技术研发人员:陆璐叶锡洪冼允廷
申请(专利权)人:广东优算科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1