【技术实现步骤摘要】
文本生成图像的方法、装置、计算机设备和存储介质
[0001]本专利技术涉及自然语言处理与计算机视觉领域,特别是涉及一种文本生成图像的方法、装置、计算机设备和存储介质。
技术介绍
[0002]计算机视觉及自然语言处理均是用于处理单一类型的数据,即图像或文字,计算机视觉主要关注于图片的理解,包括图像语义分割、图像分类、目标检索等子任务,自然语言处理则主要关注对文本信息进行建模处理,包括机器翻译、命名实体识别、分词等子任务。而结合图像、文本及视频等多种数据类型的多模态任务近年来越来越受到研究人员的关注,它可以联系多种不同类型的数据之间的关系,例如映射、融合等。多模态任务中最常见的两种数据类型是文字及图像,跨模态检索、图像字幕生成等都是多模态任务中常见的研究方向。
[0003]文字与图像作为两种不同的类型的信息载体,在日常生活中扮演着重要的角色,图像直观地向人们展现包含的内容,展现出文字所不包含的细节,而文字的表达言简意赅,通过简洁的描述即可表达出大量图像才能表达出的内容,因此将文字与图像结合,通过图文并茂的方式才能对对象有一个全方位的描述。生活中这样的场景随处可见:设计师设计出的图片常常无法满足客户的描述,即使反复修改,依然无法达到客户的要求;在犯罪现场,目击案件发生及犯罪嫌疑人的目击者往往只能通过口头表达的形式将犯罪嫌疑人的外貌特征描述出来,而将描述转化成图片供社会参考需要专业人士参与,费时费力,并且不一定能获得较好的效果。
[0004]文本生成图像任务是指输入一段文字描述产生对应的图像的任务。Reed等 ...
【技术保护点】
【技术特征摘要】
1.一种文本生成图像的方法,其特征在于,所述方法包括:获取数据库中的文本图像对;其中,所述文本图像对包括文本和图像,文本为图像的描述性文本,作为原始文本;将所述原始文本输入多级生成对抗网络,得到对应的图像;将所述对应的图像输入训练好的图像标注网络,生成预测文本;将所述预测文本与所述原始文本输入训练好的孪生神经网络,得到预测文本与原始文本间的相似度;根据所述预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络;将用户输入的文本,输入所述训练好的多级生成对抗网络,生成与所述文本对应的图像。2.根据权利要求1所述的文本生成图像的方法,其特征在于,所述将所述原始文本输入多级生成对抗网络,得到对应的图像,具体包括:将所述原始文本输入多级生成对抗网络之前,先将所述原始文本输入文本编码器,得到文本特征向量;将所述文本特征向量的句嵌入特征向量输入多级生成对抗网络,得到对应的图像。3.根据权利要求2所述的文本生成图像的方法,其特征在于,所述多级生成对抗网络包括n个生成器和n
‑
1个注意力机制模块;其中,n为大于1的正整数;所述将所述文本特征向量的句嵌入特征向量输入多级生成对抗网络,得到对应的图像,具体包括:将所述句嵌入特征向量输入多级生成对抗网络中的生成器之前,对所述句嵌入特征向量进行条件增强,得到增强后句嵌入特征向量;当i为1时,将所述增强后句嵌入特征向量输入第i个生成器,得到第i个生成器的输出特征;当i为大于1且小于等于n的正整数时,将第i
‑
1个生成器的输出特征输入第i
‑
1个注意力机制模块,获取第i
‑
1个生成器的输出特征中的重要部分;将第i
‑
1个生成器的输出特征中的重要部分和第i
‑
1个生成器的输出特征输入第i个生成器,得到第i个生成器的输出特征;将第n个生成器的输出特征作为对应的图像;随着生成器个数的增加,生成器输出图像的分辨率逐渐增大。4.根据权利要求3所述的文本生成图像的方法,其特征在于,所述将第i
‑
1个生成器的输出特征输入第i
‑
1个注意力机制模块,获取第i
‑
1个生成器的输出特征中的重要部分,具体包括:将所述文本特征向量的词嵌入特征矩阵和第i
‑
1个生成器的输出特征输入第i
‑
1个注意力机制模块;通过第i
‑
1个注意力机制模块的注意力机制,计算第i
‑
1个生成器的输出特征中与原始文本中关键词最相关的部分,得到第i
‑
1个生成器的输出特征中的重要部分。5.根据权利要求3所述的文本生成图像的方法,其特征在于,所述多级生成对抗网络还包括n个鉴别器,每个所述鉴别器均与一个生成器对应;
所述根据所述预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络,具体包括:在多级生成对抗网络训练过程中,一轮训练包括以下两个过程:...
【专利技术属性】
技术研发人员:陆璐,叶锡洪,冼允廷,
申请(专利权)人:广东优算科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。