基于文本的图像生成方法和设备技术

技术编号:37241139 阅读:22 留言:0更新日期:2023-04-20 23:22
提供了一种用于图像生成的方法和设备。该方法包括:获取描述待生成图像的内容的文本;使用文本编码器从所述文本中提取文本特征向量;将语义掩码确定为所述待生成图像的空间约束;及根据所述语义掩码和所述文本特征向量,使用生成对抗网络GAN模型自动生成图像。使用生成对抗网络GAN模型自动生成图像。使用生成对抗网络GAN模型自动生成图像。

【技术实现步骤摘要】
【国外来华专利技术】基于文本的图像生成方法和设备
相关申请的交叉引用
[0001]本申请要求于2020年7月6日提交的美国临时专利申请第63/048,505号的优先权。本申请还要求于2021年6月10日提交的美国专利申请第17/344,484号的优先权,其全部内容通过引用并入本文。


[0002]本公开涉及图像处理
,尤其涉及基于文本的图像生成方法及设备。

技术介绍

[0003]基于语义描述生成高保真、逼真的图像的任务对许多应用程序都很有用。许多研究都集中在文本到图像的合成任务上,该合成任务采用自然语言描述来生成与文本匹配的图像。在现有技术中,以文本输入为条件的生成对抗网络(generative adversarial network,GAN)模型用于图像生成。然而,现有的GAN模型几乎无法控制所生成的图像的布局。通常,这些模型会生成形状变形的对象或布局不真实的图像。图4示意了由Xu等人在“AttnGAN:使用注意力生成对抗网络进行细粒度文本到图像生成”中提出的AttnGAN模型所生成的示例结果图像,IEEE计算机视觉和模式识别会议论文集,2018年。
[0004]所公开的方法和系统旨在解决上述的一个或多个问题以及其他问题。

技术实现思路

[0005]本公开的第一方面提供一种应用于计算机设备的图像生成方法。所述方法包括:获取描述待生成图像的内容的文本;使用文本编码器从所述文本中提取文本特征向量;将语义掩码确定为所述待生成图像的空间约束;及根据所述语义掩码和所述文本特征向量,使用生成对抗网络GAN模型自动生成图像。
[0006]本公开的另一方面提供一种图像生成设备。所述设备包括存储器;及处理器,与所述存储器耦合并被配置为执行多个操作,包括:获取描述待生成图像的内容的文本;使用文本编码器从所述文本中提取文本特征向量;将语义掩码确定为所述待生成图像的空间约束;及根据所述语义掩码和所述文本特征向量,使用生成对抗网络GAN模型自动生成图像。
[0007]本公开的另一方面提供一种非暂时性计算机可读存储介质,其上存储有计算机指令。所述计算机指令由处理器执行时,使所述处理器执行:获取描述待生成图像的内容的文本;使用文本编码器从所述文本中提取文本特征向量;将语义掩码确定为所述待生成图像的空间约束;及根据所述语义掩码和所述文本特征向量,使用生成对抗网络GAN模型自动生成图像。
[0008]本领域的技术人员根据本公开的说明书、权利要求和附图能够理解本公开的其他方面。附图的简要说明
[0009]本专利或申请文件包含至少一幅彩色附图。本专利或专利申请公开的彩色附图的
副本将在请求和支付必要费用后由专利局提供。
[0010]下列附图仅是根据各种公开的实施例用于说明目的的示例,并不限制本公开的范围。
[0011]图1是根据本公开的一些实施例的示例性计算系统的框图。
[0012]图2是根据本公开的一些实施例的示例性图像生成过程。
[0013]图3是根据本公开的一些实施例的图像生成的示例性框架的框图。
[0014]图4示出了现有技术中AttnGAN模型生成的样本结果和SegAttnGAN模型生成的样本结果,以及根据本公开的一些实施例的相同文本描述的自注意力SegAttnGAN模型。
[0015]图5示出了现有技术中AttnGAN模型生成的附加样本结果,以及根据本公开的一些实施例的SegAttnGAN模型和自注意力SegAttnGAN模型根据相同文本描述生成的样本结果。
[0016]图6示出了根据本公开的一些实施例的自注意力SegAttnGAN模型生成的示例结果、相应的文本描述和相应的分割掩码。
具体实施方式
[0017]现在将详细参考在附图中示出的本专利技术的示例性实施例。以下,将参照附图描述符合本公开的实施例。在可能的情况下,附图中将使用相同的附图标记来指代相同或相似的部分。显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有与本专利技术一致的所有其他实施例,都属于本专利技术保护的范围。
[0018]本公开提供了一种用于基于文本的图像生成方法和设备,即文本到图像生成。所公开的方法和/或设备可以应用于任何需要根据文本描述生成图像的适当场合。所公开的图像生成/合成过程是基于具有分割注意力的生成对抗网络(GAN)模型实现的,即SegAttnGAN模型,其利用来自分割数据的全局空间注意力作为除文本描述之外的附加输入来指导图像生成。在公开的SegAttnGAN模型中添加空间注意机制被证实通过调节对象形状和图像布局明显增加了视觉真实感。
[0019]在一些实施例中,所公开的过程还包括构建自注意力网络以生成分割掩码,然后使用生成的分割掩码来生成图像。这被称为自注意力SegAttnGAN模型,其还展示了在结果图像中约束目标对象的形状的所需能力。图4示出了现有技术中AttnGAN模型生成的样本结果和SegAttnGAN模型生成的样本结果,以及根据本公开的一些实施例的相同文本描述的自注意力SegAttnGAN模型。如图4所示,当现有技术中的AttnGAN模型根据输入的文本描述生成变形图像时,所公开的SegAttnGAN模型和自注意力SegAttnGAN模型(self

attention SegAttnGAN model)都可以输出逼真的图像。Xu等人提出的AttnGAN模型在整个本公开中用作基准模型,用于比较和证明由所公开的方法/设备提供的性能。
[0020]语义信息(例如,分割掩码)可以在图像生成中提供指导。应该注意的是,不同于用语义图或掩码指导图像到图像的转换或图像到图像的生成的其他图像生成技术,所公开的方法和设备使用语义掩码来进行文本到图像的生成。此外,现有技术中的AttnGAN模型没有考虑或使用语义信息。
[0021]图1示意了示例性计算系统/设备的框图,根据本公开的一些实施例,该示例性计算系统/设备能够实现所公开的图像生成方法。如图1所示,计算系统100可以包括处理器
102和存储介质104。根据某些实施例,计算系统100还可以包括显示器106、通信模块108、附加的外围设备112和一个或多个总线114以将所述各个设备耦合。可以省略某些设备并且可以包括其他设备。
[0022]处理器102可以包括任何合适的处理器。在某些实施例中,处理器102可以包括用于多线程或并行处理的多个内核,和/或图形处理单元(GPU)。处理器102可以执行计算机程序指令序列以执行各种过程,例如图像生成和着色程序、GAN模型训练程序等。存储介质104可以是非暂时性计算机可读存储介质,并且可以包括存储器模块,例如ROM、RAM、闪存模块和可擦写存储器,以及大容量存储器,例如CD

ROM、U盘和硬盘等。当由处理器102执行时,存储介质104可以存储用于实现各种过程的计算机程序。存储介质104还可以包括一个或多个数据库,用于存储某些数据,例如图像数据、训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种图像生成方法,应用于计算机设备,其特征在于,包括:获取描述待生成图像的内容的文本;使用文本编码器从所述文本中提取文本特征向量;将语义掩码确定为所述待生成图像的空间约束;及根据所述语义掩码和所述文本特征向量,使用生成对抗网络GAN模型自动生成图像。2.如权利要求1所述的方法,其特征在于,所述语义掩码是描述所述内容的形状的二值图像。3.如权利要求1所述的方法,其特征在于,确定所述语义掩码包括:从数据集中确定预先存在的掩码作为所述语义掩码。4.如权利要求1所述的方法,其特征在于,所述文本特征向量包括描述所述文本的整个句子的全局特征的句子特征向量;及该方法还包括:通过连接所述句子特征向量和随机潜在向量获得修改后的句子特征向量;及将所述修改后的句子特征向量输入到所述GAN模型中生成所述图像。5.如权利要求4所述的方法,其特征在于,确定所述语义掩码包括:通过自注意力生成器根据所述修改后的句子特征向量自动确定所述语义掩码。6.根据权利要求4所述的方法,其特征在于:所述GAN模型包括与多个分辨率对应的多个生成器,所述多个生成器从低分辨率到高分辨率串联排列;及使用所述GAN模型生成所述图像包括:根据所述修改后的句子特征向量和下采样到第一分辨率的所述语义掩码,使用第一生成器确定第一图像和第一隐藏特征;及根据由第i

1个生成器确定的第i

1个隐藏特征和具有第i个分辨率的所述语义掩码,使用第i个生成器确定具有第i个分辨率和第i个隐藏特征的第i张图像,其中,i为大于1的整数。7.根据权利要求6所述的方法,其特征在于:所述文本特征向量还包括根据所述文本中的每个词得到的词特征向量;及所述第i张图像由所述第i个生成器根据所述词特征向量确定。8.一种用于分层图像分割的设备,其特征在于,包括:存储器;及处理器,与所述存储器耦合并被配置为执行多个操作,包括:获取描述待生成图像的内容的文本;使用文本编码器从所述文本中提取文本特征向量;将语义掩码确定为所述待生成图像的空间约束;及根据所述语义掩码和所述文本特征向量,使用生成对抗网络GAN模型自动生成图像。9.如权利要求8所述的方法,其特征在于,所述语义掩码是描述所述内容的形状的二值图像。10.如权利要求8所述的方法,其特征在于,确定所述语义掩码包括:从数据集中确定预先存在的掩码作为所述语义掩码。
11.如权利要求8所述的方法,其特征在于,所述文本特征向量包括描述所述文本的整个句子的全局特征的句子特征向量;及该方法还包括:通过连接所述句子特征向量和随机潜在向量获得修改后的句子特征向量;及将所述修改后的句子特征向量输入到所述GAN模型中生成所述图像。12.如权利要求11所述的方法,其特征在于...

【专利技术属性】
技术研发人员:苟毓川武谦成李明昊龚博韩玫
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1