【技术实现步骤摘要】
【国外来华专利技术】基于文本的图像生成方法和设备
相关申请的交叉引用
[0001]本申请要求于2020年7月6日提交的美国临时专利申请第63/048,505号的优先权。本申请还要求于2021年6月10日提交的美国专利申请第17/344,484号的优先权,其全部内容通过引用并入本文。
[0002]本公开涉及图像处理
,尤其涉及基于文本的图像生成方法及设备。
技术介绍
[0003]基于语义描述生成高保真、逼真的图像的任务对许多应用程序都很有用。许多研究都集中在文本到图像的合成任务上,该合成任务采用自然语言描述来生成与文本匹配的图像。在现有技术中,以文本输入为条件的生成对抗网络(generative adversarial network,GAN)模型用于图像生成。然而,现有的GAN模型几乎无法控制所生成的图像的布局。通常,这些模型会生成形状变形的对象或布局不真实的图像。图4示意了由Xu等人在“AttnGAN:使用注意力生成对抗网络进行细粒度文本到图像生成”中提出的AttnGAN模型所生成的示例结果图像,IEEE计算机视觉和模式识别会议论文集,2018年。
[0004]所公开的方法和系统旨在解决上述的一个或多个问题以及其他问题。
技术实现思路
[0005]本公开的第一方面提供一种应用于计算机设备的图像生成方法。所述方法包括:获取描述待生成图像的内容的文本;使用文本编码器从所述文本中提取文本特征向量;将语义掩码确定为所述待生成图像的空间约束;及根据所述语义掩码和所述文本特征向量,使用生成对抗网络GA ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种图像生成方法,应用于计算机设备,其特征在于,包括:获取描述待生成图像的内容的文本;使用文本编码器从所述文本中提取文本特征向量;将语义掩码确定为所述待生成图像的空间约束;及根据所述语义掩码和所述文本特征向量,使用生成对抗网络GAN模型自动生成图像。2.如权利要求1所述的方法,其特征在于,所述语义掩码是描述所述内容的形状的二值图像。3.如权利要求1所述的方法,其特征在于,确定所述语义掩码包括:从数据集中确定预先存在的掩码作为所述语义掩码。4.如权利要求1所述的方法,其特征在于,所述文本特征向量包括描述所述文本的整个句子的全局特征的句子特征向量;及该方法还包括:通过连接所述句子特征向量和随机潜在向量获得修改后的句子特征向量;及将所述修改后的句子特征向量输入到所述GAN模型中生成所述图像。5.如权利要求4所述的方法,其特征在于,确定所述语义掩码包括:通过自注意力生成器根据所述修改后的句子特征向量自动确定所述语义掩码。6.根据权利要求4所述的方法,其特征在于:所述GAN模型包括与多个分辨率对应的多个生成器,所述多个生成器从低分辨率到高分辨率串联排列;及使用所述GAN模型生成所述图像包括:根据所述修改后的句子特征向量和下采样到第一分辨率的所述语义掩码,使用第一生成器确定第一图像和第一隐藏特征;及根据由第i
‑
1个生成器确定的第i
‑
1个隐藏特征和具有第i个分辨率的所述语义掩码,使用第i个生成器确定具有第i个分辨率和第i个隐藏特征的第i张图像,其中,i为大于1的整数。7.根据权利要求6所述的方法,其特征在于:所述文本特征向量还包括根据所述文本中的每个词得到的词特征向量;及所述第i张图像由所述第i个生成器根据所述词特征向量确定。8.一种用于分层图像分割的设备,其特征在于,包括:存储器;及处理器,与所述存储器耦合并被配置为执行多个操作,包括:获取描述待生成图像的内容的文本;使用文本编码器从所述文本中提取文本特征向量;将语义掩码确定为所述待生成图像的空间约束;及根据所述语义掩码和所述文本特征向量,使用生成对抗网络GAN模型自动生成图像。9.如权利要求8所述的方法,其特征在于,所述语义掩码是描述所述内容的形状的二值图像。10.如权利要求8所述的方法,其特征在于,确定所述语义掩码包括:从数据集中确定预先存在的掩码作为所述语义掩码。
11.如权利要求8所述的方法,其特征在于,所述文本特征向量包括描述所述文本的整个句子的全局特征的句子特征向量;及该方法还包括:通过连接所述句子特征向量和随机潜在向量获得修改后的句子特征向量;及将所述修改后的句子特征向量输入到所述GAN模型中生成所述图像。12.如权利要求11所述的方法,其特征在于...
【专利技术属性】
技术研发人员:苟毓川,武谦成,李明昊,龚博,韩玫,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。