一种基于细粒度语义融合的文本图像生成方法及系统技术方案

技术编号:35483573 阅读:18 留言:0更新日期:2022-11-05 16:35
本发明专利技术公开了一种基于细粒度语义融合的文本图像生成方法及系统,应用于计算机视觉和自然语言处理技术领域,其方法主要包括两个阶段:初始图像生成阶段和基于细粒度语义融合的细化阶段;首先从输入文本描述中提取两种粒度的语义表示,即句级和词级语义特征,并根据句级的语义特征生成模糊的低分辨率图像,之后,我们将细粒度的词级语义特征融合到视觉特征图中,并将融合后的特征与全局的句级上下文特征相结合,生成更高分辨率的清晰图像;本发明专利技术采用了一种新的细粒度融合模块,从而更充分、高效地融合文本和图像特征,并通过全局语义细化模块保证了全局语义的一致性,能够准确识别文本信息并生成符合文本语义的逼真图像。文本信息并生成符合文本语义的逼真图像。文本信息并生成符合文本语义的逼真图像。

【技术实现步骤摘要】
一种基于细粒度语义融合的文本图像生成方法及系统


[0001]本专利技术涉及计算机视觉和自然语言处理
,更具体的说是涉及一种基于细粒度语义融合的文本图像生成方法及系统。

技术介绍

[0002]文本到图像合成是计算机视觉和自然语言处理领域中最重要和最具挑战性的任务之一,其旨在从给定的文本描述生成视觉逼真且符合文本语义的图像,大多数文本生成图像方法采用多阶段生成的方式来获得高质量的图像,首先生成低分辨率图像,然后对模糊的低分辨率图像进行细化,生成高分辨率图像。尽管传统方法在生成高质量图像方面获得了巨大的成功,但大多数方法在生成过程中对文本和图像信息的融合不够高效,通常合成的图像要么视觉效果不理想,要么与给定的文本语义不匹配,尤其是当给定的文本语义较复杂时。
[0003]现有的技术方案中,基于注意力机制的文本生成图像模型(Attn

GAN)采用注意力机制融合文本和图像的特征,通过对文本和图像特征的融合,细化后的图像可以与文本保持语义一致性,然而,与文本相对应的图像子区域的语义水平相对较低,具有高级语义的自然语言特征很难直接控制这些视觉特征,因此图像的生成过程无法以细粒度的方式直接控制;基于语义分解的文本生成图像模型(SD

GAN)采用条件批量规范化在视觉特征图中注入文本信息,然而,对图像的特征图进行批量归一化可能会导致视觉特征多样性的损失。
[0004]总的来说,现有的文本图像融合方法不能充分地将文本融合到视觉特征中,同时,生成阶段的条件约束不足也会导致生成的图像和文本之间的语义错位,如何充分地将文本融合到视觉特征中,从而根据给定的文本条件生成语义一致的图像是本领域技术人员亟需解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种基于细粒度语义融合的文本图像生成方法及系统,可以充分而有效地添加到相应的图像子区域中,在细化过程中引入了全局语义约束并结合细粒度融合模块,能够逐步平稳地驱动生成器实现全局和局部的细粒度语义对齐。
[0006]为了实现上述目的,本专利技术提供如下技术方案:
[0007]一种基于细粒度语义融合的文本图像生成方法,包括以下步骤:
[0008]S1、将文本输入文本编码器中,生成句级特征和词级特征;
[0009]S2、通过条件增强函数对句级特征进行增强得到增广句级语义向量,将从正态分布中采样的噪声向量与增广句级语义向量拼接;
[0010]S3、将拼接后的向量输入至第一生成器生成初始图像;
[0011]S4、将初始图像特征和词级特征输入至细粒度融合模块,得到跨模态融合特征;
[0012]S5、将初始图像特征和增广句级语义向量输入至全局语义细化模块,得到句级上下文特征;
[0013]S6、基于句级上下文特征与跨模态融合特征生成目标图像。
[0014]优选的,所述S1具体为:
[0015]文本编码器采用双向长短期记忆网络对输入文本的语义表示进行句级和词级的编码,得到句级特征和词级特征。
[0016]优选的,所述S4具体为:
[0017]S41、将词级特征转换到初始图像特征所在的语义空间,计算初始图像特征和词级特征之间的相似度得分,对词级特征和相似度得分进行内积,得到词级上下文特征;
[0018]S42、进行词级上下文特征和初始图像特征之间的融合,得到跨模态融合特征。
[0019]优选的,所述S5具体为:
[0020]将增广句级语义向量转换到初始图像特征所在的语义空间,计算初始图像特征和增广句级语义向量的相似度得分,对增广句级语义向量和相似度得分进行内积,获得句级上下文特征。
[0021]优选的,所述S6具体为:
[0022]S61、将句级上下文特征与跨模态融合特征进行拼接,得到中间图像特征;
[0023]S62、将中间图像特征输入至第二生成器中,得到目标图像。
[0024]优选的,所述S6之后还包括:
[0025]S7、将目标图像特征作为新的图像特征,重复S4

S6,得到优化图像。
[0026]优选的,所述S7之后还包括:
[0027]S8、将初始图像、目标图像、优化图像输入至判别器中,对第一生成器、第二生成器、判别器进行更新。
[0028]一种基于细粒度语义融合的文本图像生成系统,包括:文本编码器、条件增强模块、拼接模块、第一生成器、全局语义细化模块、细粒度融合模块、第二生成器;
[0029]所述文本编码器用于从输入文本中提取句级特征和词级特征;所述条件增强模块用于增强句级特征得到增广句级语义向量;所述拼接模块将增广句级语义向量与从正态分布中采样的噪声向量拼接;所述第一生成器基于拼接后的向量生成初始图像;所述全局语义细化模块基于初始图像特征和增广句级语义向量输出句级上下文特征;所述细粒度融合模块基于初始图像特征和词级特征输出跨模态融合特征;所述第二生成器基于句级上下文特征和跨模态融合特征输出目标图像和优化图像。
[0030]优选的,还包括判别器,所述判别器基于初始图像、目标图像、优化图像对文本图像生成系统进行更新。
[0031]经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种基于细粒度语义融合的文本图像生成方法及系统,具有以下有益效果:能够更加细粒度地利用文本信息,以生成更真实且符合给定文本语义的图像;采用了一种新的细粒度融合模块,从而更充分、高效地融合文本和图像特征,并通过全局语义精化模块保证了全局语义的一致性;能够准确识别文本信息并生成符合文本语义的逼真图像。
附图说明
[0032]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0033]图1为本专利技术一个实施例的方法流程图;
[0034]图2为本专利技术另一个实施例的方法流程图;
[0035]图3为本专利技术的系统示意图。
具体实施方式
[0036]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0037]实施例一:
[0038]一种基于细粒度语义融合的文本图像生成方法,如图1所示,包括以下步骤:
[0039]S1、将文本输入文本编码器中,生成句级特征和词级特征;
[0040]S2、通过条件增强函数对句级特征进行增强得到增广句级语义向量,将从正态分布中采样的噪声向量与增广句级语义向量拼接;
[0041]S3、将拼接后的向量输入至第一生成器生成初始图像;
...

【技术保护点】

【技术特征摘要】
1.一种基于细粒度语义融合的文本图像生成方法,其特征在于,包括以下步骤:S1、将文本输入文本编码器中,生成句级特征和词级特征;S2、通过条件增强函数对句级特征进行增强得到增广句级语义向量,将从正态分布中采样的噪声向量与增广句级语义向量拼接;S3、将拼接后的向量输入至第一生成器生成初始图像;S4、将初始图像特征和词级特征输入至细粒度融合模块,得到跨模态融合特征;S5、将初始图像特征和增广句级语义向量输入至全局语义细化模块,得到句级上下文特征;S6、基于句级上下文特征与跨模态融合特征生成目标图像。2.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法,其特征在于,所述S1具体为:文本编码器采用双向长短期记忆网络对输入文本的语义表示进行句级和词级的编码,得到句级特征和词级特征。3.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法,其特征在于,所述S4具体为:S41、将词级特征转换到初始图像特征所在的语义空间,计算初始图像特征和词级特征之间的相似度得分,对词级特征和相似度得分进行内积,得到词级上下文特征;S42、进行词级上下文特征和初始图像特征之间的融合,得到跨模态融合特征。4.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法,其特征在于,所述S5具体为:将增广句级语义向量转换到初始图像特征所在的语义空间,计算初始图像特征和增广句级语义向量的相似度得分,对增广句级语义向量和相似度得分进行内积,获得句级上下文特征。5.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成...

【专利技术属性】
技术研发人员:王杨孙浩然刘海鹏钱彪汪萌
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1