一种基于细粒度语义融合的文本图像生成方法及系统技术方案

技术编号：35483573 阅读：18 留言：0更新日期：2022-11-05 16:35

本发明专利技术公开了一种基于细粒度语义融合的文本图像生成方法及系统，应用于计算机视觉和自然语言处理技术领域，其方法主要包括两个阶段：初始图像生成阶段和基于细粒度语义融合的细化阶段；首先从输入文本描述中提取两种粒度的语义表示，即句级和词级语义特征，并根据句级的语义特征生成模糊的低分辨率图像，之后，我们将细粒度的词级语义特征融合到视觉特征图中，并将融合后的特征与全局的句级上下文特征相结合，生成更高分辨率的清晰图像；本发明专利技术采用了一种新的细粒度融合模块，从而更充分、高效地融合文本和图像特征，并通过全局语义细化模块保证了全局语义的一致性，能够准确识别文本信息并生成符合文本语义的逼真图像。文本信息并生成符合文本语义的逼真图像。文本信息并生成符合文本语义的逼真图像。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于细粒度语义融合的文本图像生成方法及系统

[0001]本专利技术涉及计算机视觉和自然语言处理
，更具体的说是涉及一种基于细粒度语义融合的文本图像生成方法及系统。

技术介绍

[0002]文本到图像合成是计算机视觉和自然语言处理领域中最重要和最具挑战性的任务之一，其旨在从给定的文本描述生成视觉逼真且符合文本语义的图像，大多数文本生成图像方法采用多阶段生成的方式来获得高质量的图像，首先生成低分辨率图像，然后对模糊的低分辨率图像进行细化，生成高分辨率图像。尽管传统方法在生成高质量图像方面获得了巨大的成功，但大多数方法在生成过程中对文本和图像信息的融合不够高效，通常合成的图像要么视觉效果不理想，要么与给定的文本语义不匹配，尤其是当给定的文本语义较复杂时。
[0003]现有的技术方案中，基于注意力机制的文本生成图像模型(Attn
‑
GAN)采用注意力机制融合文本和图像的特征，通过对文本和图像特征的融合，细化后的图像可以与文本保持语义一致性，然而，与文本相对应的图像子区域的语义水平相对较低，具有高级语义的自然语言特征很难直接控制这些视觉特征，因此图像的生成过程无法以细粒度的方式直接控制；基于语义分解的文本生成图像模型(SD
‑
GAN)采用条件批量规范化在视觉特征图中注入文本信息，然而，对图像的特征图进行批量归一化可能会导致视觉特征多样性的损失。
[0004]总的来说，现有的文本图像融合方法不能充分地将文本融合到视觉特征中，同时，生成阶段的条件约束不足也会导致生成的图像

【技术保护点】

【技术特征摘要】
1.一种基于细粒度语义融合的文本图像生成方法，其特征在于，包括以下步骤：S1、将文本输入文本编码器中，生成句级特征和词级特征；S2、通过条件增强函数对句级特征进行增强得到增广句级语义向量，将从正态分布中采样的噪声向量与增广句级语义向量拼接；S3、将拼接后的向量输入至第一生成器生成初始图像；S4、将初始图像特征和词级特征输入至细粒度融合模块，得到跨模态融合特征；S5、将初始图像特征和增广句级语义向量输入至全局语义细化模块，得到句级上下文特征；S6、基于句级上下文特征与跨模态融合特征生成目标图像。2.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法，其特征在于，所述S1具体为：文本编码器采用双向长短期记忆网络对输入文本的语义表示进行句级和词级的编码，得到句级特征和词级特征。3.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法，其特征在于，所述S4具体为：S41、将词级特征转换到初始图像特征所在的语义空间，计算初始图像特征和词级特征之间的相似度得分，对词级特征和相似度得分进行内积，得到词级上下文特征；S42、进行词级上下文特征和初始图像特征之间的融合，得到跨模态融合特征。4.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成方法，其特征在于，所述S5具体为：将增广句级语义向量转换到初始图像特征所在的语义空间，计算初始图像特征和增广句级语义向量的相似度得分，对增广句级语义向量和相似度得分进行内积，获得句级上下文特征。5.根据权利要求1所述的一种基于细粒度语义融合的文本图像生成...

【专利技术属性】
技术研发人员：王杨，孙浩然，刘海鹏，钱彪，汪萌，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人