一种文本生成图像的方法、装置、计算设备和存储介质制造方法及图纸

技术编号：40147599 阅读：7 留言：0更新日期：2024-01-24 00:36

本发明专利技术公开了一种文本生成图像的方法、装置、计算设备和存储介质，通过将文本信息编码成语义特征向量；对语义特征向量进行位置编码处理，生成文本信息对应的位置信息，并对位置信息进行损失计算得到位置损失；利用多个生成器和多个位置图像语义集成器，对语义特征向量和位置信息进行处理，得到初始生成图像；对初始生成图像进行损失计算得到图像损失，依据图像损失和位置损失确定最终训练损失；基于最终训练损失调整多个生成器的参数，输出得到文本生成图像模型。本发明专利技术在图像生成阶段对生成图像中目标的相对位置进行修正，及时微调生成图像，提升复杂场景图像生成的语义一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通信，具体涉及一种文本生成图像的方法、装置、计算设备和存储介质。

技术介绍

1、文本生成图像是融合文本和图像相关领域的图像生成方法，通过文本生成图像网络将输入的一段描述性文本进行编码成语义向量，再通过神经网络将语义向量解码为高维图像。文本生成图像主要采用的是生成对抗网络的结构实现的，包括：文本编码器、图像层级生成器和图像层级判别器等；在生成对抗网络训练过程中，输入文本通过文本编码器编码为对应的特征向量，通过不同大小的层级生成器生成相对应的图片，再通过对应大小的层级判别器判别图像的真伪，以此来约束和促进网络生成更清晰、更真实的图片。

2、现有技术中文本生成图像方法主要有两方面需要改进：一是提升生成图像的清晰度和多样性；二是提升输入文本和生成图像的语义一致性。针对第一个方面，通过堆叠更深的层级生成器能够很好地增加生成图像的清晰度。通过在条件生成器中随机叠加噪声，能够增加生成图像的多样性。针对第二个方面，大多数主流主要是采用对文本和图像计算不同的跨模态注意力图谱，再将注意力权重加权到生成的图像特征图谱的方式进行融合，从而增加文本和图像的语义一致性。

3、针对复杂场景，仅仅采用注意力权重加权难以适用于对复杂场景的实例相对位置关系的生成，因为在长句描述下，文本难以有效地转换到图像域的语义空间，从而导致了空间场景的生成失误。目前针对复杂场景的实例相对位置，主要采取的是通过标注好的相对框进行图像到图像的对应生成，尚未有针对文本在复杂场景中实例相对位置的生成。在复杂场景的长句描述中难以挖掘长句文本中目标的关

技术实现思路

1、鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本生成图像的方法、装置、计算设备和存储介质。

2、根据本专利技术的一个方面，提供了一种文本生成图像的方法，包括：

3、将文本信息通过文本编码器编码成语义特征向量；

4、对所述语义特征向量进行位置编码处理，生成所述文本信息对应的位置信息，并对所述位置信息进行损失计算得到位置损失；

5、利用多个生成器和多个位置图像语义集成器，对所述语义特征向量和所述位置信息进行处理，得到初始生成图像；

6、对所述初始生成图像进行损失计算得到图像损失，依据所述图像损失和所述位置损失确定最终训练损失；

7、基于所述最终训练损失调整所述多个生成器的参数，输出得到文本生成图像模型，根据所述文本生成图像模型，依据输入的文本信息生成最终生成图像。

8、根据本专利技术的另一方面，提供了一种文本生成图像的装置，包括：

9、文本编码模块，用于将文本信息通过文本编码器编码成语义特征向量；

10、位置信息确定模块，用于对所述语义特征向量进行位置编码处理，生成所述文本信息对应的位置信息，并对所述位置信息进行损失计算得到位置损失；

11、初始图像生成模块，用于利用多个生成器和多个位置图像语义集成器，对所述语义特征向量和所述位置信息进行处理，得到初始生成图像；

12、损失计算模块，用于对所述初始生成图像进行损失计算得到图像损失，依据所述图像损失和所述位置损失确定最终训练损失；

13、模型生成模块，用于基于所述最终训练损失调整所述多个生成器的参数，输出得到文本生成图像模型，根据所述文本生成图像模型，依据输入的文本信息生成最终生成图像。

14、根据本专利技术的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

15、所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述一种文本生成图像的方法对应的操作。

16、根据本专利技术的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述一种文本生成图像的方法对应的操作。

17、根据本专利技术的一种文本生成图像的方法、装置、计算设备和存储介质，通过将文本信息通过文本编码器编码成语义特征向量；对语义特征向量进行位置编码处理，生成文本信息对应的位置信息，并对位置信息进行损失计算得到位置损失；利用多个生成器和多个位置图像语义集成器，对语义特征向量和位置信息进行处理，得到初始生成图像；对初始生成图像进行损失计算得到图像损失，依据图像损失和位置损失确定最终训练损失；基于最终训练损失调整多个生成器的参数，输出得到文本生成图像模型。本专利技术考虑到复杂场景中文本描述和图像中的语义空间距离，对文本信息进行位置特征提取，通过位置信息挖掘文本信息的相对距离和关联关系，提高位置编码的有效性；另外，利用多个生成器和多个位置图像语义集成器，将位置编码与图像语义集成器联合，能够在图像生成阶段对生成图像中目标的相对位置进行修正，及时微调生成图像，从而提升复杂场景图像生成的语义一致性。

18、上述说明仅是本专利技术技术方案的概述，为了能够更清楚了解本专利技术的技术手段，而可依照说明书的内容予以实施，并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本专利技术的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种文本生成图像的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语义特征向量包括：词特征向量和句特征向量；

3.根据权利要求2所述的方法，其特征在于，所述多个生成器包括：第一阶段生成器、第二阶段生成器和第三阶段生成器；所述多个位置图像语义集成器包括：第一位置图像语义集成器和第二位置图像语义集成器；

4.根据权利要求3所述的方法，其特征在于，所述位置图像语义集成器的集成处理过程包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述图像损失包括：判别损失和相似度损失；

6.根据权利要求1-5任一项中所述的方法，其特征在于，对所述位置信息进行损失计算得到位置损失进一步包括：

7.一种文本生成图像的装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述语义特征向量包括：词特征向量和句特征向量；

9.一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；</p>

10.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-6中任一项所述的一种文本生成图像的方法对应的操作。

...

【技术特征摘要】

1.一种文本生成图像的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语义特征向量包括：词特征向量和句特征向量；

4.根据权利要求3所述的方法，其特征在于，所述位置图像语义集成器的集成处理过程包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述图像损失包括：判别损失和相似度损失；

6.根据权利要求...

【专利技术属性】
技术研发人员：许一宁，毛思颖，王恬，陈澜涛，
申请(专利权)人：中国移动通信集团浙江有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人