一种文本生成图像方法技术

技术编号：41762690 阅读：24 留言：0更新日期：2024-06-21 21:42

本发明专利技术公开了一种文本生成图像方法，通过将文本输入文本生成图像网络模型来生成图像，所述文本生成图像网络模型包括文本编码器，用于将输入的文本进行编码；RSSA模块，用于将编码后的文本生成图像；判别器，用于判断生成的图像与输入文本的一致性，引导生成器合成图像；对比学习模块，用于学习图像、文本、标签之间的关系；生成器，用于生成图像及训练文本编码器。本发明专利技术模型可以更好地学习图像、文本、标签之间的关系，从而可以更好地预测语义掩码；进而生成更接近输入文本语义的图像。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像生成，特别是涉及一种文本生成图像方法。

技术介绍

1、文本生成图像任务与图像分类、图像分割等单一的图像任务不同，它实现了在计算机视觉和自然语言处理两个不同领域进行跨模态研究，建立了从文本到图像的联系。文本合成图像的主要流程是自然语言模型将文本转换成语义向量，再利用图像模型生成语义一致的高质量图像。相较于单模态图像生成问题，多模态数据更具有全面性和复杂性。跨模态生成是多模态学习的常见任务，针对多源异构的复杂数据，迁移学习可以在不同模态间转化知识。近年来，基于对抗学习策略的迁移学习方法取得了优于经典迁移学习方法的性能。跨模态生成任务有助于构造完整的多模态认知场景，同时能够提高网络在不同模态间进行信息迁移、匹配与翻译的能力。现有的文本合成图像领域主要模型包括自回归模型(arm)、变分自编码器模型(vae)以及基于gan的模型。arm缺乏长期记忆不适用于复杂的模型，vae模型生成的图像模糊不真实，gan同时包含生成器和判别器，通过两者的博弈来实现逼真数据的生成。受gan的启发，近几年提出了一系列的图像生成任务，如通过语义分割图...

【技术保护点】

1.一种文本生成图像方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种文本生成图像方法，其特征在于，所述文本生成图像网络模型具体包括：

3.根据权利要求2所述的一种文本生成图像方法，其特征在于，所述文本编码器将给定的文本描述编码为文本向量和长度为18的单词特征。

4.根据权利要求2所述的一种文本生成图像方法，其特征在于，所述RSSA模块包括7个SSA模块；每个SSA模块由一个上采样模块、一个语义掩码预测器模块、一个带有残差连接的语义－空间条件批归一化模块组成。

5.根据权利要求4所述的一种文本生成图像方法，其特征在于，所述7个S...

【技术特征摘要】

1.一种文本生成图像方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种文本生成图像方法，其特征在于，所述文本生成图像网络模型具体包括：

3.根据权利要求2所述的一种文本生成图像方法，其特征在于，所述文本编码器将给定的文本描述编码为文本向量和长度为18的单词特征。

4.根据权利要求2所述的一种文本生成图像方法，其特征在于，所述rssa模块包括7个ssa模块；每个ssa模块由一个上采样模块、一个语义掩码预测器模块、一个带有残差连接的语义－空间条件批归一化模块组成。

5.根据权利要求4所述的一种文本生成图像方法，其特征在于，所述7个ssa模块中，第一个ssa模块的输入图像特征图的形状为4×4×512。

6.根据权...

【专利技术属性】
技术研发人员：钱文华，邵俊棋，徐丹，刘朋，李华光，
申请(专利权)人：云南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人