文本与图像对齐方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：41358226 阅读：18 留言：0更新日期：2024-05-20 10:08

本申请涉及文本生成图像技术领域，提供了一种文本与图像对齐方法、装置、电子设备及可读存储介质。该方法包括：获取文本和噪音；基于文本特征提取模块对文本进行自注意力计算和向前反馈网络计算，得到文本特征；根据文本特征和噪音基于图像生成模块得到图像特征；根据图像特征和文本特征计算损失函数，得到第一损失值；将图像特征和文本特征输入文本解码器，得到预测文本；根据预测文本，计算文本特征提取模块的损失函数，得到第二损失值；根据第一损失值和第二损失值更新文本特征提取模块和图像生成模块的参数以使待生成图像与文本对齐。本申请解决了图像生成中文本与图像对齐度不高的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像生成，尤其涉及一种文本与图像对齐方法、装置、电子设备及可读存储介质。

技术介绍

1、在通用性文本引导的图像生成
，对齐操作可以分为粗粒度对和精细化对齐。粗粒度对齐是指将整个模态信息当做对象来进行对齐操作，如整张图像对应整句话；而精细化对齐是指模态内部的子对象之间进行对齐，例如图像中的猫对应文本中的“cat”单词。不同粒度的对齐能够产生不同的效果。现有的图像生成架构stable-diffusion、dalle等，没有明确的架构去对齐文本与图像，更没有细粒度地对齐文本与图像，导致图像生成过程中经常忽略文本细节。

2、可见，现有技术存在图像生成中文本与图像对齐度不高的技术问题。

技术实现思路

1、有鉴于此，本申请实施例提供了一种文本与图像对齐方法、装置、电子设备及可读存储介质，以解决现有技术中文本与图像细粒度对齐不高的问题。

2、本申请实施例的第一方面，提供了一种文本与图像对齐方法，包括：

3、获取文本和噪音，该文本用于描述待生成图像，该噪...

【技术保护点】

1.一种文本与图像对齐方法，其特征在于，包括：

2.根据权利要求1所述的文本与图像对齐方法，其特征在于，所述图像生成模块包括图像预测模块，所述图像预测模块包括至少一个第一下采样模块和至少一个第一上采样模块，所述第一下采样模块和所述第一上采样模块均包括卷积计算层、自注意力计算层、交叉注意力计算层；

3.根据权利要求2所述的文本与图像对齐方法，其特征在于，所述图像生成模块还包括噪音预测模块，所述噪音预测模块包括至少一个第二下采样模块和至少一个第二上采样模块，所述第二下采样模块和所述第二上采样模块均包括卷积计算层、自注意力计算层、交叉注意力计算层；</p>

4.根据...

【技术特征摘要】

1.一种文本与图像对齐方法，其特征在于，包括：

3.根据权利要求2所述的文本与图像对齐方法，其特征在于，所述图像生成模块还包括噪音预测模块，所述噪音预测模块包括至少一个第二下采样模块和至少一个第二上采样模块，所述第二下采样模块和所述第二上采样模块均包括卷积计算层、自注意力计算层、交叉注意力计算层；

4.根据权利要求3所述的文本与图像对齐方法，其特征在于，通过所述第二下采样模块对应的交叉注意力计算层和所述文本特征对所述第二自注意力特征进行高级语义特征提取，得到噪音特征之后，还包括：

5.根据权利要求4所述的文本与图像对...

【专利技术属性】
技术研发人员：石雅洁，
申请(专利权)人：深圳须弥云图空间科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人