多模态图像生成方法及装置制造方法及图纸

技术编号：44491970 阅读：36 留言：0更新日期：2025-03-04 17:57

本申请提供了一种多模态图像生成方法及装置。该方法包括：将参考图像和文本描述输入多模态图像生成模型：通过图像特征提取网络提取参考图像的图像特征；通过文本编码器提取文本描述的文本特征；通过噪声图生成网络随机生成噪声图；通过注意力层处理噪声图，得到噪声特征；通过第一个交叉注意力层处理文本特征和噪声特征，得到注意力特征；通过第二个交叉注意力层处理图像特征和注意力特征，得到目标图像。采用上述技术手段，解决现有技术中，生成图像无法在保留参考图像的关键特征的基础上符合文本描述的个性化效果的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像生成，尤其涉及一种多模态图像生成方法及装置。

技术介绍

1、随着图像生成技术的飞速进步，生成个性化图像因其在人工智能肖像照片、图像动画和虚拟试穿等应用中的广泛应用潜力而受到极大关注。在这一领域，图像定制技术正面临着一个核心挑战：如何在生成过程中巧妙地结合参考图像的关键特征与文本描述的定制化要求，以创造出既忠实于参考图像又满足文本描述的个性化人脸图像。这要求算法不仅要精确捕捉并保留参考图像的关键特征，还要能够理解和执行文本描述中的定制化指令，同时确保生成的图像在视觉上与参考图像高度一致，实现自然且符合用户期望的个性化效果。

技术实现思路

1、有鉴于此，本申请实施例提供了一种多模态图像生成方法、装置、电子设备及计算机可读存储介质，以解决现有技术中生成图像无法在保留参考图像的关键特征的基础上符合文本描述的个性化效果的问题。

2、本申请实施例的第一方面，提供了一种多模态图像生成方法，包括：构建图像特征提取网络，利用图像特征提取网络、文本编码器、噪声图生成网络、注意力层和两...

【技术保护点】

1.一种多模态图像生成方法，其特征在于，包括：

2.根据权利要求1的方法，其特征在于，构建图像特征提取网络，包括：

3.根据权利要求2的方法，其特征在于，通过图像特征提取网络提取参考图像的图像特征，包括：

4.根据权利要求3的方法，其特征在于，通过第一图像编码网络处理参考图像和查询向量，得到第一图像编码特征，包括：

5.根据权利要求3的方法，其特征在于，通过第二图像编码网络处理参考图像和第一图像编码特征，得到第二图像编码特征，包括：

6.根据权利要求1的方法，其特征在于，将参考图像和文本描述输入多模态图像生成模型之前，方法还包括...

【技术特征摘要】

1.一种多模态图像生成方法，其特征在于，包括：

2.根据权利要求1的方法，其特征在于，构建图像特征提取网络，包括：

3.根据权利要求2的方法，其特征在于，通过图像特征提取网络提取参考图像的图像特征，包括：

4.根据权利要求3的方法，其特征在于，通过第一图像编码网络处理参考图像和查询向量，得到第一图像编码特征，包括：

5.根据权利要求3的方法，其特征在于，通过第二图像编码网络处理参考图像和第一图像编码特征，得到第二图像编码特征，包括：

6.根据权利要求1的方法，其特征在于，将参考图像和文...

【专利技术属性】
技术研发人员：石雅洁，
申请(专利权)人：北京龙智数科科技服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人