多对象的视觉内容生成模型的训练方法、生成方法及装置制造方法及图纸

技术编号：44929442 阅读：36 留言：0更新日期：2025-04-08 19:10

本申请涉及一种多对象的视觉内容生成模型的训练方法、生成方法及装置。该训练方法包括：基于训练数据对，获取每个目标对象对应的第一局部视觉特征表示和局部文本特征表示；通过位置编码模块在每个目标对象中分别嵌入图像位置编码和文本位置编码，获得第二局部视觉特征表示和第二局部文本特征表示；将各目标对象的第二局部视觉特征表示及第二局部文本特征表示输入至交叉注意力模块及扩散模型，以使扩散模型根据交叉注意力模块输出的融合特征进行去噪；固定扩散模型的各层网络参数，迭代交叉注意力模块及位置编码模块的网络参数，获得训练好的视觉内容生成模型。本申请提供的方案，能够确保多对象生成场景中的视觉内容的一致性和控制精度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种多对象的视觉内容生成模型的训练方法、生成方法及装置。

技术介绍

1、随着人工智能技术的飞速发展，aigc(artificial intelligence generatedcontent，人工智能生成内容)在各个领域得到了广泛应用。其中，扩散模型在内容生成领域中的应用日益广泛，其强大的生成能力对设计、艺术及多媒体等行业产生了深远的影响。尤其在人物生成领域，通过基于文本的提示，用户能够根据自己的想象力生成特定的人物形象。然而，人物生成不仅仅依赖语言描述，尤其是当多个角色存在时，仅靠语言难以实现精确的视觉特征控制。

2、目前，如何在多个角色存在的文生图任务中，准确地将每个人物的视觉特征与文本提示相匹配，仍然缺乏行之有效的方案。

技术实现思路

1、为解决或部分解决相关技术中存在的问题，本申请提供一种多对象的视觉内容生成模型的训练方法、生成方法及装置，能够使训练好的视觉内容生成模型确保多对象生成场景中的视觉内容的一致性和控制精度。

2、本申请...

【技术保护点】

1.一种多对象的视觉内容生成模型的训练方法，其特征在于，所述视觉内容生成模型包括待训练的位置编码模块、待训练的交叉注意力模块、及预训练的扩散模型；其中：

2.根据权利要求1所述的训练方法，其特征在于，所述基于所述训练数据对，获取每个所述目标对象对应的第一局部视觉特征表示和第一局部文本特征表示，包括：

3.根据权利要求1所述的训练方法，其特征在于，所述位置编码模块包括图像位置编码网络及文本位置编码网络；

4.根据权利要求1所述的训练方法，其特征在于，所述交叉注意力模块包括第一注意力网络及第二注意力网络；

5.根据权利要求4所述的训练方法，其特...

【技术特征摘要】

3.根据权利要求1所述的训练方法，其特征在于，所述位置编码模块包括图像位置编码网络及文本位置编码网络；

4.根据权利要求1所述的训练方法，其特征在于，所述交叉注意力模块包括第一注意力网络及第二注意力网络；

5.根据权利要求4所述的训练方法，其特征在于，所述扩散模型包括n层特征采样层；

6.根据权利要求1所述的训练方法，其特征在于，所述损失函数包括对象总体特征相似度、对象关键特征相似度及文本和...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：北京生数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人