图像数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:42626020 阅读:17 留言:0更新日期:2024-09-06 01:28
本申请实施例公开了一种图像数据处理方法、装置、设备及存储介质,应用于人工智能技术,该方法包括:获取第一训练图文对,通过旁路生成网络和已训练的图像生成模型,根据图像分布文本对应文本表征和随机噪声图像的隐空间表征,生成与图像分布文本关联的预测对象图像;通过属性编辑网络,根据对象属性编辑文本对应的文本表征,在预测对象图像中对编辑对象进行对象属性编辑,得到编辑对象的初始编辑图像,对预测对象图像和初始编辑图像进行融合,得到编辑对象的预测编辑图像;根据预测编辑图像和样本编辑图像,对旁路生成网络和属性编辑网络进行迭代训练。本申请能够提高对象属性编辑的效率。

【技术实现步骤摘要】

本申请涉及人工智能技术等领域,尤其涉及一种图像数据处理方法、装置、设备及存储介质


技术介绍

1、随着基于扩散模型(stablediffusion)的生成模型的出现,图像可控生成领域取得显著进展。一些常见的应用如对对象(如物体、人物、动物)进行不常见的创意编辑让其呈现各种对象属性(如猫头上长角、人物长兔耳朵)。实践中发现,目前的对象属性编辑方案中,需要人工交互以标记图像中需要进行对象属性编辑的对象的位置,然后通过训练模型对该位置息进行重新生成,这样操作比较繁琐,导致对象属性编辑的效率比较低。


技术实现思路

1、本申请实施例提供一种图像数据处理方法、装置、设备及存储介质,提高对象属性编辑的效率。

2、本申请实施例一方面提供一种图像数据处理方法,包括:

3、获取第一训练图文对,上述第一训练图文对包括编辑对象的样本编辑图像,以及上述样本编辑图像对应的图像分布文本和对象属性编辑文本,上述图像分布文本描述上述样本编辑图像中所包含的对象,上述样本编辑图像中所包含的对象包括上述编辑对象,上述对象属性本文档来自技高网...

【技术保护点】

1.一种图像数据处理方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述已训练的图像生成模型包括加噪网络和去噪网络;

3.如权利要求2所述的方法,其特征在于,所述通过所述去噪网络和所述旁路生成网络,根据属性编辑网络在前T-1次迭代分别对应的候选编辑图像,对所述图像分布文本对应文本表征和所述带噪隐空间表征进行T次迭代,得到所述T次迭代分别对应的预测对象图像,包括:

4.如权利要求3所述的方法,其特征在于,所述去噪网络包括第一参数矩阵,所述旁路生成网络包括第二参数矩阵和第三参数矩阵,所述第二参数矩阵的参数量和所述第三参数矩阵的参数量均小于...

【技术特征摘要】

1.一种图像数据处理方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述已训练的图像生成模型包括加噪网络和去噪网络;

3.如权利要求2所述的方法,其特征在于,所述通过所述去噪网络和所述旁路生成网络,根据属性编辑网络在前t-1次迭代分别对应的候选编辑图像,对所述图像分布文本对应文本表征和所述带噪隐空间表征进行t次迭代,得到所述t次迭代分别对应的预测对象图像,包括:

4.如权利要求3所述的方法,其特征在于,所述去噪网络包括第一参数矩阵,所述旁路生成网络包括第二参数矩阵和第三参数矩阵,所述第二参数矩阵的参数量和所述第三参数矩阵的参数量均小于所述第一参数矩阵的参数量;

5.如权利要求2所述的方法,其特征在于,所述属性编辑网络包括对象定位子网络、属性生成子网络、属性编辑子网络;所述对象属性编辑文本包括编辑对象文本、编辑属性文本以及对象属性文本;

6.如权利要求5所述的方法,其特征在于,所述对象定位子网络包括原始对象定位层、旁路对象定位层和对象掩膜层;

7.如权利要求6所述的方法,其特征在于,所述通过所述旁路对象定位层,根据所述编辑对象文本对应的文本表征,对所述编辑对象在所述第i次迭代对应的预测对象图像中的图像区域进行激活处理,得到第二激活对象图像,包括:

8.如权利要求6所述的方法,其特征在于,所述通过所述对象掩膜层,根据所述第i次迭代对应的预测对象图像,对所述编辑对...

【专利技术属性】
技术研发人员:郭卉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1