一种数据处理方法及其装置制造方法及图纸

技术编号:38656852 阅读:9 留言:0更新日期:2023-09-02 22:42
一种数据处理方法,应用于人工智能领域,包括:获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块进行加噪处理得到的图像;根据文本编码器,处理所述文本信息,得到第一特征表示;根据所述第一图像和所述第一特征表示的融合结果,通过所述扩散模型中的去噪模型,得到第二图像;所述第二图像中包括的对象满足所述文本信息指示的位置约束。本申请将表示对于生成图像中对象的位置约束的文本信息的特征表示和图像共同输入到图像生成器中,图像生成器能够更准确的得到满足文本信息中规定的几何约束的图像。满足文本信息中规定的几何约束的图像。满足文本信息中规定的几何约束的图像。

【技术实现步骤摘要】
一种数据处理方法及其装置


[0001]本申请涉及人工智能领域,尤其涉及一种数据处理方法及其装置。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]近年来,扩散模型在生成式领域取得了显著的进展和关注。尽管概率扩散模型在内容创造上表现出色,成为当前最受欢迎的生成模型之一,但在应用于感知任务(如物体检测等)的数据生成方面,仍然存在一定局限。具体来讲,在复杂感知任务的数据生成中,如物体检测、姿态估计等,需要细粒度的几何控制,例如边界框位置。然而,现有的扩散模型在这方面的表现尚不理想,难以精确地控制生成图像中物体的几何约束关系。

技术实现思路

[0004]本申请提供了一种数据处理方法,可以得到更准确的满足几何约束关系的图像。
[0005]第一方面,本申请提供了一种数据处理方法,所述方法包括:获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块进行加噪处理得到的图像;根据文本编码器,处理所述文本信息,得到第一特征表示;根据所述第一图像和所述第一特征表示的融合结果,通过所述扩散模型中的去噪模型,得到第二图像;所述第二图像中包括的对象满足所述文本信息指示的位置约束。
[0006]本申请实施例中,将表示对于生成图像中对象的位置约束的文本信息的特征表示和图像共同输入到图像生成器中,相比现有技术中仅仅将第一图像作为图像生成器的输入,本申请中图像生成器能够更准确的得到满足文本信息中规定的几何约束的图像。
[0007]此外,利用文本编码器的可迁移性,可以避免针对某一种特定的几何条件需要设计特定的条件编码网络模块,进而使得整个框架具有极强的灵活性和可扩展性。
[0008]在一种可能的实现中,所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像,所述原始图像包括所述至少一个对象,所述文本信息具体包括每个所述对象在所述原始图像中对应的检测框的大小、以及所述检测框在所述原始图像中的位置。
[0009]在一种可能的实现中,所述文本信息还包括:所述检测框中图像内容的类别、或者拍摄所述第一图像时相机的视角信息。
[0010]在一种可能的实现中,所述对象为人物上用于指示姿态的关键点。
[0011]在一种可能的实现中,所述融合结果为对所述第一图像和所述第一特征表示进行基于注意力机制的交互得到的。
[0012]第二方面,本申请提供了一种数据处理方法,所述方法包括:获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像;根据文本编码器,处理所述文本信息,得到第一特征表示;根据所述第一图像和所述第一特征表示的融合结果,通过所述扩散模型中的图像生成器,得到第二图像;根据所述第二图像和所述原始图像,确定损失,并根据所述损失更新所述文本编码器和所述去噪模型。
[0013]在一种可能的实现中,所述至少一个对象位于所述第二图像中的前景区域;所述根据所述第二图像和所述原始图像,确定损失,包括:根据所述第二图像的前景区域和所述原始图像的前景区域,确定第一损失;根据所述第二图像的背景区域和所述原始图像的背景区域,确定第二损失;将所述第一损失和所述第二损失通过加权进行融合,得到所述损失;其中,所述第一损失对应的权重大于所述第二损失对应的权重。
[0014]在一种可能的实现中,为了缓解生成图像中前景区域的不平衡问题,可以在训练过程中,对前景区域对应的损失和背景区域对应的损失进行大小的控制,帮助模型更多地关注前景物体的生成,来提高前景区域的生成效果。
[0015]在一种可能的实现中,所述至少一个对象包括第一对象和第二对象;所述第一对象位于所述第二图像中的第一前景区域,所述第二对象位于所述第二图像中的第二前景区域;所述根据所述第二图像和所述原始图像,确定损失,包括:根据所述第一前景区域和所述原始图像中与所述第一前景区域对应的前景区域,确定第一子损失;根据所述第二前景区域和所述原始图像中与所述第二前景区域对应的前景区域,确定第二子损失;将所述第一子损失和所述第二子损失通过加权进行融合,得到第一损失;其中,所述第一损失为所述损失的部分,所述第一前景区域的面积大于所述第二前景区域,所述第一子损失对应的权重小于所述第二前景区域对应的权重。
[0016]在一种可能的实现中,为了缓解生成图像中前景区域的不平衡问题,可以在训练过程中,对前景区域中的面积小的物体(或者称之为小对象)对应的损失和面积大的物体对应的损失进行大小的控制,来提高面积小的物体的生成效果。
[0017]在一种可能的实现中,所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像,所述原始图像包括所述至少一个对象,所述文本信息具体包括每个所述对象在所述原始图像中对应的检测框的大小、以及所述检测框在所述原始图像中的位置。
[0018]在一种可能的实现中,所述文本信息还包括:所述检测框中图像内容的类别、或者拍摄所述第一图像时相机的视角信息。
[0019]在一种可能的实现中,所述对象为人物上用于指示姿态的关键点。
[0020]在一种可能的实现中,所述融合结果为对所述第一图像和所述第一特征表示进行基于注意力机制的交互得到的。
[0021]第三方面,本申请提供了一种数据处理装置,所述装置包括:
[0022]获取模块,用于获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块进行加噪处理得到的图像;
[0023]处理模块,用于根据文本编码器,处理所述文本信息,得到第一特征表示;
[0024]根据所述第一图像和所述第一特征表示的融合结果,通过所述扩散模型中的去噪模型,得到第二图像;所述第二图像中包括的对象满足所述文本信息指示的位置约束。
[0025]在一种可能的实现中,所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像,所述原始图像包括所述至少一个对象,所述文本信息具体包括每个所述对象在所述原始图像中对应的检测框的大小、以及所述检测框在所述原始图像中的位置。
[0026]在一种可能的实现中,所述文本信息还包括:所述检测框中图像内容的类别、或者拍摄所述第一图像时相机的视角信息。
[0027]在一种可能的实现中,所述对象为人物上用于指示姿态的关键点。
[0028]在一种可能的实现中,所述融合结果为对所述第一图像和所述第一特征表示进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块进行加噪处理得到的图像;根据文本编码器,处理所述文本信息,得到第一特征表示;根据所述第一图像和所述第一特征表示的融合结果,通过所述扩散模型中的去噪模型,得到第二图像;所述第二图像中包括的对象满足所述文本信息指示的位置约束。2.根据权利要求1所述的方法,其特征在于,所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像,所述原始图像包括所述至少一个对象,所述文本信息具体包括每个所述对象在所述原始图像中对应的检测框的大小、以及所述检测框在所述原始图像中的位置。3.根据权利要求2所述的方法,其特征在于,所述文本信息还包括:所述检测框中图像内容的类别、或者拍摄所述第一图像时相机的视角信息。4.根据权利要求1所述的方法,其特征在于,所述对象为人物上用于指示姿态的关键点。5.根据权利要求1至4任一所述的方法,其特征在于,所述融合结果为对所述第一图像和所述第一特征表示进行基于注意力机制的交互得到的。6.一种数据处理方法,其特征在于,所述方法包括:获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像;根据文本编码器,处理所述文本信息,得到第一特征表示;根据所述第一图像和所述第一特征表示的融合结果,通过所述扩散模型中的图像生成器,得到第二图像;根据所述第二图像和所述原始图像,确定损失,并根据所述损失更新所述文本编码器和所述去噪模型。7.根据权利要求6所述的方法,其特征在于,所述至少一个对象位于所述第二图像中的前景区域;所述根据所述第二图像和所述原始图像,确定损失,包括:根据所述第二图像的前景区域和所述原始图像的前景区域,确定第一损失;根据所述第二图像的背景区域和所述原始图像的背景区域,确定第二损失;将所述第一损失和所述第二损失通过加权进行融合,得到所述损失;其中,所述第一损失对应的权重大于所述第二损失对应的权重。8.根据权利要求6或7所述的方法,其特征在于,所述至少一个对象包括第一对象和第二对象;所述第一对象位于所述第二图像中的第一前景区域,所述第二对象位于所述第二图像中的第二前景区域;所述根据所述第二图像和所述原始图像,确定损失,包括:根据所述第一前景区域和所述原始图像中与所述第一前景区域对应的前景区域,确定第一子损失;根据所述第二前景区域和所述原始图像中与所述第二前景区域对应的前景区域,确定第二子损失;将所述第一子损失和所述第二子损失通过加权进行融合,得到第一损失;其中,所述第一损失为所述损失的部分,所述第一前景区域的面积大于所述第二前景区域,所述第一子
损失对应的权重小于所述第二前景区域对应的权重。9.根据权利要求6至8任一所述的方法,其特征在于,所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像,所述原始图像包括所述至少一个对象,所述文本信息具体包括每个所述对象在所述原始图像中对应的检测框的大小、以及所述检测框在所述原始图像中的位置。10.根据权利要求9所述的方法,其特征在于,所述文本信息还包括:所述检测框中图像内容的类别、或者拍摄所述第一图像时相机的视角信息。11.一种数据处理装置,其特征在于,所述装置包括:获取模块,用于获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块进行加噪处理得到的图像;处理模块,用于根据文本编码器,处理所述文本信息,得到第一特征表示;根据所述第一图...

【专利技术属性】
技术研发人员:谢恩泽陈铠洪蓝青李震国
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1