【技术实现步骤摘要】
一种数据处理方法及其装置
[0001]本申请涉及人工智能领域,尤其涉及一种数据处理方法及其装置。
技术介绍
[0002]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]近年来,扩散模型在生成式领域取得了显著的进展和关注。尽管概率扩散模型在内容创造上表现出色,成为当前最受欢迎的生成模型之一,但在应用于感知任务(如物体检测等)的数据生成方面,仍然存在一定局限。具体来讲,在复杂感知任务的数据生成中,如物体检测、姿态估计等,需要细粒度的几何控制,例如边界框位置。然而,现有的扩散模型在这方面的表现尚不理想,难以精确地控制生成图像中物体的几何约束关系。
技术实现思路
[0004]本申请提供了一种数据处理方法,可以得到更准确的满足几何约束关系的图像。
[0005]第一方面,本申请提供了一种数据处理方法,所述方法包括:获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块进行加噪处理得到的图像;根据文本编码器,处理所述文本信息,得到第一特征表示;根据所述第一图像和所述第一特征表 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块进行加噪处理得到的图像;根据文本编码器,处理所述文本信息,得到第一特征表示;根据所述第一图像和所述第一特征表示的融合结果,通过所述扩散模型中的去噪模型,得到第二图像;所述第二图像中包括的对象满足所述文本信息指示的位置约束。2.根据权利要求1所述的方法,其特征在于,所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像,所述原始图像包括所述至少一个对象,所述文本信息具体包括每个所述对象在所述原始图像中对应的检测框的大小、以及所述检测框在所述原始图像中的位置。3.根据权利要求2所述的方法,其特征在于,所述文本信息还包括:所述检测框中图像内容的类别、或者拍摄所述第一图像时相机的视角信息。4.根据权利要求1所述的方法,其特征在于,所述对象为人物上用于指示姿态的关键点。5.根据权利要求1至4任一所述的方法,其特征在于,所述融合结果为对所述第一图像和所述第一特征表示进行基于注意力机制的交互得到的。6.一种数据处理方法,其特征在于,所述方法包括:获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像;根据文本编码器,处理所述文本信息,得到第一特征表示;根据所述第一图像和所述第一特征表示的融合结果,通过所述扩散模型中的图像生成器,得到第二图像;根据所述第二图像和所述原始图像,确定损失,并根据所述损失更新所述文本编码器和所述去噪模型。7.根据权利要求6所述的方法,其特征在于,所述至少一个对象位于所述第二图像中的前景区域;所述根据所述第二图像和所述原始图像,确定损失,包括:根据所述第二图像的前景区域和所述原始图像的前景区域,确定第一损失;根据所述第二图像的背景区域和所述原始图像的背景区域,确定第二损失;将所述第一损失和所述第二损失通过加权进行融合,得到所述损失;其中,所述第一损失对应的权重大于所述第二损失对应的权重。8.根据权利要求6或7所述的方法,其特征在于,所述至少一个对象包括第一对象和第二对象;所述第一对象位于所述第二图像中的第一前景区域,所述第二对象位于所述第二图像中的第二前景区域;所述根据所述第二图像和所述原始图像,确定损失,包括:根据所述第一前景区域和所述原始图像中与所述第一前景区域对应的前景区域,确定第一子损失;根据所述第二前景区域和所述原始图像中与所述第二前景区域对应的前景区域,确定第二子损失;将所述第一子损失和所述第二子损失通过加权进行融合,得到第一损失;其中,所述第一损失为所述损失的部分,所述第一前景区域的面积大于所述第二前景区域,所述第一子
损失对应的权重小于所述第二前景区域对应的权重。9.根据权利要求6至8任一所述的方法,其特征在于,所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像,所述原始图像包括所述至少一个对象,所述文本信息具体包括每个所述对象在所述原始图像中对应的检测框的大小、以及所述检测框在所述原始图像中的位置。10.根据权利要求9所述的方法,其特征在于,所述文本信息还包括:所述检测框中图像内容的类别、或者拍摄所述第一图像时相机的视角信息。11.一种数据处理装置,其特征在于,所述装置包括:获取模块,用于获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块进行加噪处理得到的图像;处理模块,用于根据文本编码器,处理所述文本信息,得到第一特征表示;根据所述第一图...
【专利技术属性】
技术研发人员:谢恩泽,陈铠,洪蓝青,李震国,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。