当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于扩散模型的场景图生成方法技术

技术编号:39256051 阅读:21 留言:0更新日期:2023-10-30 12:07
本发明专利技术涉及计算机视觉处理技术领域,提供一种基于扩散模型的场景图生成方法。该方法包括:获取包含标注信息的训练数据,获得实体候选框和关系候选框,加入噪声获得实体噪声候选框和关系噪声候选框;通过所述实体噪声候选框和所述关系噪声候选框对待处理图像进行特征抽取,获得实体特征和关系特征;构建基于所述实体特征和所述关系特征的深度学习网络并学习实体检测和关系检测的反扩散过程,获得扩散模型;通过所述扩散模型获取待处理图像的实体位置框和关系位置框,计算交并比值并按照最高的所述交并比值进行匹配获得关系三元组;基于所述关系三元组结合图结构约束生成场景图。该方法能够利用扩散模型完成灵活可拓展端到端场景图生成任务。场景图生成任务。场景图生成任务。

【技术实现步骤摘要】
一种基于扩散模型的场景图生成方法


[0001]本专利技术涉及计算机视觉处理
,尤其涉及一种基于扩散模型的场景图生成方法。

技术介绍

[0002]随着互联网时代的进步,人类生产生活中产生和记录了大量的数据,其中包含了大量的图像数据。在同等数据量的条件下,图像能够呈现远超过单纯文本所包含的信息量。一张图片可能包含数十个目标实体以及实体之间大量的关系,这些关系在视觉理解任务中可以被建模为若干“主语

谓语

宾语”三元组,基于这些建模得到的关系三元组,图像场景就能够进一步被组织为一个图结构,即场景图(Scene Graph),其中场景图的节点和边分别表示图像中的目标实例和成对物体之间的关系。场景图生成任务以图片作为输入,生成场景图,提供了对图像结构化语义的理解信息,因而能够在视觉推理方面表现出相比其他视觉理解任务更强的能力,这使得场景图在图像检索、视觉问答、图像生成和编辑等领域具有着广泛的应用前景。
[0003]除此之外,目前扩散模型在图像语义理解领域已有大量的应用,并在图像分割、图像目标检测等领域取本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于扩散模型的场景图生成方法,其特征在于,包括:S100:获取包含标注信息的训练数据,根据所述训练数据获得实体候选框和关系候选框,对所述实体候选框和所述关系候选框加入噪声,获得实体噪声候选框和关系噪声候选框;S200:通过所述实体噪声候选框和所述关系噪声候选框对待处理图像进行特征抽取,获得实体特征和关系特征;S300:构建基于所述实体特征和所述关系特征的深度学习网络,通过所述深度学习网络学习实体检测和关系检测的反扩散过程,获得扩散模型;S400:通过所述扩散模型获取待处理图像的实体位置框和关系位置框,计算所述实体位置框和所述关系位置框的交并比值并按照最高的所述交并比值进行匹配,获得关系三元组;S500:基于所述关系三元组结合图结构约束生成场景图。2.根据权利要求1所述的一种基于扩散模型的场景图生成方法,其特征在于,所述噪声为符合高斯分布的随机噪声。3.根据权利要求1所述的一种基于扩散模型的场景图生成方法,其特征在于,步骤S100包括:S110:引入场景图生成数据集,由所述场景图生成数据集选取训练数据;S120:抽取所述训练数据中的实体候选框和关系候选框;S130:将所述实体候选框和所述关系候选框由左上右下坐标的表示空间转换至中心坐标大小的表示空间,获得中心坐标大小空间下的实体候选框和关系候选框;S140:对于中心坐标大小空间下的实体候选框和关系候选框添加噪声,获得预实体噪声候选框和预关系噪声候选框;S150:将所述预实体噪声候选框和所述预关系噪声候选框由中心坐标大小的表示空间转换至左上右下坐标的表示空间,获得实体噪声候选框和关系噪声候选框。4.根据权利要求3所述的一种基于扩散模型的场景图生成方法,其特征在于,步骤S140中的添加噪声过程表示为:其中,为实体噪声候选框,为关系噪声候选框,为实体候选框的真值标注,为关系候选框的真值...

【专利技术属性】
技术研发人员:袁晓洁李伟张海威
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1