生成图像场景信息的方法及装置制造方法及图纸

技术编号:32358792 阅读:30 留言:0更新日期:2022-02-20 03:22
本申请公开了一种生成图像场景信息的方法及装置。方法的一具体实施方式包括:检测所获取的待处理图像中的目标对象,得到每个目标对象的检测结果和特征信息;根据每个目标对象的检测结果和特征信息,得到每个目标对象的上下文感知特征;根据待处理图像中的目标对象组中的目标对象的上下文感知特征,得到表征每个目标对象组中的目标对象之间的关系的关系特征;根据每个目标对象组对应的关系特征,生成待处理图像对应的图像场景信息。本申请对目标对象以及目标对象之间的关系进行充分建模,提高了通过关系特征所确定的图像场景信息的准确度。确度。确度。

【技术实现步骤摘要】
生成图像场景信息的方法及装置


[0001]本申请实施例涉及计算机
,具体涉及一种生成图像场景信息的方法及装置。

技术介绍

[0002]场景图生成技术是计算机理解图像信息的重要技术,主要应用于多媒体信息分析。具体来说,场景图生成技术解析输入的图像数据,获取图像中的目标对象并将分析目标对象之间的关系,从而将图像抽象为一个有向图,这种描述图像场景信息的图结构被称为场景图。现有的场景图生成方法对上下文信息的建模还不够充分,存在提升空间。

技术实现思路

[0003]本申请实施例提出了一种生成图像场景信息的方法及装置。
[0004]第一方面,本申请实施例提供了一种生成图像场景信息的方法,包括:检测所获取的待处理图像中的目标对象,得到每个目标对象的检测结果和特征信息;根据每个目标对象的检测结果和特征信息,得到每个目标对象的上下文感知特征;根据待处理图像中的目标对象组中的目标对象的上下文感知特征,得到表征每个目标对象组中的目标对象之间的关系的关系特征;根据每个目标对象组对应的关系特征,生成待处理图像对应的图像场景信息。
[0005]在一些实施例中,检测结果包括位置信息和分类信息;以及上述根据每个目标对象的检测结果和特征信息,得到每个目标对象的上下文感知特征,包括:对于每个目标对象,执行如下操作:对该目标对象的位置信息、分类信息和特征信息进行拼接,得到该目标对象的对象特征;对对象特征进行线性变换,得到变换后对象特征;通过第一注意力网络对变换后对象特征进行上下文编码,得到该目标对象的上下文感知特征。
[0006]在一些实施例中,上述根据待处理图像中的目标对象组中的目标对象的上下文感知特征,得到表征每个目标对象组中的目标对象之间的关系的关系特征,包括:对于每个目标对象组,执行如下操作:对该目标对象组中的目标对象的上下文感知特征进行拼接,得到该目标对象组的对象组特征;对对象组特征进行线性变换,得到变换后对象组特征;通过第二注意力网络对变换后对象组特征进行上下文编码,得到表征该目标对象组中的目标对象之间的关系的关系特征。
[0007]在一些实施例中,对该目标对象组中的目标对象的上下文感知特征进行拼接,得到该目标对象组的对象组特征,包括:确定待处理图像中包括该目标对象组中的目标对象的包围框信息;对该目标对象组中的目标对象的上下文感知特征和包围框信息进行拼接,得到该目标对象组的对象组特征。
[0008]在一些实施例中,上述根据每个目标对象组对应的关系特征,生成待处理图像对应的图像场景信息,包括:通过关系分类网络,根据每个目标对象组的关系特征确定每个目标对象组中的目标对象之间的关系;根据每个目标对象组中的目标对象之间的关系,生成
表征待处理图像中的场景信息的场景图。
[0009]第二方面,本申请实施例提供了一种用于生成图像场景信息的方法,包括:获取训练样本集,其中,训练样本集中的训练样本包括样本图像、表征样本图像中的目标对象的对象标签和表征样本图像中的目标对象组中的目标对象之间的关系的关系标签;检测样本图像中的目标对象,得到每个目标对象的检测结果和特征信息;通过第一注意力网络,根据每个目标对象的检测结果和特征信息,得到每个目标对象的上下文感知特征;通过第二注意力网络,根据每个目标对象组中的目标对象的上下文感知特征,得到表征每个目标对象组中的目标对象之间的关系的关系特征;以关系特征作为关系分类网络的输入,以所输入的训练样本对应的对象标签和关系标签作为关系分类网络的期望输出,训练得到包括第一注意力网络、第二注意力网络和关系分类网络的场景信息生成网络。
[0010]在一些实施例中,上述以关系特征作为关系分类网络的输入,以所输入的训练样本对应的对象标签和关系标签作为关系分类网络的期望输出,训练得到包括第一注意力网络、第二注意力网络和关系分类网络的场景信息生成网络,包括:根据训练样本集中的训练样本的分布信息,确定预测训练样本中包括的每种关系的阻力偏差;以关系特征作为关系分类网络的输入,得到分类结果;通过每种关系对应的阻力偏差修正该种关系对应的分类结果,得到修正后分类结果;基于所输入的样本图像对应的对象标签、关系标签与修正后分类结果之间的损失,训练得到场景信息生成网络。
[0011]在一些实施例中,上述根据训练样本集中的训练样本的分布信息,确定预测训练样本中包括的每种关系的阻力偏差,包括:结合用于调整阻力大小的预设超参数,根据训练样本集中的训练样本的分布信息,确定预测训练样本中包括的每种关系的阻力偏差。
[0012]在一些实施例中,上述根据训练样本集中的训练样本的分布信息,确定预测训练样本中包括的每种关系的阻力偏差,包括:根据每种关系对应的训练样本在训练样本集中所占的比例,确定每种关系对应的阻力偏差;或根据每种关系对应的目标对象组的数量的归一化结果,确定每种关系对应的阻力偏差;或对于每个目标对象组对应的每种关系,根据属于该种关系的该目标对象组涉及的训练样本,在该目标对象组涉及的所有训练样本中所占的比例,确定该目标对象组所涉及的每种关系对应的阻力偏差;或对于每个目标对象组对应的每种关系,根据属于该种关系的该目标对象组所涉及的训练样本的估计数量,在该目标对象组所涉及的训练样本的总估计数量中所占的比例,确定该目标对象组所涉及的每种关系对应的阻力偏差,其中,估计数量表征属于该种关系的该目标对象组所涉及的训练样本的一般分布信息。
[0013]在一些实施例中,估计数量通过如下方式确定:根据该种关系下的该目标对象组中的主语对象所涉及的训练样本的数量,以及该种关系下的该目标对象组中的宾语对象所涉及的训练样本的数量,确定该种关系下的该目标对象组所涉及的训练样本的估计数量。
[0014]第三方面,本申请实施例提供了一种生成图像场景信息的装置,包括:第一检测单元,被配置成检测所获取的待处理图像中的目标对象,得到每个目标对象的检测结果和特征信息;第一特征处理单元,被配置成根据每个目标对象的检测结果和特征信息,得到每个目标对象的上下文感知特征;第二特征处理单元,被配置成根据待处理图像中的目标对象组中的目标对象的上下文感知特征,得到表征每个目标对象组中的目标对象之间的关系的关系特征;生成单元,被配置成根据每个目标对象组对应的关系特征,生成待处理图像对应
的图像场景信息。
[0015]在一些实施例中,检测结果包括位置信息和分类信息;以及第一特征处理单元,进一步被配置成:对于每个目标对象,执行如下操作:对该目标对象的位置信息、分类信息和特征信息进行拼接,得到该目标对象的对象特征;对对象特征进行线性变换,得到变换后对象特征;通过第一注意力网络对变换后对象特征进行上下文编码,得到该目标对象的上下文感知特征。
[0016]在一些实施例中,第二特征处理单元,进一步被配置成:对于每个目标对象组,执行如下操作:对该目标对象组中的目标对象的上下文感知特征进行拼接,得到该目标对象组的对象组特征;对对象组特征进行线性变换,得到变换后对象组特征;通过第二注意力网络对变换后对象组特征进行上下文编码,得到表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成图像场景信息的方法,包括:检测所获取的待处理图像中的目标对象,得到每个目标对象的检测结果和特征信息;根据每个目标对象的检测结果和特征信息,得到每个目标对象的上下文感知特征;根据所述待处理图像中的目标对象组中的目标对象的上下文感知特征,得到表征每个目标对象组中的目标对象之间的关系的关系特征;根据每个目标对象组对应的关系特征,生成所述待处理图像对应的图像场景信息。2.根据权利要求1所述的方法,其中,所述检测结果包括位置信息和分类信息;以及所述根据每个目标对象的检测结果和特征信息,得到每个目标对象的上下文感知特征,包括:对于每个目标对象,执行如下操作:对该目标对象的位置信息、分类信息和特征信息进行拼接,得到该目标对象的对象特征;对所述对象特征进行线性变换,得到变换后对象特征;通过第一注意力网络对所述变换后对象特征进行上下文编码,得到该目标对象的上下文感知特征。3.根据权利要求1所述的方法,其中,所述根据所述待处理图像中的目标对象组中的目标对象的上下文感知特征,得到表征每个目标对象组中的目标对象之间的关系的关系特征,包括:对于每个目标对象组,执行如下操作:对该目标对象组中的目标对象的上下文感知特征进行拼接,得到该目标对象组的对象组特征;对所述对象组特征进行线性变换,得到变换后对象组特征;通过第二注意力网络对所述变换后对象组特征进行上下文编码,得到表征该目标对象组中的目标对象之间的关系的关系特征。4.根据权利要求3所述的方法,其中,所述对该目标对象组中的目标对象的上下文感知特征进行拼接,得到该目标对象组的对象组特征,包括:确定所述待处理图像中包括该目标对象组中的目标对象的包围框信息;对该目标对象组中的目标对象的上下文感知特征和所述包围框信息进行拼接,得到该目标对象组的对象组特征。5.根据权利要求1所述的方法,其中,所述根据每个目标对象组对应的关系特征,生成所述待处理图像对应的图像场景信息,包括:通过关系分类网络,根据每个目标对象组的关系特征确定每个目标对象组中的目标对象之间的关系;根据每个目标对象组中的目标对象之间的关系,生成表征所述待处理图像中的场景信息的场景图。6.一种用于生成图像场景信息的方法,包括:获取训练样本集,其中,所述训练样本集中的训练样本包括样本图像、表征样本图像中的目标对象的对象标签和表征样本图像中的目标对象组中的目标对象之间的关系的关系标签;
检测样本图像中的目标对象,得到每个目标对象的检测结果和特征信息;通过第一注意力网络,根据每个目标对象的检测结果和特征信息,得到每个目标对象的上下文感知特征;通过第二注意力网络,根据每个目标对象组中的目标对象的上下文感知特征,得到表征每个目标对象组中的目标对象之间的关系的关系特征;以所述关系特征作为关系分类网络的输入,以所输入的训练样本对应的对象标签和关系标签作为所述关系分类网络的期望输出,训练得到包括所述第一注意力网络、所述第二注意力网络和所述关系分类网络的场景信息生成网络。7.根据权利要求6所述的方法,其中,所述以所述关系特征作为关系分类网络的输入,以所输入的训练样本对应的对象标签和关系标签作为所述关系分类网络的期望输出,训练得到包括所述第一注意力网络、所述第二注意力网络和所述关系分类网络的场景信息生成网络,包括:根据所述训练样本集中的训练样本的分布信息,确定预测训练样本中包括的每种关系的阻力偏差;以所述关系特征作为所述关系分类网络的输入,得到分类结果;通过每种关系对应的阻力偏差修正该种关系对应的分类结果,得到修正后分类结果;基于所输入的样本图像对应的对...

【专利技术属性】
技术研发人员:詹忆冰陈超
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1