交互关系检测方法、模型训练方法、设备及存储介质技术

技术编号:32640753 阅读:17 留言:0更新日期:2022-03-12 18:16
本申请实施例提供一种交互关系检测方法、模型训练方法、设备及存储介质。其中,方法包括如下的步骤:获取待检测图像;利用训练过的交互关系检测模型对所述待检测图像进行交互关系检测;其中,所述交互关系检测模型,用于:根据所述待检测图像,确定所述待检测图像中多个目标的视觉特征;对所述多个目标的视觉特征进行特征融合,得到所述多个目标各自的融合后视觉特征;根据所述多个目标中第一目标和第二目标各自的融合后视觉特征,对所述第一目标和所述第二目标进行交互关系检测,得到第一交互关系检测结果。本申请实施例提供的交互关系检测方案的检测准确率高。方案的检测准确率高。方案的检测准确率高。

【技术实现步骤摘要】
交互关系检测方法、模型训练方法、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种交互关系检测方法、模型训练方法、设备及存储介质。

技术介绍

[0002]近年来,目标检测技术和目标分类技术取得了较大进展。但是,图像所涉及的场景信息是无法通过基础的目标检测和目标分类方法进行判断,需要更深层次的语义识别才能实现,比如:违规遛狗、游商小贩经营人识别,等等。为了了解到图像中的场景信息,也就需要认识到图像中各个目标之间是如何互动的。交互关系检测是一种针对图像中多个目标之间的交互关系的高语义、细粒度的理解任务,目的是识别出图片中发生交互关系的三元组<目标1,关系,目标2>。其中,目标可以为物体(例如物品、动物、植物等),也可以为人物。人物交互关系检测(Human

object interaction,HOI)是交互关系检测中的重要分支,在人物交互关系检测中,目标分别为人与物体。
[0003]目前,现有的交互关系检测方法存在检测结果准确性较低的问题。

技术实现思路

[0004]鉴于上述问题,提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的交互关系检测方法、模型训练方法、设备及存储介质。
[0005]于是,在本申请的一个实施例中,提供了一种交互关系检测方法。该方法包括:
[0006]获取待检测图像;
[0007]利用训练过的交互关系检测模型对所述待检测图像进行交互关系检测;
[0008]其中,所述交互关系检测模型,用于:根据所述待检测图像,确定所述待检测图像中多个目标的视觉特征;对所述多个目标的视觉特征进行特征融合,得到所述多个目标各自的融合后视觉特征;根据所述多个目标中第一目标和第二目标各自的融合后视觉特征,对所述第一目标和所述第二目标进行交互关系检测,得到第一交互关系检测结果。
[0009]在本申请的又一实施例中,提供了一种模型训练方法,其中,包括:
[0010]获取带有交互关系标签的样本图像;
[0011]利用交互关系检测模型对所述样本图像进行交互关系检测,得到目标样本交互关系检测结果;
[0012]根据所述目标样本交互关系检测结果以及所述交互关系标签,对所述交互关系检测模型进行参数优化;
[0013]其中,所述交互关系检测模型,用于:根据所述样本图像,确定所述样本图像中多个样本目标的样本视觉特征;对所述多个样本目标的样本视觉特征进行特征融合,得到所述多个样本目标各自的融合后样本视觉特征;根据所述多个样本目标中第一样本目标和第二样本目标各自的融合后样本视觉特征,对所述第一样本目标和所述第二样本目标进行交互关系检测,得到第一样本交互关系检测结果;所述目标样本交互关系检测结果是根据所
述第一样本交互关系检测结果确定的。
[0014]在本申请的又一实施例中,提供了一种交互关系检测方法,其中,包括:
[0015]获取交通摄像设备拍摄的交通图像;所述交通图像中包括多个目标;所述多个目标包括第一人物和第一车辆;
[0016]利用训练过的交互关系检测模型对所述交通图像进行交互关系检测;
[0017]其中,所述交互关系检测模型,用于:根据所述交通图像,确定所述交通图像中多个目标的视觉特征;对所述多个目标的视觉特征进行特征融合,得到所述多个目标各自的融合后视觉特征;根据所述第一人物和所述第一车辆各自的融合后视觉特征,对所述第一人物和所述第一车辆进行交互关系检测,得到第一交互关系检测结果。
[0018]在本申请的又一实施例中,提供了一种电子设备,其中,包括:存储器和处理器,其中,
[0019]所述存储器,用于存储程序;
[0020]所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现上述任一项所述的交互关系检测方法或上述模型训练方法。
[0021]在本申请的又一实施例中,提供了一种存储有计算机程序的计算机可读存储介质,其中,所述计算机程序被计算机执行时能够实现上述任一项所述的交互关系检测方法或上述模型训练方法。
[0022]本申请实施例提供的技术方案中,交互关系检测模型会对多个目标的视觉特征进行特征融合,得到多个目标各自的融合后视觉特征。这样,每个目标的融合后视觉特征中不仅仅包含自己的视觉特征,还会融合进图像中其他目标的视觉特征,使得每个目标的融合后视觉特征具有对目标更好的表达能力,从而实现了从全局角度对两个目标之间的交互关系进行识别,可提高交互关系检测准确性。
附图说明
[0023]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1a为本申请一实施例提供的交互关系检测方法的流程示意图;
[0025]图1b为本申请又一实施例提供的交互关系检测方法的流程示意图;
[0026]图2a为本申请一实施例提供的模型训练方法的流程示意图;
[0027]图2b为本申请又一实施例提供的模型训练方法的流程示意图;
[0028]图3为本申请一实施例提供的方法示例图;
[0029]图4为本申请另一实施例提供的交互关系检测方法的流程示意图;
[0030]图5为本申请一实施例提供的电子设备的结构框图。
具体实施方式
[0031]目前,交互关系检测方案是通过对图像进行目标检测,再根据目标检测结果对目标进行配对,再对配对的两个目标进行交互关系检测。
[0032]专利技术人通过研究发现,现有的交互关系检测方案中并没有从全局的角度对两个目标进行关系识别,即在识别图像中两个目标之间的交互关系时,并没有去借鉴图像中其他目标的特征。为了提高交互关系检测结果的准确性,本申请实施例提出从全局的角度对两个目标进行关系识别。具体地,交互关系检测模型会对多个目标的视觉特征进行特征融合,得到多个目标各自的融合后视觉特征。这样,每个目标的融合后视觉特征中不仅仅包含自己的视觉特征,还会融合进图像中其他目标的视觉特征,使得每个目标的融合后视觉特征具有对目标更好的表达能力,从而实现了从全局角度对两个目标之间的交互关系进行识别,可提高交互关系检测准确性。
[0033]为了使本
的人员更好地理解本申请方案,下面将根据本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0034]此外,在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交互关系检测方法,其中,包括:获取待检测图像;利用训练过的交互关系检测模型对所述待检测图像进行交互关系检测;其中,所述交互关系检测模型,用于:根据所述待检测图像,确定所述待检测图像中多个目标的视觉特征;对所述多个目标的视觉特征进行特征融合,得到所述多个目标各自的融合后视觉特征;根据所述多个目标中第一目标和第二目标各自的融合后视觉特征,对所述第一目标和所述第二目标进行交互关系检测,得到第一交互关系检测结果。2.根据权利要求1所述的方法,其中,所述交互关系检测模型中包括第一自注意力网络;所述第一自注意力网络用于对所述多个目标的视觉特征进行特征融合,得到所述多个目标各自的融合后视觉特征。3.根据权利要求1或2所述的方法,其中,所述交互关系检测模型,还用于:根据所述待检测图像中所述第一目标和所述第二目标的位置信息,确定所述第一目标与所述第二目标的空间特征;根据所述第一目标和所述第二目标各自的视觉特征,确定所述第一目标与所述第二目标的组合视觉特征;根据所述组合视觉特征和所述空间特征,对所述第一目标和所述第二目标进行交互关系检测,得到第二交互关系检测结果;根据所述第一交互关系检测结果以及所述第二交互关系检测结果,确定目标交互关系检测结果。4.根据权利要求3所述的方法,其中,根据所述组合视觉特征和所述空间特征,对所述第一目标和所述第二目标进行交互关系检测,得到第二交互关系检测结果,包括:利用所述交互关系检测模型中第二自注意力网络对所述组合视觉特征以及所述空间特征进行特征融合,得到融合后组合视觉特征和融合后空间特征;根据所述融合后组合视觉特征和所述融合后空间特征,对所述第一目标和所述第二目标进行交互关系检测,得到第二交互关系检测结果。5.根据权利要求3所述的方法,其中,根据所述待检测图像,确定所述待检测图像中多个目标的视觉特征,包括:对所述待检测图像进行特征提取,得到视觉特征图;根据所述待检测图像中所述多个目标各自的位置信息,在所述视觉特征图中确定出所述多个目标各自的视觉特征。6.根据权利要求5所述的方法,其中,所述交互关系检测模型,还用于:在所述待检测图像中确定出包围所述第一目标的边界框和所述第二目标的边界框的外接框;根据所述待检测图像中所述外接框的位置信息,在所述视觉特征图中确定出外接框区域视觉特征;根据所述第一目标和所述第二目标各自的视觉特征,确定所述第一目标与所述第二目标的组合视觉特征,包括:拼接所述第一目标和所述第二目标各自的视觉特征以及所述外接框区域视觉特征,得
到所述的第一目标和所述第二目标的组合视觉特征。7.根据权利要求3所述的方法,其中,所述交互关系检测模型,还用于:根据所述空间特征,对所述第一目标和所述第二目标进行交互关系检测,得到第三交互关系检测结果;根据所述第一交互关系检测结果以及所述第二交互关系检测结果,确定目标交互关系检测结果,包括:根据所述第一交互关系检测结果、所述第二交互关系检测结果以及第三交互关系检测结果,确定目标交互关系检测结果。8.根据权利要求1或2所述的方法,其中,还包括:获取带有交互关系标签的样本图像;利用所述交互关系检测模型对所述样本待检测图像进行交互关系检测,得到目标样本交互关系检测结果;根据所述目标样本交互关系检测结果...

【专利技术属性】
技术研发人员:王丹林旸陶明渊
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1