人物交互检测方法、神经网络及其训练方法、设备和介质技术

技术编号:32183392 阅读:16 留言:0更新日期:2022-02-08 15:46
本公开提供了人物交互检测方法、神经网络及其训练方法、设备和介质,涉及人工智能领域,具体涉及计算机视觉技术和深度学习技术。该方法包括:对待检测图像的图像特征进行第一目标特征提取;对图像特征进行第一交互特征提取;对多个第一目标特征进行处理,以得到多个检测目标的目标信息;对一个或多个第一交互特征进行处理,以得到动作的动作信息、与每一个动作对应的人体目标的人体信息、以及与每一个动作对应的物体目标的物体信息;将多个检测目标和一个或多个动作进行匹配;以及基于与对应的人体目标匹配的检测目标的目标信息更新对应的人体目标的人体信息,基于与对应的物体目标匹配的检测目标的目标信息更新对应的物体目标的物体信息。的物体信息。的物体信息。

【技术实现步骤摘要】
人物交互检测方法、神经网络及其训练方法、设备和介质


[0001]本公开涉及人工智能领域,具体涉及计算机视觉技术和深度学习技术,特别涉及一种人物交互检测方法、用于人物交互检测的神经网络的训练方法、用于人物交互检测的神经网络、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]图像人物交互关系检测任务,需要同时检测人体、物体以及他们的交互关系,对图像中有交互关系的人体

物体配对,输出<人体,物体,动作>三元组。该任务需要进行目标检测,并同时分类人体动作,在图像物体、人体拥挤时,非常具有挑战性。人物交互关系检测可应用在视频监控等领域,监管人体行为。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种人物交互检测方法、用于人物交互检测的神经网络的训练方法、用于人物交互检测的神经网络、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种人物交互检测方法,包括:获取待检测图像的图像特征;对图像特征进行第一目标特征提取,以得到多个第一目标特征;对图像特征进行第一交互特征提取,以得到一个或多个第一交互特征;对多个第一目标特征进行处理,以得到待检测图像中的多个检测目标的目标信息,其中,多个检测目标包括一个或多个人体目标和一个或多个物体目标;对一个或多个第一交互特征进行处理,以得到待检测图像中的一个或多个动作的动作信息、与一个或多个动作中的每一个动作对应的人体目标的人体信息、以及与每一个动作对应的物体目标的物体信息;将多个检测目标和一个或多个动作进行匹配;以及针对一个或多个动作中的每一个动作,基于与对应的人体目标匹配的检测目标的目标信息更新对应的人体目标的人体信息,基于与对应的物体目标匹配的检测目标的目标信息更新对应的物体目标的物体信息。
[0007]根据本公开的另一方面,提供了一种用于人物交互检测的神经网络的训练方法。神经网络包括图像特征提取子网络、第一目标特征提取子网络、第一交互特征提取子网络、目标检测子网络、动作识别子网络、匹配子网络以及更新子网络。该训练方法包括:获取样本图像和所述样本图像的真实人物交互标签;将样本图像输入所述图像特征提取子网络,
以获取样本图像特征;将所述样本图像特征输入所述第一目标特征提取子网络,以获取多个第一目标特征;将所述样本图像特征输入所述第一交互特征提取子网络,以获取一个或多个第一交互特征;将所述多个第一目标特征输入所述目标检测子网络,其中,所述目标检测子网络被配置为接收所述多个第一目标特征,以输出所述样本图像中的多个预测目标的目标信息,其中,所述多个预测目标包括一个或多个预测人体目标和一个或多个预测物体目标;将所述一个或多个的第一交互特征输入所述动作识别子网络,其中,所述动作识别子网络被配置为接收所述一个或多个的第一交互特征,以输出所述样本图像中的一个或多个预测动作的动作信息,其中,所述一个或多个预测动作中的每一个预测动作与所述一个或多个预测人体目标中的一个预测人体目标和所述一个或多个预测物体目标中的一个预测物体目标相关联;将所述多个预测目标和所述一个或多个预测动作输入所述匹配子网络,以获取匹配结果;将所述匹配结果输入所述更新子网络,以获取预测人物交互标签,其中,所述更新子网络被配置为针对所述一个或多个预测动作中的每一个预测动作,基于与对应的人体目标匹配的预测目标的目标信息更新所述对应的人体目标的人体信息,基于与对应的物体目标匹配的预测目标的目标信息更新所述对应的物体目标的物体信息;基于所述预测人物交互标签和所述真实人物交互标签,计算损失值;以及基于所述损失值,调整所述神经网络的参数。
[0008]根据本公开的另一方面,提供了一种用于人物交互检测的神经网络,包括:图像特征提取子网络,被配置为接收待检测图像以输出所述待检测图像的图像特征;第一目标特征提取子网络,被配置为接收所述图像特征以输出多个第一目标特征;第一交互特征提取子网络,被配置为接收所述图像特征以输出一个或多个第一交互特征;目标检测子网络,被配置为接收所述多个第一目标特征,以输出所述样本图像中的多个预测目标的目标信息;动作识别子网络,被配置为接收所述一个或多个的第一交互特征,以输出所述样本图像中的一个或多个预测动作的动作信息;匹配子网络,被配置为匹配所述多个预测目标和所述一个或多个预测动作;以及更新子网络,被配置为针对所述一个或多个预测动作中的每一个预测动作,基于与对应的人体目标匹配的预测目标的目标信息更新所述对应的人体目标的人体信息,基于与对应的物体目标匹配的预测目标的目标信息更新所述对应的物体目标的物体信息。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述方法。
[0011]根据本公开的一个或多个实施例,通过从物体实例角度和交互实例角度分别预测边界框,并以匹配的方式将两种预测融合起来,使得利用两种方式学习到的目标信息(包括人体信息和物体信息)之间可以相互补充,因此能有效提升性能。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起
用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0014]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0015]图2示出了根据本公开示例性实施例的人物交互检测方法的流程图;
[0016]图3示出了根据本公开示例性实施例的人物交互检测方法的流程图;
[0017]图4示出了根据本公开示例性实施例的将目标和动作进行匹配的流程图;
[0018]图5示出了根据本公开示例性实施例的用于人物交互检测的神经网络的训练方法的流程图;
[0019]图6示出了根据本公开示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人物交互检测方法,包括:获取待检测图像的图像特征;对所述图像特征进行第一目标特征提取,以得到多个第一目标特征;对所述图像特征进行第一交互特征提取,以得到一个或多个第一交互特征;对所述多个第一目标特征进行处理,以得到所述待检测图像中的多个检测目标的目标信息,其中,所述多个检测目标包括一个或多个人体目标和一个或多个物体目标;对所述一个或多个第一交互特征进行处理,以得到所述待检测图像中的一个或多个动作的动作信息、与所述一个或多个动作中的每一个动作对应的人体目标的人体信息、以及与所述每一个动作对应的物体目标的物体信息;将所述多个检测目标和所述一个或多个动作进行匹配;以及针对所述一个或多个动作中的每一个动作,基于与对应的人体目标匹配的检测目标的目标信息更新所述对应的人体目标的人体信息,基于与对应的物体目标匹配的检测目标的目标信息更新所述对应的物体目标的物体信息。2.如权利要求1所述的方法,其中,所述目标信息包括包围所述对应的目标的检测框,其中,所述人体信息包括包围所述对应的人体目标的检测框,其中,所述物体信息包括包围所述对应的物体目标的检测框,其中,基于与对应的人体目标匹配的检测目标的目标信息更新所述对应的人体目标的人体信息包括:基于包围与所述对应的人体目标匹配的检测目标的第一人体检测框和包围所述对应的人体目标的第二人体检测框,确定更新后的包围所述对应的人体目标的第三人体检测框,并且其中,基于与对应的物体目标匹配的检测目标的目标信息更新所述对应的物体目标的物体信息包括:基于包围与所述对应的物体目标匹配的检测目标的第一物体检测框和包围所述对应的物体目标的第二物体检测框,确定更新后的包围所述对应的物体目标的第三物体检测框。3.如权利要求2所述的方法,其中,所述目标信息包括置信度,其中,所述动作信息包括置信度,其中,基于所述第一人体检测框和所述第二人体检测框,确定所述第三人体检测框包括:基于所述第一人体检测框和与所述对应的人体目标匹配的检测目标的置信度,以及所述第二人体检测框和该动作的置信度,确定所述第三人体检测框,并且其中,基于所述第一物体检测框和所述第二物体检测框,确定所述第三物体检测框包括:基于所述第一物体检测框和与所述对应的物体目标匹配的检测目标的置信度,以及所述第二物体检测框和该动作的置信度,确定所述第三物体检测框。4.如权利要求3所述的方法,其中,基于所述第一人体检测框和与所述对应的人体目标匹配的检测目标的置信度,以及所述第二人体检测框和所述对应的人体目标的置信度,确定所述第三人体检测框包括:
将与所述对应的人体目标匹配的检测目标的置信度作为所述第一人体检测框的权重,并将该动作的置信度作为所述第二人体检测框的权重,以确定所述第三人体检测框,并且其中,基于所述第一物体检测框和与所述对应的物体目标匹配的检测目标的置信度,以及所述第二物体检测框和所述对应的物体目标的置信度,确定所述第三物体检测框包括:将与所述对应的物体目标匹配的检测目标的置信度作为所述第一物体检测框的权重,并将该动作的置信度作为所述第二物体检测框的权重,以确定所述第三物体检测框。5.如权利要求3所述的方法,其中,所述一个或多个动作中的每一个动作包括对应的人体目标和对应的物体目标之间的至少一个子动作,其中,所述动作信息包括所述至少一个子动作中的每一个子动作的类型和置信度,其中,基于所述第一人体检测框和与所述对应的人体目标匹配的检测目标的置信度,以及所述第二人体检测框和该动作所包括的至少一个子动作中的至少一部分子动作的置信度,确定所述第三人体检测框,其中,基于所述第一物体检测框和与所述对应的物体目标匹配的检测目标的置信度,以及所述第二物体检测框和所述至少一部分子动作的置信度,确定所述第三物体检测框。6.如权利要求5所述的方法,其中,所述至少一部分子动作包括以下中的至少一项:所述至少一个子动作中的置信度最高的预设数量的子动作;所述至少一个子动作中的置信度最高的预设比例的子动作;以及所述至少一个子动作中的置信度超过预设阈值的子动作。7.如权利要求2所述的方法,其中,所述目标信息、所述人体信息以及所述物体信息均包括相应的检测框的尺寸信息、形状信息以及位置信息中的至少一个。8.如权利要求1所述的方法,还包括:对所述一个或多个第一交互特征中的每一个第一交互特征进行第一人体子特征嵌入,以得到对应的第一交互

人体子特征;以及对所述一个或多个第一交互特征中的每一个第一交互特征进行第一物体子特征嵌入,以得到对应的第一交互

物体子特征,其中,将所述多个检测目标和所述一个或多个动作进行匹配包括:针对所述一个或多个动作中的每一个动作:基于该动作对应的第一交互特征的第一交互

人体子特征,在所述多个第一目标特征中确定第一人体目标特征;基于该动作对应的第一交互特征的第一交互

物体子特征,在所述多个第一目标特征中确定第一物体目标特征;以及将所述第一人体目标特征对应的检测目标与该动作对应的人体目标进行关联,并将所述第一物体目标特征对应的检测目标和该动作对应的物体目标进行关联。9.如权利要求8所述的方法,还包括:针对所述每一个第一目标特征,生成与该第一目标特征对应的第一目标

匹配子特征,其中,基于该动作对应的第一交互特征的第一交互

人体子特征,在所述多个第一目标特征中确定第一人体目标特征包括:基于该动作对应的第一交互特征的第一交互

【专利技术属性】
技术研发人员:周德森王健孙昊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1