人-物交互关系识别方法、模型训练方法及对应装置制造方法及图纸

技术编号：28037794 阅读：40 留言：0更新日期：2021-04-09 23:20

本申请涉及计算机视觉技术领域，提供一种人‑物交互关系识别方法、模型训练方法及对应装置。其中，人‑物交互关系识别方法包括：获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；获取待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；将每组交互框中的行人交互框和物体交互框，分别与行人检测框集合中的行人检测框和物体检测框集合中的物体检测框进行匹配，若分别匹配成功，则将匹配的行人检测框、匹配的物体检测框、该物体检测框对应的物体类别以及该组交互框对应的交互行为类别确定为一组人‑物交互关系。该方法进行人‑物交互关系识别的效率较高，非常适合对实时性要求较高的应用场景。

全部详细技术资料下载

【技术实现步骤摘要】
人-物交互关系识别方法、模型训练方法及对应装置
本专利技术涉及计算机视觉
，具体而言，涉及一种人-物交互关系识别方法、模型训练方法及对应装置。
技术介绍
目标检测和识别是基于计算机视觉的人工智能应用的基础组件。近年来，随着深度学习和计算机硬件技术的飞速发展，目标检测和识别技术在准确度和运算速度两个维度都取得了突破性进展。作为智能体，除了需要感知到环境中的目标位置及其类别之外，往往还需要明确目标之间的关系，这使得研究环境中人和物体之间的关系变得极具现实意义。以图1为例，画面的内容是一个人在打棒球。典型人-物交互关系(Human-ObjectInteraction，简称HOI)可以用一个四元组来描述：行人位置(行人框)、物体位置(物体框)、物体类别(球棒)、交互行为类别(握住/挥动)。所谓人-物交互关系识别方法，即识别图像中存在的人-物交互关系并输出的方法(例如，输出上述四元组)。在图1中，由于握住球棒和挥动球棒是两种不同的行为，所以尽管只有一个人和一根球棒，从图中也可以识别出至少两组人-物交互关系，若图像中存在多个行人以及多个物体，则存在的人-物交互关系的数量会更多，识别起来也更为复杂。现有的人-物交互关系识别方法，通常是先检测出图像中的行人和物体，然后遍历行人和物体的所有组合方式，并基于图像内容识别每种组合方式下的行人和物体是否存在交互关系以及交互关系的类别。在图像中的行人和物体数量较多时，由于二者可以产生大量的组合，所以现有方法进行人-物交互关系识别的效率低下，难以满足实时性需求。r>
技术实现思路
本申请实施例的目的在于提供一种人-物交互关系识别方法、模型训练方法及对应装置，以改善上述技术问题。为实现上述目的，本申请提供如下技术方案：第一方面，本申请实施例提供一种人-物交互关系识别方法，包括：获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；其中，所述行人检测框表示检测到的行人位置，所述物体检测框表示检测到的物体位置；获取所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；其中，一组交互框包括一个行人交互框和一个物体交互框，每组交互框对应一种交互行为类别下的一个交互点，所述交互点是指所述待识别图像中能够表示交互行为的发生位置的像素点，所述行人交互框表示利用所述交互点处的图像特征预测出的行人位置，所述物体交互框表示利用所述交互点处的图像特征预测出的物体位置；将每组交互框中的行人交互框和物体交互框，分别与所述行人检测框集合中的行人检测框和所述物体检测框集合中的物体检测框进行匹配，若其中的行人交互框一行人检测框匹配，且其中的物体交互框与一物体检测框匹配，则将匹配的行人检测框、匹配的物体检测框、该物体检测框对应的物体类别以及该组交互框对应的交互行为类别确定为一组人-物交互关系。上述方法并不需要遍历待识别图像中行人检测框和物体检测框的所有组合，也不需要基于行人检测框和物体检测框中的图像内容进一步识别二者可能存在的人-物交互关系，而只需将从待识别图像中获取到的至少一组交互框分别与行人检测框集合和物体检测框集合进行匹配，由于矩形框的匹配耗时非常短(例如，只需简单计算一下矩形框的重叠程度)，因此上述方法进行人-物交互关系识别的效率较高，非常适合一些对实时性要求较高的应用场景。在第一方面的一种实现方式中，所述获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别，包括：利用第一神经网络对所述待识别图像进行目标检测，获得所述第一神经网络输出的所述待识别图像中的目标检测框集合以及每个目标检测框在每种目标类别下的置信度；其中，所述目标类别包括行人以及至少一种物体；从所述目标检测框集合中筛选出在任一目标类别下的置信度大于该目标类别下的第一置信度阈值的目标检测框；在筛选出的目标检测框中，对应的目标类别为行人的框构成所述行人检测框集合，对应的目标类别为一种物体的框构成所述物体检测框集合，一个目标检测框对应的目标类别是指使得该目标检测框被筛选出的置信度所在的目标类别。在上述实现方式中，首先利用第一神经网络进行目标检测，获得目标检测框集合以及每个目标检测框在每种目标类别下的置信度，然后再根据置信度对获得的目标检测框进行进一步筛选，只保留那些置信度较高的目标检测框，使得行人检测框集合和物体检测框集合中的检测框数量不至于太多，从而有利于提高人-物交互关系识别的精度和效率。在第一方面的一种实现方式中，所述获取所述待识别图像中的至少一组行交互框以及每组交互框对应的交互行为类别，包括：利用第二神经网络对所述待识别图像进行人-物交互关系检测，获得所述第二神经网络输出的所述待识别图像的交互热力图以及交互框集合；其中，所述交互热力图包括所述待识别图像中的每个像素点作为每种交互行为类别下的交互点的置信度，所述交互框集合包括所述待识别图像中的每个像素点在作为每种交互行为类别下的交互点时对应的一组交互框；根据所述交互热力图，从所述待识别图像中筛选出在任一交互行为类别下的置信度大于在该交互行为类别下的第二置信度阈值的像素点作为该交互类别下的交互点；确定由每种交互行为类别下连通的交互点构成的每种交互行为类别下的交互点区域；从每种交互行为类别下的每个交互点区域中确定至少一个代表交互点，将所述至少一个代表交互点中的每个代表交互点在所述交互框集合中对应的一组交互框确定为一组用于与检测框集合进行匹配的交互框，并将该代表交互点对应的交互行为类别确定为该组交互框对应的交互行为类别。在上述实现方式中，首先利用第二神经网络进行人-物交互关系检测，获得交互热力图以及交互框集合，然后利用交互热力图中的置信度筛选出那些置信度较高的交互点，之后根据筛选出的且连通的交互点确定交互点区域，由于同一交互点区域中的交互点对应的交互框在位置上十分接近，因此可以从每个交互点区域中进一步筛选代表交互点，并根据代表交互点最终确定用于与检测框集合进行匹配的至少一组交互框，这样有利于减少用于匹配的交互框的数量，提高人-物交互关系识别的精度和效率。在第一方面的一种实现方式中，所述从每种交互行为类别下的每个交互点区域中确定至少一个代表交互点，包括：从每种交互行为类别下的每个交互点区域中选择置信度最大的K个交互点作为所述至少一个代表交互点；其中，K为正整数。同一交互点区域中的交互点可视为代表同一交互行为的发生位置，由于交互行为往往需要图像中一定数量的像素才能完整地描述(例如，人手和球棒接触位置的全部像素)，因此交互点区域中的交互点数量一般是比较多的。在上述实现方式中，从每个交互点区域中选择出的代表交互点是区域中置信度最大的那些交互点，因此能够有效代表交互点区域所描述的交互行为，并且由于每个交互点区域只选K个代表交互点，所以还有利于缩减用于与检测框集合进行匹配的交互框的数量，避免大量位置相近的交互框重复参与匹配，提升匹配效率。在第一方面的一种实现方式中，所述获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别，包括：利用第一神经网络对所述待识别本文档来自技高网...

【技术保护点】
1.一种人-物交互关系识别方法，其特征在于，包括：/n获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；其中，所述行人检测框表示检测到的行人位置，所述物体检测框表示检测到的物体位置；/n获取所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；其中，一组交互框包括一个行人交互框和一个物体交互框，每组交互框对应一种交互行为类别下的一个交互点，所述交互点是指所述待识别图像中能够表示交互行为的发生位置的像素点，所述行人交互框表示利用所述交互点处的图像特征预测出的行人位置，所述物体交互框表示利用所述交互点处的图像特征预测出的物体位置；/n将每组交互框中的行人交互框和物体交互框，分别与所述行人检测框集合中的行人检测框和所述物体检测框集合中的物体检测框进行匹配，若其中的行人交互框与一行人检测框匹配，且其中的物体交互框与一物体检测框匹配，则将匹配的行人检测框、匹配的物体检测框、该物体检测框对应的物体类别以及该组交互框对应的交互行为类别确定为一组人-物交互关系。/n

【技术特征摘要】
1.一种人-物交互关系识别方法，其特征在于，包括：
获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；其中，所述行人检测框表示检测到的行人位置，所述物体检测框表示检测到的物体位置；
获取所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；其中，一组交互框包括一个行人交互框和一个物体交互框，每组交互框对应一种交互行为类别下的一个交互点，所述交互点是指所述待识别图像中能够表示交互行为的发生位置的像素点，所述行人交互框表示利用所述交互点处的图像特征预测出的行人位置，所述物体交互框表示利用所述交互点处的图像特征预测出的物体位置；
将每组交互框中的行人交互框和物体交互框，分别与所述行人检测框集合中的行人检测框和所述物体检测框集合中的物体检测框进行匹配，若其中的行人交互框与一行人检测框匹配，且其中的物体交互框与一物体检测框匹配，则将匹配的行人检测框、匹配的物体检测框、该物体检测框对应的物体类别以及该组交互框对应的交互行为类别确定为一组人-物交互关系。

2.根据权利要求1所述的人-物交互关系识别方法，其特征在于，所述获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别，包括：
利用第一神经网络对所述待识别图像进行目标检测，获得所述第一神经网络输出的所述待识别图像中的目标检测框集合以及每个目标检测框在每种目标类别下的置信度；其中，所述目标类别包括行人以及至少一种物体；
从所述目标检测框集合中筛选出在任一目标类别下的置信度大于该目标类别下的第一置信度阈值的目标检测框；在筛选出的目标检测框中，对应的目标类别为行人的框构成所述行人检测框集合，对应的目标类别为一种物体的框构成所述物体检测框集合，一个目标检测框对应的目标类别是指使得该目标检测框被筛选出的置信度所在的目标类别。

3.根据权利要求1所述的人-物交互关系识别方法，其特征在于，所述获取所述待识别图像中的至少一组行交互框以及每组交互框对应的交互行为类别，包括：
利用第二神经网络对所述待识别图像进行人-物交互关系检测，获得所述第二神经网络输出的所述待识别图像的交互热力图以及交互框集合；其中，所述交互热力图包括所述待识别图像中的每个像素点作为每种交互行为类别下的交互点的置信度，所述交互框集合包括所述待识别图像中的每个像素点在作为每种交互行为类别下的交互点时对应的一组交互框；
根据所述交互热力图，从所述待识别图像中筛选出在任一交互行为类别下的置信度大于在该交互行为类别下的第二置信度阈值的像素点作为该交互类别下的交互点；
确定由每种交互行为类别下连通的交互点构成的每种交互行为类别下的交互点区域；
从每种交互行为类别下的每个交互点区域中确定至少一个代表交互点，将所述至少一个代表交互点中的每个代表交互点在所述交互框集合中对应的一组交互框确定为一组用于与检测框集合进行匹配的交互框，并将该代表交互点对应的交互行为类别确定为该组交互框对应的交互行为类别。

4.根据权利要求3所述的人-物交互关系识别方法，其特征在于，所述从每种交互行为类别下的每个交互点区域中确定至少一个代表交互点，包括：
从每种交互行为类别下的每个交互点区域中选择置信度最大的K个交互点作为所述至少一个代表交互点；其中，K为正整数。

5.根据权利要求1-4中任一项所述的人-物交互关系识别方法，其特征在于，所述获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别，包括：
利用第一神经网络对所述待识别图像进行目标检测，并根据目标检测结果确定所述待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；
所述获取所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别，包括：
利用第二神经网络对所述待识别图像进行人-物交互关系检测，并根据检测结果确定所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；
其中，所述第一神经网络和所述第二神经网络均为第三神经网络的子网络，且所述第一神经网络和所述第二神经网络为相互独立；或者，
所述第一神经网络和所述第二神经网络均为第三神经网络的子网络，且所述第一神经网络和所述第二神经网络包括公共的主干网络，所述主干网络用于提取所述待识别图像的基础特征，所述第一神经网络和所述第二神经网络分别用于根据所述基础特征对所述待识别图像进行目标检测和人-物交互关系检测。

6.根据权利要求1-5中任一项所述的人-物交互关系识别方法，其特征在于，所述方法还包括：
对获得的至少一组人-物交互关系进行去重，获得不重复的人-物交互关系。

7.一种模型训练方法，其特征在于，包括：
获取训练集，所述训练集包括带有标签的训练图像；
利用所述训练集训练第三神经网络；
其中，所述第三神经网络包括第一神经网络和第二神经网络两个子网络，所述第一神经网络用于对所述训练图像进行目标检测，并输出的所述训练图像中的目标检测框集合以及每个目标检测框在每种目标类别下的置信度，所述第二神经网络用于对所述训练图像进行人-物交互关系检测，并输出的所述训练图像的交互热力图以及交互框集合；
每张训练图像带有的标签包括目标检测标签或人-物交互关系标签，带有目标检测标签的训练图像用于训练所述第三神经网络中的所述第一神经网络，带有人-物交互关系标签的训练图像用于训练所述第三神经网络中的所述第一神经网络和/或所述第二神经网络，且所述训练集中至少包括带有所述人-物交互关系标签的训练图像；
所述目标检测标签包括所述训练图像中的真实目标检测框集合以及每个真实目标检测框的对应的真实目标类别，所述人-物交互关系标签包括所述训练图像中的真实人-物交互关系，每组真实人-物交互关系包括一个真实行人框、一个真实物体框、该真实物体框对应的物体类别以及一个真实交互行为类别。

8.根据权利要求7所述的模型训练方法，其特征在于，所述训练集中包括带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像，所述第一神经网络和所述第二神经网络包括公共的主干网络，所述利用所述训练集训练第三神经网络，包括：
利用所述训练集中带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像，训练所述第三神经网络中的所述第一神经网络，获得初训练的第三神经网络；
利用所述训练集中带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像继续训练所述初训练的第三神经网络，获得训练好的第...

【专利技术属性】
技术研发人员：邹城，
申请(专利权)人：北京迈格威科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人