人物交互检测方法、神经网络及其训练方法、设备和介质技术

技术编号：32183392 阅读：16 留言：0更新日期：2022-02-08 15:46

本公开提供了人物交互检测方法、神经网络及其训练方法、设备和介质，涉及人工智能领域，具体涉及计算机视觉技术和深度学习技术。该方法包括：对待检测图像的图像特征进行第一目标特征提取；对图像特征进行第一交互特征提取；对多个第一目标特征进行处理，以得到多个检测目标的目标信息；对一个或多个第一交互特征进行处理，以得到动作的动作信息、与每一个动作对应的人体目标的人体信息、以及与每一个动作对应的物体目标的物体信息；将多个检测目标和一个或多个动作进行匹配；以及基于与对应的人体目标匹配的检测目标的目标信息更新对应的人体目标的人体信息，基于与对应的物体目标匹配的检测目标的目标信息更新对应的物体目标的物体信息。的物体信息。的物体信息。

全部详细技术资料下载

【技术实现步骤摘要】
人物交互检测方法、神经网络及其训练方法、设备和介质

[0001]本公开涉及人工智能领域，具体涉及计算机视觉技术和深度学习技术，特别涉及一种人物交互检测方法、用于人物交互检测的神经网络的训练方法、用于人物交互检测的神经网络、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]图像人物交互关系检测任务，需要同时检测人体、物体以及他们的交互关系，对图像中有交互关系的人体
‑
物体配对，输出<人体，物体，动作>三元组。该任务需要进行目标检测，并同时分类人体动作，在图像物体、人体拥挤时，非常具有挑战性。人物交互关系检测可应用在视频监控等领域，监管人体行为。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种人物交互检测方法、用于人物交互检测的神经网络...

【技术保护点】

【技术特征摘要】
1.一种人物交互检测方法，包括：获取待检测图像的图像特征；对所述图像特征进行第一目标特征提取，以得到多个第一目标特征；对所述图像特征进行第一交互特征提取，以得到一个或多个第一交互特征；对所述多个第一目标特征进行处理，以得到所述待检测图像中的多个检测目标的目标信息，其中，所述多个检测目标包括一个或多个人体目标和一个或多个物体目标；对所述一个或多个第一交互特征进行处理，以得到所述待检测图像中的一个或多个动作的动作信息、与所述一个或多个动作中的每一个动作对应的人体目标的人体信息、以及与所述每一个动作对应的物体目标的物体信息；将所述多个检测目标和所述一个或多个动作进行匹配；以及针对所述一个或多个动作中的每一个动作，基于与对应的人体目标匹配的检测目标的目标信息更新所述对应的人体目标的人体信息，基于与对应的物体目标匹配的检测目标的目标信息更新所述对应的物体目标的物体信息。2.如权利要求1所述的方法，其中，所述目标信息包括包围所述对应的目标的检测框，其中，所述人体信息包括包围所述对应的人体目标的检测框，其中，所述物体信息包括包围所述对应的物体目标的检测框，其中，基于与对应的人体目标匹配的检测目标的目标信息更新所述对应的人体目标的人体信息包括：基于包围与所述对应的人体目标匹配的检测目标的第一人体检测框和包围所述对应的人体目标的第二人体检测框，确定更新后的包围所述对应的人体目标的第三人体检测框，并且其中，基于与对应的物体目标匹配的检测目标的目标信息更新所述对应的物体目标的物体信息包括：基于包围与所述对应的物体目标匹配的检测目标的第一物体检测框和包围所述对应的物体目标的第二物体检测框，确定更新后的包围所述对应的物体目标的第三物体检测框。3.如权利要求2所述的方法，其中，所述目标信息包括置信度，其中，所述动作信息包括置信度，其中，基于所述第一人体检测框和所述第二人体检测框，确定所述第三人体检测框包括：基于所述第一人体检测框和与所述对应的人体目标匹配的检测目标的置信度，以及所述第二人体检测框和该动作的置信度，确定所述第三人体检测框，并且其中，基于所述第一物体检测框和所述第二物体检测框，确定所述第三物体检测框包括：基于所述第一物体检测框和与所述对应的物体目标匹配的检测目标的置信度，以及所述第二物体检测框和该动作的置信度，确定所述第三物体检测框。4.如权利要求3所述的方法，其中，基于所述第一人体检测框和与所述对应的人体目标匹配的检测目标的置信度，以及所述第二人体检测框和所述对应的人体目标的置信度，确定所述第三人体检测框包括：
将与所述对应的人体目标匹配的检测目标的置信度作为所述第一人体检测框的权重，并将该动作的置信度作为所述第二人体检测框的权重，以确定所述第三人体检测框，并且其中，基于所述第一物体检测框和与所述对应的物体目标匹配的检测目标的置信度，以及所述第二物体检测框和所述对应的物体目标的置信度，确定所述第三物体检测框包括：将与所述对应的物体目标匹配的检测目标的置信度作为所述第一物体检测框的权重，并将该动作的置信度作为所述第二物体检测框的权重，以确定所述第三物体检测框。5.如权利要求3所述的方法，其中，所述一个或多个动作中的每一个动作包括对应的人体目标和对应的物体目标之间的至少一个子动作，其中，所述动作信息包括所述至少一个子动作中的每一个子动作的类型和置信度，其中，基于所述第一人体检测框和与所述对应的人体目标匹配的检测目标的置信度，以及所述第二人体检测框和该动作所包括的至少一个子动作中的至少一部分子动作的置信度，确定所述第三人体检测框，其中，基于所述第一物体检测框和与所述对应的物体目标匹配的检测目标的置信度，以及所述第二物体检测框和所述至少一部分子动作的置信度，确定所述第三物体检测框。6.如权利要求5所述的方法，其中，所述至少一部分子动作包括以下中的至少一项：所述至少一个子动作中的置信度最高的预设数量的子动作；所述至少一个子动作中的置信度最高的预设比例的子动作；以及所述至少一个子动作中的置信度超过预设阈值的子动作。7.如权利要求2所述的方法，其中，所述目标信息、所述人体信息以及所述物体信息均包括相应的检测框的尺寸信息、形状信息以及位置信息中的至少一个。8.如权利要求1所述的方法，还包括：对所述一个或多个第一交互特征中的每一个第一交互特征进行第一人体子特征嵌入，以得到对应的第一交互
‑
人体子特征；以及对所述一个或多个第一交互特征中的每一个第一交互特征进行第一物体子特征嵌入，以得到对应的第一交互
‑
物体子特征，其中，将所述多个检测目标和所述一个或多个动作进行匹配包括：针对所述一个或多个动作中的每一个动作：基于该动作对应的第一交互特征的第一交互
‑
人体子特征，在所述多个第一目标特征中确定第一人体目标特征；基于该动作对应的第一交互特征的第一交互
‑
物体子特征，在所述多个第一目标特征中确定第一物体目标特征；以及将所述第一人体目标特征对应的检测目标与该动作对应的人体目标进行关联，并将所述第一物体目标特征对应的检测目标和该动作对应的物体目标进行关联。9.如权利要求8所述的方法，还包括：针对所述每一个第一目标特征，生成与该第一目标特征对应的第一目标
‑
匹配子特征，其中，基于该动作对应的第一交互特征的第一交互
‑
人体子特征，在所述多个第一目标特征中确定第一人体目标特征包括：基于该动作对应的第一交互特征的第一交互

【专利技术属性】
技术研发人员：周德森，王健，孙昊，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人