基于姿态信息的人-物关系检测方法及装置制造方法及图纸

技术编号：41215724 阅读：4 留言：0更新日期：2024-05-09 23:37

本发明专利技术针对自然场景中的视频，提出了一种基于姿态信息的人‑物关系检测方法及装置。该方法的框架主要包含三个模块：关系特征提取、姿势表示建模和关系‑姿态变换器。首先将视频剪辑输入关系特征提取模块以获得对象级特征及其关系特征。同时，还将视频片段送入姿势特征提取模块，生成头部姿势特征和身体姿势特征。然后，关系‑姿态变换器将物体、关系和姿势特征作为输入来生成关系的时空交互表示。最后，利用三个分类器来预测注意力关系、空间关系和接触关系，以构建以人为中心的图。本发明专利技术对于各种复杂场景下的人‑物关系检测均具有优秀的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉，尤其涉及一种基于姿态信息的人-物关系检测方法及装置。

技术介绍

1、在现代社会生活中，视频是一种流行的信息载体，其广泛存在于网络空间中，以传递丰富的信息。而视频中人和物体的关系蕴含着丰富及精准的高层语义信息。当人-物关系以视频为载体，其不仅能直接传递每一帧信息，而且有助于理解整个视频深层次的含义。因此，如何检测并识别视频中的人物关系，在现实生活中具有十分重要的应用价值，其主要体现在四个方面：(1)深度智能的视觉问答或描述系统。对于给定的视频，机器能智能的结合视频中的人-物关系回答或描述更深层的含义。如在自然场景中拍摄一段人类活动的视频，智能系统可以根据人类与周围物体的空间关系、与物体交互的动作类型等含人-物关系的视觉元素理解视频更深层的语意。(2)人机交互系统。当人们在逛街或商场时，经常会遇到诸多引导人类购物的人机交互系统等。因此通过移动设配采集视频，并对其中的人-物关系加以检测和识别，并通过语音播报出人类接触的商品信息，其能给人们的生活带来诸多方便。(3)基于人-物关系检测的视频监控系统。该系统能检测出不法分子持有危险物品，根据该视频监控及时地报警并指出存在不法分子存在的位置和危险物品的类别。(4)智能视频审核系统。在自媒体流行的互联网环境中，每时每刻都存在海量的用户自制的小视频需要上传，判断视频内容是否合规对流媒体平台的正常运行十分重要。通过该系统可以智能检测出一些不良行为和危险动作，阻止此类视频的传递，有助于保护未成年青少年的身心健康。

2、为对视频中人-物关系进行检测，精准的定位人类

3、近年来，基于深度学习的人-物关系检测方法主要分为三类：基于多种信息流的人-物关系检测；基于图神经网络的人-物关系检测；基于时空注意力的人-物关系检测。基于多种信息流的人-物关系检测将人和物体的特征分为人类信息流和物体信息流，并对这两种信息流进行卷积计算并得到人-物关系的特征表达。基于图神经网络的人-物关系检测将人类和周围的物体视为多个节点，人-物关系即为人类节点和物体节点的多条单向边，通过图卷积对人类节点与其相连接的物体节点进行依赖建模，并通过多种层次和多种距离的卷积核进行上下文信息捕获，最终得到的多条单向边即为人-物关系。基于时空注意力机制的人-物关系检测充分考虑了分析对象为视频的特点，不同于基于图像的人-物关系检测，而是专门设计了对时序信息捕获的模块并且对复杂时序上人-物关系的依赖进行建模，使得模型能够充分感知到人-物关系的动态变化，最终该类型的方法会生成具有时空信息的关系表达。

4、在现实世界中，动物和人类从视觉系统中获取信息，以指导各种行为或认知活动。识别注视方向对于预测人类注意力、运动或社交行为至关重要。以前关于注视行为的研究仅限于眼球运动。然而，当一个人在感兴趣的物体之间改变注视方向时，这个过程不仅包含眼球运动，还涉及头部和身体的协调运动。此外无论头部是否受到约束，颈部肌肉和眼球的运动在凝视转移过程中都是协调的，这表明头部和身体运动有助于凝视转移，并且眼-头-身体运动是连续且可预测的。这些协调运动由复杂的神经网络调节，包括皮层下大脑区域和大脑皮层区域。上丘大脑区域是一个重要的枢纽，它接收各种上游信息和项目并将其整合到下游通路，从而控制协调的眼-头-身体运动。

5、因此，受认知科学中眼-头-身运动研究的启发和考虑到对眼睛注视检测的困难，本专利技术使用头部姿势而不是眼睛注视来表示人类注意力。此外，身体部位的视觉特征可以表示关系的局部特征，但它会受到背景噪声和遮挡的影响。因此，本专利技术使用带有骨骼信息的身体姿势而不是身体部位的视觉特征来表示多个动作。为了利用上面提到的两个姿势，本专利技术设计了一个时空架构来捕获动态头部姿势表示和身体姿势表示。

技术实现思路

1、本专利技术针对自然场景中的视频，提出了一种基于姿态信息的人-物关系检测方法及装置。

2、为达到上述目的，本专利技术的技术方案包括：

3、一种基于姿态信息的人-物关系检测方法，其步骤包括：

4、1)在视频的每一帧中，提取检测到的物体的视觉特征，并对物体视觉特征、物体边界框信息和物体类别特征进行融合，获取所述检测到的物体的特征表达，即物体特征表达；

5、2)在视频的每一帧中，提取检测到的人类的视觉特征，并对人类视觉特征、人类边界框信息进行融合，获取所述检测到的人类的特征表达，即人类特征表达；

6、3)在视频的每一帧中，根据人和物体边界框得到并集框，利用并集框提取并集特征表达；在视频的每一帧中，将物体特征表达、人类特征表达和并集特征表达进行融合，并进行尺度压缩后得到关系特征表达；

7、4)在视频的每一帧中，通过身体姿态估计器得到人类的身体姿态特征表达；

8、5)在视频的每一帧中，通过脸部检测器和头部姿态估计器得到人类的头部姿态特征表达；

9、6)在视频的每一帧中，对提取到的物体特征表达、关系特征表达、身体姿态特征表达和头部姿态特征表达进行位置编码；

10、7)在视频的每一帧中，通过全局空间编码器和局部空间编码器对位置编码后的特征表达进行上下文感知计算，得到空间增强的特征表达；

11、8)利用时序解码器对空间增强的特征表达进行时序解码，获得时序增强的特征表达，将空间增强和时序增强的多种特征进行融合，得到时空增强的关系特征表达；

12、9)采用多个关系分类器对视频中的每一个时空增强的关系特征表达进行分类，得到人-物关系类别概率。

13、进一步地，提取所述物体视觉特征、人类视觉特征的方法包括：利用在imagenet上预训练的主干网络提取视觉特征。

14、进一步地，提取所述物体特征表达和人类特征表达的主干网络包括：resnet50网络或resnet101网络。

15、进一步地，所述在视频的每一帧中，通过身体姿态估计器得到人类的身体姿态特征表达，包括：

16、1)在视频的每一帧中，根据身体姿态估计器的预测，得到n个身体关键部位的关键点，每个关键点特征包含2维空间中的坐标值和该关键点的置信度；各个关键点特征构成身体姿态特征；

17、2)在视频的每一帧中，对身体姿态特征进行维度扩张，使得其特征维度与物体特征表达、人类特征表达和关系特征表达的维度保持一致。

本文档来自技高网...

【技术保护点】

1.一种基于姿态信息的人-物关系检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述在视频的每一帧中，通过身体姿态估计器得到人类的身体姿态特征表达，包括：

3.根据权利要求1所述的方法，其特征在于，所述在视频的每一帧中，通过脸部检测器和头部姿态估计器得到人类的头部姿态特征表达，包括：

4.根据权利要求1所述的方法，其特征在于，所述在视频的每一帧中，对提取到的物体特征表达、人类特征表达、身体姿态特征表达和头部姿态特征表达进行位置编码，包括：

5.根据权利要求1所述的方法，其特征在于，所述在视频的每一帧中，通过全局空间编码器和局部空间编码器对位置编码后的特征表达进行上下文感知计算，得到空间增强的特征表达，包括：

6.根据权利要求1所述的方法，其特征在于，所述利用时序解码器对空间增强的特征表达进行时序解码，获得时序增强的特征表达，将空间增强和时序增强的多种特征进行融合，得到时空增强的关系特征表达，包括：

7.根据权利要求1所述的方法，其特征在于，所述采用多个关系分类器对视频中的每一个

8.根据权利要求7所述的方法，其特征在于，训练人-物关系预测网络采用的损失函数为：

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～8中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～8中任一项所述的方法。

...

【技术特征摘要】

1.一种基于姿态信息的人-物关系检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述在视频的每一帧中，通过身体姿态估计器得到人类的身体姿态特征表达，包括：

3.根据权利要求1所述的方法，其特征在于，所述在视频的每一帧中，通过脸部检测器和头部姿态估计器得到人类的头部姿态特征表达，包括：

6.根据权利要求1所述的方法，其特征在...

【专利技术属性】
技术研发人员：曾志韬，操晓春，代朋纹，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人