一种基于骨骼关键点的多人场景行为识别方法技术

技术编号：41107481 阅读：2 留言：0更新日期：2024-04-25 14:01

本发明专利技术公开一种基于骨骼关键点的多人场景行为识别方法，步骤包括：1)获取源视频，利用人体检测器对源视频中的人体进行检测，获得人体边界框图像；2)利用空间变换网络将人体边界框图像中的人体对齐到中心位置；3)利用FastPose网络获取空间变换后人体边界框图像的热图；4)利用两步热图归一化方法对人体边界框图像的热图进行处理；5)利用空间逆变换网络将人体还原到原始位置；6)利用参数化姿态非最大抑制方法消除冗余坐标，并将剩余坐标信息输入到基于LSTM的行为识别网络中，获得人体动作类型。本发明专利技术通过将视频输入到行为识别模型中，得到热力图并从中提取到人体骨骼点的坐标，再根据骨骼点之间的关系和变化推测具体的行为类型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉中的行为识别领域，具体是一种基于骨骼关键点的多人场景行为识别方法。

技术介绍

1、随着人工智能技术的快速发展，多人行为识别的应用也越来越成熟，在人机交互、智慧工地等领域有广泛应用前景。

2、现有的方法大多为基于光流的行为识别方法，该类方法将视频和光流信息一起输入到行为识别网模型，但是光流的计算通常比较耗时和复杂，需要高效的算法和硬件支持。此外，光流对于大位移、遮挡、背景杂乱等情况的处理能力较弱，可能导致误检或漏检。

技术实现思路

1、本专利技术的目的是提供一种基于骨骼关键点的多人场景行为识别方法，包括以下步骤：

2、1)获取源视频，并利用人体检测器对源视频中的人体进行检测，获得人体边界框图像；

3、2)利用空间变换网络将人体边界框图像中的人体对齐到中心位置；

4、3)利用fastpose网络获取空间变换后人体边界框图像的热图；

5、4)利用两步热图归一化方法对人体边界框图像的热图进行处理，得到骨骼关键点坐标信息；

6、5)利用空间逆变换网络将人体还原到原始位置；

7、6)利用参数化姿态非最大抑制方法消除冗余坐标，并将剩余坐标信息输入到基于lstm的行为识别网络中，获得人体动作类型。

8、进一步，所述人体检测器包括yolo v3网络。

9、进一步，所述空间变换网络将人体边界框图像中的人体对齐到中心位置，是指对人体边界框图像进行2d仿射变换。

11、

12、其中，θ1，θ2，θ3是中的向量；和分别表示变换前后的坐标。r表示实数集。

13、进一步，所述fastpose网络包括resnet主干网络、多个密集上采样卷积模块、卷积层；

14、所述resnet主干网络用于提取空间变换后人体边界框图像的特征；

15、所述密集上采样卷积模块用于对提取的特征进行上采样；

16、所述卷积层于输出空间变换后人体边界框图像的热图。

17、进一步，利用两步热图归一化方法对人体边界框图像的热图进行处理的步骤包括：

18、4.1)对热图进行逐元素归一化，以生成置信度热图c；骨骼置信度：conf＝max(c)；max(c)为热图的最大值；

19、4.2)执行全局归一化以生成概率热图p，以预测骨骼点位置坐标；

20、其中，px如下所示：

21、

22、其中，cx为位置x的置信度热图值，用于表征每个像素位置的关键点出现的概率；px表示概率热图中位置x的像素概率，它是通过对置信度热图cx进行全局归一化得到的。

23、进一步，所述空间逆变换网络利用逆变换方程将人体还原到原始位置；

24、逆变换方程如下所示：

25、

26、其中[γ1 γ2]＝[θ1 θ2]-1，γ3＝-1×[γ1 γ2]θ3，和分别表示变换前后的坐标。

27、进一步，利用参数化姿态非最大抑制方法消除冗余坐标的步骤包括：

28、6.1)计算姿态距离度量d(pi,pj|λ)，即：

29、d(pi,pj|λ)＝ksim(pi,pj|σ1)+λhsim(pi,pj|σ2) (4)

30、式中，pi和pj是两个姿态，每个姿态由m个骨骼点组成，每个骨骼点有一个坐标和一个置信度；λ是超参数，包括σ1,σ2和λ三个姿态距离度量参数；ksim(pi,pj|σ1)为骨骼点匹配程度函数；hsim(pi,pj|σ2)为空间距离函数；

31、6.2)判断姿态距离度量d(pi,pj|λ)小于阈值η是否成立，若是，则删除姿态pi和姿态pj中的一个。

32、进一步，骨骼点匹配程度函数、空间距离函数分别如下所示：

33、

34、

35、其中，为第n个姿态位置的第i个、第j个的骨骼点。为骨骼关键点集合；cin、cjn为置信度热图值。

36、进一步，所述lstm神经网络包括全连接层、relu、dropout层以及输出层。

37、本专利技术的技术效果是毋庸置疑的，本专利技术通过将视频输入到行为识别模型中，得到热力图并从中提取到人体骨骼点的坐标，再根据骨骼点之间的关系和变化推测具体的行为类型。

38、本专利技术不受光照变化、背景复杂度、人体外观差异等因素的干扰，能够有效地消除噪声。

本文档来自技高网...

【技术保护点】

1.一种基于骨骼关键点的多人场景行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，所述人体检测器包括YOLO V3网络。

3.根据权利要求1所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，所述空间变换网络将人体边界框图像中的人体对齐到中心位置，是指对人体边界框图像进行2D仿射变换。

4.根据权利要求2所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，2D仿射变换的变换公式如下所示：

5.根据权利要求1所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，所述FastPose网络包括ResNet主干网络、多个密集上采样卷积模块、卷积层；

6.根据权利要求1所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，利用两步热图归一化方法对人体边界框图像的热图进行处理的步骤包括：

7.根据权利要求1所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，所述空间逆变换网络利用逆变换方程将人体还原到原始位置；>

8.根据权利要求1所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，利用参数化姿态非最大抑制方法消除冗余坐标的步骤包括：

9.根据权利要求8所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，骨骼点匹配程度函数、空间距离函数分别如下所示：

10.根据权利要求1所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，所述LSTM神经网络包括全连接层、relu、dropout层以及输出层。

...

【技术特征摘要】

1.一种基于骨骼关键点的多人场景行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，所述人体检测器包括yolo v3网络。

3.根据权利要求1所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，所述空间变换网络将人体边界框图像中的人体对齐到中心位置，是指对人体边界框图像进行2d仿射变换。

4.根据权利要求2所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，2d仿射变换的变换公式如下所示：

5.根据权利要求1所述的一种基于骨骼关键点的多人场景行为识别方法，其特征在于，所述fastpose网络包括resnet主干网络、多个密集上采样卷积模块、卷积层；

6.根据权利要求1...

【专利技术属性】
技术研发人员：黎科宏，贺龙泽，王艺凡，陈雪峰，齐宏拓，冯亮，刘界鹏，
申请(专利权)人：重庆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人