当前位置: 首页 > 专利查询>之江实验室专利>正文

基于人体姿态及其躯干运动场的行为识别方法技术

技术编号:37066535 阅读:11 留言:0更新日期:2023-03-29 19:44
基于人体姿态及其躯干运动场的行为识别方法,包括:获取多人人体彩色图像作为输入;采用目标检测网络从所述多人人体彩色图像中检测二维人体包围框,采用二维人体姿态估计网络从截取的图像中计算二维人体姿态;基于二维人体姿态分别计算关键点热图和躯干运动场,拼接这两种模态作为人体姿态表征;将人体姿态表征作为输入,建立姿态网络用于提取人体行为特征,输出分类器中概率最大的行为类别;采集多人人体彩色图像序列、二维人体姿态以及对应的类别标签作为训练数据集,采用随机梯度下降的优化方法对姿态网络进行预训练优化。本发明专利技术减少了复杂背景下行为动作在时间序列的歧义性,提高了低采样帧率下的行为识别的准确率。提高了低采样帧率下的行为识别的准确率。提高了低采样帧率下的行为识别的准确率。

【技术实现步骤摘要】
基于人体姿态及其躯干运动场的行为识别方法


[0001]本专利技术涉及计算机视觉领域,尤其涉及了一种基于人体姿态及其躯干运动场的行为识别方法,通过拼接关键点热图和躯干运动场构建人体姿态表征,对人体姿态本身、行为顺序及运动形式进行建模,适用于视频监控对用户肢体行为的分析和定位。

技术介绍

[0002]随着深度神经网络的迅猛发展,视觉驱动的人类行为识别取得了显著进展,并逐渐应用于视频监控、自动驾驶汽车和社交机器人的各个领域。行为识别的中心任务是将视频中的某个人类动作分类为预定义的动作类别,如“摘帽”、“摘掉眼镜”、“拍手”、“挥手”等。随着视频监控资源的指数级增长,原有通过人员在线监督和识别的解决方案存在成本高、效率低和工作时长制约的难题,已适应不了海量、多样和持续的监控视频分析工作。近年来,随着云边端计算与高清摄像头的联网互通,监控摄像头从第三视角完整捕捉和分析人们的连续动作成为可能。然而,人体行为存在行为时序长短不一和采样帧率不足等难题。针对低采样帧率的行为动作,现有解决方案仍然缺少对人体姿态本身、行为顺序及运动形式进行建模,无法实现稳定的行为识别技术。由此可见,在保持低帧率采样和高效计算的情况下,行为识别方法需要同时兼顾稳定性。

技术实现思路

[0003]本专利技术要克服现有技术的人体行为存在行为时序长短不一和采样帧率不足等缺点,提供一种基于人体姿态及其躯干运动场的行为识别方法。
[0004]为达到上述目的,本专利技术通过以下技术方案来实现的:一种基于人体姿态及其躯干运动场的行为识别方法,包括如下步骤:
[0005]步骤S101,获取多人人体彩色图像作为输入;
[0006]步骤S102,采用目标检测网络从所述多人人体彩色图像中检测二维人体包围框,采用二维人体姿态估计网络从截取的图像中计算二维人体姿态;
[0007]步骤S103,基于二维人体姿态分别计算关键点热图和躯干运动场,拼接这两种模态作为人体姿态表征;
[0008]步骤S104,将人体姿态表征作为输入,建立姿态网络用于提取人体行为特征,输出分类器中概率最大的行为类别;
[0009]步骤S105,采集多人人体彩色图像序列、二维人体姿态以及对应的类别标签作为训练数据集,采用随机梯度下降的优化方法对姿态网络进行预训练优化。
[0010]步骤S101所述的多人人体彩色图像应尽量捕捉到人体的全身姿态,可通过调节彩色相机或监控摄像头的离地高度和拍摄角度获取优质图像。
[0011]步骤S102所述的目标检测网络和二维人体姿态估计网络均采用轻量化可实时运行的开源预训练模型;
[0012]所述目标检测网络从彩色图像中检测出“人”的类别置信度c
j
及其二维人体包围
框(u1,v1,u2,v2),当人体类别置信度c
j
≥0.3时,从图像中剪裁出(u1,v1,u2,v2)作为局部图像;
[0013]所述二维人体姿态估计网络从局部图像中计算出二维人体关键点,可由相机坐标系下人体的头部、脖子、右肩、左肩等14个关键关节的二维坐标组成,记作c
j
为置信度,ξ为每个人的关节总数,第t帧彩色图像的总人数为ρ,p∈{1,ρ}为图像第p个人;
[0014]步骤S103所述的关键点热图将二维人体关键点重构成类似图像的模态,可选择高斯分布函数作为基函数,第t帧第j个关键点热图可以计算如下:
[0015][0016]式中,σ=1为高斯分布的标准差,第t帧彩色图像中有关第j个关节(x
j
,y
j
)的热图分布;通过将每一帧图像中的每一个关节热图拼接,可构建关键点热图为H
P
和W
P
分别表示热图的高度和宽度,t为采样帧数。
[0017]所述躯干运动场将人体躯干的平面运动分解为平动和转动两种基本形式,通过组合平动和转动可以独立描述人体躯干的三种常见运动,即旋转,反转和平移。躯干运动场通过计算躯干运动掩膜和速度单位向量,描述相邻帧的人体躯干运动变化区域。给定任意一对相邻帧躯干和s和e分别为躯干的起始和终止端点的二维坐标,则第t帧第k个躯干的运动场可以计算如下:
[0018][0019]式中,和

的像素值均为1,分别表示扇形和四边形的运动掩膜,例如,则表示以D0为圆心且旋转起始和终止端点分别为和的扇形,则表示以和为四个端点逆时针连接的四边形;D0是线段和线段的交点,P0是线段和的交点,D0和P0分别称为旋转交点和反转交点,用于判断相邻帧躯干的运动形式为“旋转”还是“反转”;和为速度向量,可以计算如下:
[0020][0021]为反转运动的分解端点。通过将相邻图像中每一个躯干的躯干运动场拼接,可构建在此基础叠加一维相邻帧的统计均值,构造最终的躯干运动场κ=13为躯干的总数量。
[0022]所述拼接方法将关键点热图Kh与躯干运动场Lff在沿着第二维度叠加,拼接后的人体姿态表征为
[0023]步骤S104所述的姿态网络基于二维卷积神经网络构建,采用开源的ResNet

18作
为网络的整体结构,以人体姿态表征为输入,提取512维度的人体行为特征;
[0024]所述分类器由全局池化层、全连接网络层和Softmax层构成,以人体行为特征作为输入,输出输出行为类别得分,其输出维度与行为类别的数量一致,并从中挑选出得分最高的类别作为识别结果。
[0025]步骤S105所述的采集的多人人体彩色图像序列,应包括不同受试人员、不同角度和不同类别的常见动作集,如挥手、点头、握手等类别不低于10个,采集的各类别动作样本量不低于5000个;
[0026]所述训练数据集对不同时长的动作序列长度进行标准化,并行为序列中均匀采样出32帧作为样本,行为类别采用One

hot编码作为标签;
[0027]所述随机梯度下降的优化方法,采用标准交叉熵损失函数评估:
[0028][0029]式中,p
c,n
和动作类别得分的真实值和预测值,N为训练样本数量,C为动作类别数量。训练批尺寸为32,学习速率设置为0.001。
[0030]本专利技术还包括一种基于人体姿态及其躯干运动场的行为识别装置,包括:
[0031]人体彩色图像获取模块,用于获取多人人体彩色图像作为输入;
[0032]二维人体姿态计算模块,用于采用目标检测网络从所述多人人体彩色图像中检测二维人体包围框,采用二维人体姿态估计网络从截取的图像中计算二维人体姿态;
[0033]人体姿态表征模块,用于基于二维人体姿态分别计算关键点热图和躯干运动场,拼接这两种模态作为人体姿态表征;
[0034]行为类别输出模块,用于将人体姿态表征作为输入,建立姿态网络用于提取人体行为特征,输出分类器中概率最大的行为类别;
[0035]姿态网络预训练优化模块,用于采集多人人体彩色图像序列、二维人体姿态以及对应的类别标签作为训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人体姿态及其躯干运动场的行为识别方法,其特征在于,包括:步骤S101,获取多人人体彩色图像作为输入;步骤S102,采用目标检测网络从所述多人人体彩色图像中检测二维人体包围框,采用二维人体姿态估计网络从截取的图像中计算二维人体姿态;步骤S103,基于二维人体姿态分别计算关键点热图和躯干运动场,拼接这两种模态作为人体姿态表征;步骤S104,将人体姿态表征作为输入,建立姿态网络用于提取人体行为特征,输出分类器中概率最大的行为类别;步骤S105,采集多人人体彩色图像序列、二维人体姿态以及对应的类别标签作为训练数据集,采用随机梯度下降的优化方法对姿态网络进行预训练优化。2.根据权利要求1所述的行为识别方法,其特征在于,所述步骤S101,包括:所述多人人体彩色图像应尽量捕捉到人体的全身姿态,通过调节彩色相机或监控摄像头的离地高度和拍摄角度获取优质图像。3.根据权利要求1所述的行为识别方法,其特征在于,所述步骤S102,包括:所述目标检测网络和二维人体姿态估计网络均采用轻量化可实时运行的开源预训练模型;所述目标检测网络从彩色图像中检测出“人”的类别置信度c
j
及其二维人体包围框(u1,v1,u2,v2),当人体类别置信度c
j
≥0.3时,从图像中剪裁出(u1,v1,u2,v2)作为局部图像;所述二维人体姿态估计网络从局部图像中计算出二维人体关键点,可由相机坐标系下人体的头部、脖子、右肩、左肩等14个关键关节的二维坐标组成,记作c
j
为置信度,ξ为每个人的关节总数,第t帧彩色图像的总人数为ρ,p∈{1,ρ}为图像第p个人。4.根据权利要求1所述的行为识别方法,其特征在于,所述步骤S103,包括:所述关键点热图将二维人体关键点重构成类似图像的模态,可选择高斯分布函数作为基函数,第t帧第j个关键点热图可以计算如下:式中,σ=1为高斯分布的标准差,第t帧彩色图像中有关第j个关节(x
j
,y
j
)的热图分布;通过将每一帧图像中的每一个关节热图拼接,可构建关键点热图为H
P
和W
P
分别表示热图的高度和宽度,T为采样帧数;所述躯干运动场将人体躯干的平面运动分解为平动和转动两种基本形式,通过组合平动和转动可以独立描述人体躯干的三种常见运动,即旋转,反转和平移;躯干运动场通过计算躯干运动掩膜和速度单位向量,描述相邻帧的人体躯干运动变化区域;给定任意一对相邻帧躯干和s和e分别为躯干的起始和终止端点的二维坐标,则第t帧第k个躯干的运动场可以计算如下:
式中,和

的像素值均为1,分别表示扇形和四边形的运动掩膜,例如,则表示以D0为圆心且旋转起始和终止端点分别为和的扇形,则表示以和为四个端点逆时针连接的四边形...

【专利技术属性】
技术研发人员:朱世强郭方泰宋伟顾建军朱佳凯孟启炜金天磊
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1