一种基于关键点运动估计的人体连续姿态估计方法技术

技术编号：34768525 阅读：12 留言：0更新日期：2022-08-31 19:24

本发明专利技术公开了一种基于关键点运动估计的人体连续姿态估计方法，将运动估计块匹配算法运用于人体关键点跟踪，从而获得人体连续姿态结果，同时使用基于深度神经网络的人体姿态估计器不断对结果进行修正。本发明专利技术可实现对视频流中人体连续姿态的估计，其中人体姿态具体体现为视频帧中人体关键点的坐标位置。相比于完全依靠深度神经网络的姿态估计方法，本发明专利技术所提出的姿态估计方法具有帧率高、硬件要求低、识别结果具有时序连续特性的优点；相比完全依靠运动估计算法的姿态估计方法，本发明专利技术可修正积累误差，提高估计精度。提高估计精度。提高估计精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于关键点运动估计的人体连续姿态估计方法

[0001]本专利技术涉及视频图像处理
，特别是涉及一种基于关键点运动估计的人体连续姿态估计方法。

技术介绍

[0002]近年来，图像/视频中的人体姿态估计一般使用深度神经网络来实现。然而，深度神经网络对计算机硬件的要求较高、对计算资源的消耗较大，虽然计算结果精度较高，但是计算速度较慢、实时性较差，这些缺陷限制了人体姿态估计的应用场合，使其推广难度增大。除此之外，使用深度神经网络估计视频中的人体姿态，本质上还是将视频拆分为每一帧图像分别进行计算，没有利用到视频中每一帧图像之间的人体姿态信息具有连续性这一先验知识，这样导致每一帧的信息是独立和割裂的，容易出现跳变。
[0003]基于以上深度神经网络提取人体姿态方案，有如下参考文献：
[0004](1)授权公告号为CN110334607B，专利技术名称为“一种视频人体交互行为识别方法及系统”的专利技术专利中，使用YOLOv3网络进行行人检测，所述YOLOv3网络属于一种卷积神经网络。
[0005](2)公开号为CN112686097A，专利技术名称为“一种人体图像关键点姿态估计方法”的专利技术专利申请中，通过训练获得能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型。
[0006](3)公开号为CN110638461A，专利技术名称为“一种在电动病床上人体姿态识别方法及系统”的专利技术专利申请中，利用Stacked Hourglass算法识别人体姿态。Stacked Ho...

【技术保护点】

【技术特征摘要】
1.一种基于关键点运动估计的人体连续姿态估计方法，其特征在于，用于进行估计的系统包括两种估计器，估计器1：预训练好的深度神经网络姿态估计器，估计器2：基于视频编码H.264标准的运动估计器，所述基于关键点运动估计的人体连续姿态估计方法包括三个阶段：第一阶段：系统开始运行后，对于首帧导入的视频帧，作为关键帧I0，使用估计器1对其中的人体姿态进行识别，从而获取初始的人体关键点坐标；在估计器1运算过程中，系统继续采集到多帧视频帧，暂存在计算机内存队列中；待估计器1运算结束后，将得到的关键点坐标数据和暂存的所有视频帧传入估计器2中依次运算，得到每个视频帧的人体关键点估计结果；第二阶段：在第一阶段估计器1运算完毕后，系统紧接着采集到的下一帧视频帧I1，同时使用估计器1和估计器2对其进行运算，并在估计器1尚未运算完毕的过程中，对后续采集到的新视频帧继续采用估计器2进行实时运算；第三阶段：待第二阶段中估计器1运算完毕后，比较估计器1和估计器2对视频帧I1中关键点的估计结果，如果二者所有的关键点坐标误差之和小于设定阈值ε，则对后面的视频帧重复第二阶段的步骤；如果二者误差大于该阈值，则以估计器1对视频帧I1关键点的估计结果为准，重新用估计器2更新在估计器1运算期间估计器2所得到的视频帧关键点估计结果，待这些结果更新完毕，再对后面的视频帧重复第二阶段的步骤。2.根据权利要求1所述基于关键点运动估计的人体连续姿态估计方法，其特征在于，估计器1采用由MPI
‑
INF
‑
3DHP数据集训练完成的VNect、DeepPose、Stacked Hourglass或RMPE神经网络模型。3.根据权利要求1所述基于关键点运动估计的人体连续姿态估计方法，其特征在于，估计器2中的算法为使用块匹配算法检测关键点坐标变化的算法，在块匹配算法中，需要在当前帧中基于给定的匹配准则来寻找与上一帧中待匹配宏块最相似的块，宏块是以选定的关键点为中心的一小块矩形区域，块匹配的范围称作搜索窗口，它是以选定的关键点为中心的更大的一块矩形区域，在搜索窗口内与待匹配宏块误差最小的宏块，就作为匹配结果。4.根据权利要求3所述基于关键点运动估计的人体连续姿态估计方法，其特征在于，块匹配算法中匹配准则使用最小均方差函数MSE、最小平均绝对值误差MAD或最小差值和SAD准则，定义分别如下：定义分别如下：定义分别如下：其中，p代表待匹配宏块B中的像素点，v表示正在进行匹配的两个宏块对应的运动矢
量，f(a)表示当前视频帧中a位置处的像素值，f
last
(a)表示前一视频帧中a位置处...

【专利技术属性】
技术研发人员：杨灿军，武鑫，涂章鹏，吴威涛，朱元超，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人