当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于关键点运动估计的人体连续姿态估计方法技术

技术编号:34768525 阅读:12 留言:0更新日期:2022-08-31 19:24
本发明专利技术公开了一种基于关键点运动估计的人体连续姿态估计方法,将运动估计块匹配算法运用于人体关键点跟踪,从而获得人体连续姿态结果,同时使用基于深度神经网络的人体姿态估计器不断对结果进行修正。本发明专利技术可实现对视频流中人体连续姿态的估计,其中人体姿态具体体现为视频帧中人体关键点的坐标位置。相比于完全依靠深度神经网络的姿态估计方法,本发明专利技术所提出的姿态估计方法具有帧率高、硬件要求低、识别结果具有时序连续特性的优点;相比完全依靠运动估计算法的姿态估计方法,本发明专利技术可修正积累误差,提高估计精度。提高估计精度。提高估计精度。

【技术实现步骤摘要】
一种基于关键点运动估计的人体连续姿态估计方法


[0001]本专利技术涉及视频图像处理
,特别是涉及一种基于关键点运动估计的人体连续姿态估计方法。

技术介绍

[0002]近年来,图像/视频中的人体姿态估计一般使用深度神经网络来实现。然而,深度神经网络对计算机硬件的要求较高、对计算资源的消耗较大,虽然计算结果精度较高,但是计算速度较慢、实时性较差,这些缺陷限制了人体姿态估计的应用场合,使其推广难度增大。除此之外,使用深度神经网络估计视频中的人体姿态,本质上还是将视频拆分为每一帧图像分别进行计算,没有利用到视频中每一帧图像之间的人体姿态信息具有连续性这一先验知识,这样导致每一帧的信息是独立和割裂的,容易出现跳变。
[0003]基于以上深度神经网络提取人体姿态方案,有如下参考文献:
[0004](1)授权公告号为CN110334607B,专利技术名称为“一种视频人体交互行为识别方法及系统”的专利技术专利中,使用YOLOv3网络进行行人检测,所述YOLOv3网络属于一种卷积神经网络。
[0005](2)公开号为CN112686097A,专利技术名称为“一种人体图像关键点姿态估计方法”的专利技术专利申请中,通过训练获得能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型。
[0006](3)公开号为CN110638461A,专利技术名称为“一种在电动病床上人体姿态识别方法及系统”的专利技术专利申请中,利用Stacked Hourglass算法识别人体姿态。Stacked Hourglass属于一种深度神经网络。
[0007](4)公开号为CN110197123A,专利技术名称为“一种基于Mask R

CNN的人体姿态识别方法”的专利技术专利申请中,利用Mask R

CNN网络提取姿态特征。Mask R

CNN网络属于一种深度神经网络。
[0008](5)公开号为CN109919122A,专利技术名称为“一种基于3D人体关键点的时序行为检测方法”的专利技术专利申请中,利用多层CNN网络提取人员目标边界框,通过过身体部位定位和关联程度分析获取2D关键点坐标,然后构造关键点回归网络,实现2D关键点到3D关键点的映射。所述CNN及关键点回归网络均属于深度神经网络。
[0009]在广义的图像处理与视频编码领域,有H.264、H.265等业内公认的编码标准和协议。在这些标准中,运动估计的最终目的是实现对视频中连续图片帧的压缩,它是通过将整幅图片分割为许多小区域(宏块)、然后对这些宏块进行最相似区域搜索估计来实现的。上述基于块匹配的运动估计算法称为块匹配算法。

技术实现思路

[0010]本专利技术针对现有技术中使用深度神经网络进行人体姿态估计时存在的上述不足,提出一种融合深度神经网络人体姿态估计算法与块匹配运动估计算法的人体连续姿态估
计算法。所提出算法可以充分发挥两种技术路线的优势,同时规避和补齐其劣势,实现又快又准的人体连续姿态估计。
[0011]一种基于关键点运动估计的人体连续姿态估计方法,用于进行估计的系统包括两种估计器,
[0012]估计器1:预训练好的深度神经网络姿态估计器,
[0013]估计器2:基于视频编码H.264标准的运动估计器,
[0014]所述基于关键点运动估计的人体连续姿态估计方法包括三个阶段:
[0015]第一阶段:系统开始运行后,对于首帧导入的视频帧,作为关键帧I0,使用估计器1对其中的人体姿态进行识别,从而获取初始的人体关键点坐标;在估计器1运算过程中,系统继续采集到多帧视频帧,暂存在计算机内存队列中;待估计器1运算结束后,将得到的关键点坐标数据和暂存的所有视频帧传入估计器2中依次运算,得到每个视频帧的人体关键点估计结果;
[0016]第二阶段:在第一阶段估计器1运算完毕后,系统紧接着采集到的下一帧视频帧I1,同时使用估计器1和估计器2对其进行运算,并在估计器1尚未运算完毕的过程中,对后续采集到的新视频帧继续采用估计器2进行实时运算;
[0017]第三阶段:待第二阶段中估计器1运算完毕后,比较估计器1和估计器2对视频帧I1中关键点的估计结果,如果二者所有的关键点坐标误差之和小于设定阈值ε,则对后面的视频帧重复第二阶段的步骤;如果二者误差大于该阈值,则以估计器1对视频帧I1关键点的估计结果为准,重新用估计器2更新在估计器1运算期间估计器2所得到的视频帧关键点估计结果,待这些结果更新完毕,再对后面的视频帧重复第二阶段的步骤。
[0018]第三阶段中设定阈值ε的大小可以根据需要进行设定,并没有统一标准。
[0019]优选的,估计器1采用由MPI

INF

3DHP数据集训练完成的VNect、DeepPose、Stacked Hourglass或RMPE神经网络模型。
[0020]优选的,估计器2中的算法为使用块匹配算法检测关键点坐标变化的算法,在块匹配算法中,需要在当前帧中基于给定的匹配准则来寻找与上一帧中待匹配宏块最相似的块,宏块是以选定的关键点为中心的一小块矩形区域,块匹配的范围称作搜索窗口,它是以选定的关键点为中心的更大的一块矩形区域,在搜索窗口内与待匹配宏块误差最小的宏块,就作为匹配结果。
[0021]更优选的,块匹配算法中匹配准则使用最小均方差函数(MSE)、最小平均绝对值误差(MAD)或最小差值和(SAD)准则,
[0022]定义分别如下:
[0023][0024][0025][0026]其中,p代表待匹配宏块B中的像素点,v表示正在进行匹配的两个宏块对应的运动
矢量,f(a)表示当前视频帧中a位置处的像素值,f
last
(a)表示前一视频帧中a位置处的像素值,即,如果f(p+v)表示当前视频帧中p+v位置处的像素值,f
last
(p)表示前一视频帧中p位置处的像素值。
[0027]更优选的,确定匹配准则后,还需要对实际的宏块进行匹配,块匹配算法在当前帧中选取将要进行匹配的宏块时,使用搜索模板来有选择性地确定待选取的宏块。进一步优选的,使用搜索模板来有选择性地确定待选取的宏块时,使用的运动估计搜索算法为三步搜索法、菱形搜索法或四步搜索法。
[0028]进一步优选的,三步搜索法步骤如下:
[0029]第一步:设定视频帧中完全包含宏块的一个较大区域为搜索窗口,宏块中心为搜索窗口的中心点,以该中心点为搜索起点,搜索步长从等于或略大于二分之一搜索窗口半径开始,在每一步长的搜索中,计算当前正方形的中心点和四周八个点共九个点的匹配指标,选择指标最好的点作为下一次搜索的中心点;
[0030]第二步:以上一步中得到的点为中心,将本次搜索步长减为上次搜索步长的一半,然后进行相似的搜索,再得到一个最佳匹配点;
[0031]第三步,继续将搜索步长减为上次的一半,搜索找到最佳匹配位置。
[0032]进一步优选的,菱形搜本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键点运动估计的人体连续姿态估计方法,其特征在于,用于进行估计的系统包括两种估计器,估计器1:预训练好的深度神经网络姿态估计器,估计器2:基于视频编码H.264标准的运动估计器,所述基于关键点运动估计的人体连续姿态估计方法包括三个阶段:第一阶段:系统开始运行后,对于首帧导入的视频帧,作为关键帧I0,使用估计器1对其中的人体姿态进行识别,从而获取初始的人体关键点坐标;在估计器1运算过程中,系统继续采集到多帧视频帧,暂存在计算机内存队列中;待估计器1运算结束后,将得到的关键点坐标数据和暂存的所有视频帧传入估计器2中依次运算,得到每个视频帧的人体关键点估计结果;第二阶段:在第一阶段估计器1运算完毕后,系统紧接着采集到的下一帧视频帧I1,同时使用估计器1和估计器2对其进行运算,并在估计器1尚未运算完毕的过程中,对后续采集到的新视频帧继续采用估计器2进行实时运算;第三阶段:待第二阶段中估计器1运算完毕后,比较估计器1和估计器2对视频帧I1中关键点的估计结果,如果二者所有的关键点坐标误差之和小于设定阈值ε,则对后面的视频帧重复第二阶段的步骤;如果二者误差大于该阈值,则以估计器1对视频帧I1关键点的估计结果为准,重新用估计器2更新在估计器1运算期间估计器2所得到的视频帧关键点估计结果,待这些结果更新完毕,再对后面的视频帧重复第二阶段的步骤。2.根据权利要求1所述基于关键点运动估计的人体连续姿态估计方法,其特征在于,估计器1采用由MPI

INF

3DHP数据集训练完成的VNect、DeepPose、Stacked Hourglass或RMPE神经网络模型。3.根据权利要求1所述基于关键点运动估计的人体连续姿态估计方法,其特征在于,估计器2中的算法为使用块匹配算法检测关键点坐标变化的算法,在块匹配算法中,需要在当前帧中基于给定的匹配准则来寻找与上一帧中待匹配宏块最相似的块,宏块是以选定的关键点为中心的一小块矩形区域,块匹配的范围称作搜索窗口,它是以选定的关键点为中心的更大的一块矩形区域,在搜索窗口内与待匹配宏块误差最小的宏块,就作为匹配结果。4.根据权利要求3所述基于关键点运动估计的人体连续姿态估计方法,其特征在于,块匹配算法中匹配准则使用最小均方差函数MSE、最小平均绝对值误差MAD或最小差值和SAD准则,定义分别如下:定义分别如下:定义分别如下:其中,p代表待匹配宏块B中的像素点,v表示正在进行匹配的两个宏块对应的运动矢
量,f(a)表示当前视频帧中a位置处的像素值,f
last
(a)表示前一视频帧中a位置处...

【专利技术属性】
技术研发人员:杨灿军武鑫涂章鹏吴威涛朱元超
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1