【技术实现步骤摘要】
一种基于双向序列化建模的人体姿态估计方法
本专利技术属于人体姿态估计
,具体涉及一种基于双向序列化建模的人体姿态估计方法。
技术介绍
人体姿态估计是计算机视觉中的一项前沿研究领域,它的目标在于定位出图片或视频中的人体关键部位(如手腕、脚踝),从而实现人体姿态估计。人体姿态估计是沟通机器与人之间的桥梁,具有重大的实际意义,已经广泛应用于很多领域,例如舞台动画领域,通过识别人的姿态动作可以产生实时可交互的动画效果;自动驾驶领域,通过预测行人的运动趋势可以提前避免车祸的发生;安防领域,通过识别特定的姿态序列可以检测异常行为。目前,人体姿态估计方法主要分为两类:(1)自顶向下,首先检测出图片中所有的人体位置,通常用矩形边界框标注人体;然后通过人体关节部位检测器识别每个人体的关节;接着利用仿射变换把裁剪后的人物姿态信息映射回原始图片,从而实现图片中所有人体姿态估计。自顶向下的方法将人物位置检测任务与人体关节检测任务分离,集中于姿态估计方法本身,因而具有较高的准确率,但是花费的检测时间与图片中人物数量呈正相关,并且该方法需 ...
【技术保护点】
1.一种基于双向序列化建模的人体姿态估计方法,包括如下步骤:/n(1)收集用于人体姿态估计的视频数据集并对其进行预处理;/n(2)对于视频数据集中一段完整的视频,以连续3帧视频图像作为一组样本,并对视频图像中人体各关键部位坐标进行人工标记;/n(3)构建双向连续性卷积神经网络,利用大量样本对该卷积神经网络进行训练,得到人体姿态估计模型;/n(4)将连续3帧待估计的视频图像输入至所述人体姿态估计模型中,输出得到其中第2帧视频图像中人物的姿态估计结果即人体各关键部位坐标。/n
【技术特征摘要】 【专利技术属性】
1.一种基于双向序列化建模的人体姿态估计方法,包括如下步骤:
(1)收集用于人体姿态估计的视频数据集并对其进行预处理;
(2)对于视频数据集中一段完整的视频,以连续3帧视频图像作为一组样本,并对视频图像中人体各关键部位坐标进行人工标记;
(3)构建双向连续性卷积神经网络,利用大量样本对该卷积神经网络进行训练,得到人体姿态估计模型;
(4)将连续3帧待估计的视频图像输入至所述人体姿态估计模型中,输出得到其中第2帧视频图像中人物的姿态估计结果即人体各关键部位坐标。
2.根据权利要求1所述的人体姿态估计方法,其特征在于:所述步骤(1)中对于视频数据集中的每一帧视频图像,通过YOLOv5算法检测图像中的人体ROI位置坐标,并将该ROI放大25%。
3.根据权利要求1所述的人体姿态估计方法,其特征在于:所述双向连续性卷积神经网络由Backbone网络、姿态时间合并网络、姿态残差融合网络以及姿态矫正网络组成,其中Backbone网络用于初步计算输入样本的三帧视频图像中人体的姿态特征向量hi-1、hi、hi+1,三个特征向量叠加后得到向量Φ(h)分别输入至姿态时间合并网络和姿态残差融合网络,姿态时间合并网络用于编码人体每个关节的大致空间范围得到特征向量ξ(h),姿态残差融合网络用于计算人体的姿态残差向量ψ(h),进而将ξ(h)及其叠加ψ(h)后的特征向量η输入到姿态矫正网络中计算得到人体姿态预测结果。
4.根据权利要求3所述的人体姿态估计方法,其特征在于:所述姿态时间合并网络由三个残差块堆叠组成,向量Φ(h)按关节顺序重组后作为该网络的输入,输出特征向量ξ(h);所述姿态残差融合网络由五个残差块堆叠组成,其首先将样本中第二帧与第一帧的姿态特征向量以及第二帧与第三帧的姿态特征向量分别做差,同时通过带有权重的级联得到张量ζ作为该网络的输入,输出姿态残差向量ψ(h),张量ζ的具体表达式如下:
5.根据权利要求4所述的人体姿态估计方法,其特征在于:所述残差块由一个3×3大小的卷积层、批量归一化层以及Relu激活层依次连接组成,姿态时间合并网络中的残差块采用分组卷积,分组数groups=17;姿态残差融合网络中的残差块未使用分组卷积,分组数groups=1。
6.根据权利要求3所述的人体姿态估计方法,其特征在于:所述姿态矫正网络由五个平行的可形变卷积组成,五个可形变卷积的扩张率分别为3、6、9、12、15,每个可形变卷积以特征向量ξ(h)与η堆叠后的结果作为输入,输出预测的高斯热图,对五个卷积分别输出的五张高斯热图取平均即得到人体姿态预测结果。
技术研发人员:刘振广,封润洋,陈豪明,王勋,钱鹏,
申请(专利权)人:浙江工商大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。