一种多任务的人体姿态估计和行为识别的方法技术

技术编号:25224872 阅读:26 留言:0更新日期:2020-08-11 23:13
一种多任务的人体姿态估计和行为识别方法,采用端到端的多任务框架,主要实现功能有:对RGB图片进行3D姿态估计,输出3维坐标点;对连续视频帧,该系统将图片的视觉特征和中间联合概率热图作为外观特征与姿态估计获得坐标来进行人体姿态行为识别。本发明专利技术过单个体系结构有效解决了计算机视觉领域姿态估计和行为识别两种问题,具有一定的应用价值。

【技术实现步骤摘要】
一种多任务的人体姿态估计和行为识别的方法
本专利技术涉及计算机视觉中的人体姿态估计以及行为识别技术,具体涉及一种多任务的姿态估计和行为识别的方法。
技术介绍
人体姿态估计和人体行为识别都是计算机视觉中重要的研究课题,但目前将人体姿态估计和行为识别结合起来形成一个的体系还较少。实现2D姿态估计的方法有基于检测方法和基于回归方法,基于检测方法一般直接根据特征热图对关节点位置进行估计,但该方法不能直接提供关节点坐标。也有学者通过soft-argmax函数将热图直接转化为坐标点,因此基于检测的方法可以转化为基于回归的方法,有利于系统进行后续处理和调整。基于回归的方法也开始从2D姿态估计应用到3D姿态估计上去,通过将2D热图转换成体积热图,从而可以获得关节点的3D坐标,从而能进行简单的姿态估计。因为获得坐标,使得一些函数方法也能应用到姿态估计上来,如通过获得多视角的相机参数同时使用soft-argmax获得坐标点映射来进行三角测量,学习姿态估计,这使得姿态估计的精度更加提高。不只是2D/3D转换方面,基于回归的方法可以使姿态估计和视频行为识别在一个体系下进行一同处理。如果只靠图片上的一些视觉信息来进行姿态估计,在某些动作识别上会有局限性,同理,如果只用连续姿态来识别视频动作同样会有局限性。
技术实现思路
为了克服现有技术的组本专利技术目的在于提供一种多任务的人体姿态估计和行为识别的方法,该方法能够对输入的单个RGB图像进行2D/3D姿态估计,同时又能对输入视频帧进行行为识别,将姿态估计与视觉特征相结合来进行行为识别,来提高行为识别精度,同时多任务处理提高了系统的鲁棒性。为达到上述目的,本专利技术提供的技术方案如下:一种多任务的人体姿态估计和行为识别方法,该方法包括以下步骤:步骤1:输入连续视频帧,将摄像头采集视频帧输入计算机,单个RGB图像I∈RT×H×W×3,其中H×W为输入图像大小;步骤2:通过一个inception-v4网络的多任务主干模型提取特征,采用多次卷积和2次pooling,并行结构用来防止bottleneck问题,最后还有一个可分离残差模块;步骤3:将多任务主干模型输出输入到姿势估计模型,里面有K个预测块,预测块由分成3种不同分辨率的8个可分离残差模块组成;步骤4:使用soft-argmax函数获得各关节点的联合概率图,进行回归不断优化姿态估计与真实姿态位置误差,最终第K个估计姿态位置即为最终姿态位置;通过将2D热图转化为体积热图,定义的堆叠2D热图对应于深度分辨率;通过对z平均热图应用2D-Soft-argmax操作执行进行(x,y)坐标预测,z分量通过对x和y维均值的体积表示应用1D-Soft-argmax进行回归;通过以上步骤1-4,输出视频的2D/3D姿态坐标;步骤5:通过姿势识别模型,将姿态估计模块输出的带有Nj个关节点的T时间序列转化为类似图像的表现形式,时间T为垂直轴,关节点Nj为水平轴,并将每个点的坐标编码为通道;将其输入到姿态识别网络,该网络将输入通过一个全卷积神经网络将输入的姿势中提取的特征转化为动作热图;并且,经过K个预测块优化预测、max+min池化以及softmax函数激活生成每个动作的输出概率;步骤6:通过外观识别模型输出视觉特征和姿态估计输出关节点联合概率热图这里Nf为特征点个数,Nj为关节点个数;将视觉特征Vt乘以联合概率热图的每个关节点通道得到外观特征,然后将空间维数收缩得到t时刻的即外观特征为生成每个动作的输出概率;步骤7:将基于姿态识别的输出与基于外观识别输出相结合得到最终视频动作输出。进一步,对于姿态估计任务,运用弹性网络损失函数训练网络,如以下等式所定义:其中和pn分别为第n关节的估计位置和真实位置,Nj为关节个数,||||1为L1范数,||||2为L2范数,Lp为姿态的损失函数;使用SDG优化器优化姿态估计部分,当验证达到稳定水平时,学习率将减少0.2倍,并分批处理24张图像。再进一步,对于行为识别任务,使用预先训练的姿势估计模型权重来同时训练姿势和外观模型;运用交叉熵损失训练网络,使用经典的SGD优化器,在验证时学习率减少0.2倍,并分批处理2个视频剪辑;当验证准确性不再提高时,将最终学习率除以10,然后对整个网络进行微调,以获得更多的5个时期;在视频帧中选择固定时间T的样本剪辑进行训练,最后的识别结果为一个片段的平均结果。使用MPⅡ、Human3.6、PennAction数据集进行训练,为了合并不同的数据集,将姿势转换为通用布局,固定关节的数量等于具有更多关节的数据集。当只进行姿势估计时,使用8个预测块;对于动作识别,则使用4个预测块;对于所有实验,使用大小为256×256的裁切RGB图像,并通过旋转图像、垂直水平平移图像、缩小放大图像、将视频进行2次采样以及随机水平化来扩充数据。本专利技术中,网络体系结构主要分为四部分:多任务主干模型,姿势估计模型,姿势识别模型,外观识别模型。使用soft-argmax函数获得各关节点的联合概率图,进行回归不断优化姿态估计与真实姿态位置误差,最终第8个估计姿态位置即为最终姿态位置;通过将2D热图转化为体积热图,我们定义了堆叠的2D热图,对应于深度分辨率。在(x,y)坐标中的预测是通过对z平均热图应用2D-Soft-argmax操作执行的,而z分量通过对x和y维均值的体积表示应用1D-Soft-argmax进行回归。本专利技术的有益效果为:将姿态估计与视觉特征相结合来进行行为识别,来提高行为识别精度,同时多任务处理提高了系统的鲁棒性。附图说明图1为姿态估计和行为识别时,多任务主干模型和姿态估计模型的网络结构;图2为行为识别时,姿态识别模型和外观识别模型的网络结构。具体实施方式下面结合附图对本专利技术做进一步说明。参照图1和图2,一种多任务的人体姿态估计和行为识别方法,该方法能够对输入的单个RGB图像进行2D/3D姿态估计,同时又能对输入视频帧进行行为识别。网络体系结构主要分为四部分:多任务主干模型,姿势估计模型,姿势识别模型,外观识别模型。多任务主干模型,如附图1所示,主要由Inception-v4组成,Inception-v4的整体结构,其实就是多次卷积和2次pooling,其中pooling采用卷积+pooling并行的结构,来防止bottleneck问题,最后还有一个可分离残差模块;姿势估计模型,如附图1所示,主要由预测块组成,预测块由分成3种不同分辨率的8个可分离残差模块组成;姿势识别模型,外观识别模型,如附图2所示,这两个模型结构相似,都有动作预测块,动作预测块主要多次卷积,经过max+min池化以及softmax函数激活生成每个动作的输出概率。本专利技术多任务的人体姿态估计和行为识别方法,包括以下步骤:步骤1:使用MPⅡ、Human3.6、PennAction本文档来自技高网...

【技术保护点】
1.一种多任务的人体姿态估计和行为识别方法,其特征在于,该方法包括以下步骤:/n步骤1:输入连续视频帧,将摄像头采集视频帧输入计算机,单个RGB图像I∈R

【技术特征摘要】
1.一种多任务的人体姿态估计和行为识别方法,其特征在于,该方法包括以下步骤:
步骤1:输入连续视频帧,将摄像头采集视频帧输入计算机,单个RGB图像I∈RT×H×W×3,其中H×W为输入图像大小;
步骤2:通过一个inception-v4网络的多任务主干模型提取特征,采用多次卷积和2次pooling,并行结构用来防止bottleneck问题,最后还有一个可分离残差模块;
步骤3:将多任务主干模型输出输入到姿势估计模型,里面有K个预测块,预测块由分成3种不同分辨率的8个可分离残差模块组成;
步骤4:使用soft-argmax函数获得各关节点的联合概率图,进行回归不断优化姿态估计与真实姿态位置误差,最终第K个估计姿态位置即为最终姿态位置;通过将2D热图转化为体积热图,定义的堆叠2D热图对应于深度分辨率;通过对z平均热图应用2D-Soft-argmax操作执行进行(x,y)坐标预测,z分量通过对x和y维均值的体积表示应用1D-Soft-argmax进行回归;
通过以上步骤1-4,输出视频的2D/3D姿态坐标;
步骤5:通过姿势识别模型,将姿态估计模块输出的带有Nj个关节点的T时间序列转化为类似图像的表现形式,时间T为垂直轴,关节点Nj为水平轴,并将每个点的坐标编码为通道;将其输入到姿态识别网络,该网络将输入通过一个全卷积神经网络将输入的姿势中提取的特征转化为动作热图;并且,经过K个预测块优化预测、max+min池化以及softmax函数激活生成每个动作的输出概率;
步骤6:通过外观识别模型输出视觉特征和姿态估计输出关节点联合概率热图这里Nf为特征点个数,Nj为关节点个数;将视觉特征Vt乘以联合概率热图的每个关节点通道得到外观特征,然后将空间维数收缩得到t时刻的即外观特征为生成每个动作的...

【专利技术属性】
技术研发人员:吴哲夫蒋岳锋
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1