一种多任务的人体姿态估计和行为识别的方法技术

技术编号：25224872 阅读：26 留言：0更新日期：2020-08-11 23:13

一种多任务的人体姿态估计和行为识别方法，采用端到端的多任务框架，主要实现功能有：对RGB图片进行3D姿态估计，输出3维坐标点；对连续视频帧，该系统将图片的视觉特征和中间联合概率热图作为外观特征与姿态估计获得坐标来进行人体姿态行为识别。本发明专利技术过单个体系结构有效解决了计算机视觉领域姿态估计和行为识别两种问题，具有一定的应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种多任务的人体姿态估计和行为识别的方法
本专利技术涉及计算机视觉中的人体姿态估计以及行为识别技术，具体涉及一种多任务的姿态估计和行为识别的方法。
技术介绍
人体姿态估计和人体行为识别都是计算机视觉中重要的研究课题，但目前将人体姿态估计和行为识别结合起来形成一个的体系还较少。实现2D姿态估计的方法有基于检测方法和基于回归方法，基于检测方法一般直接根据特征热图对关节点位置进行估计，但该方法不能直接提供关节点坐标。也有学者通过soft-argmax函数将热图直接转化为坐标点，因此基于检测的方法可以转化为基于回归的方法，有利于系统进行后续处理和调整。基于回归的方法也开始从2D姿态估计应用到3D姿态估计上去，通过将2D热图转换成体积热图，从而可以获得关节点的3D坐标，从而能进行简单的姿态估计。因为获得坐标，使得一些函数方法也能应用到姿态估计上来，如通过获得多视角的相机参数同时使用soft-argmax获得坐标点映射来进行三角测量，学习姿态估计，这使得姿态估计的精度更加提高。不只是2D/3D转换方面，基于回归的方法可以使姿态估计和视频行为识别在一个体系下进行一同处理。如果只靠图片上的一些视觉信息来进行姿态估计，在某些动作识别上会有局限性，同理，如果只用连续姿态来识别视频动作同样会有局限性。
技术实现思路
为了克服现有技术的组本专利技术目的在于提供一种多任务的人体姿态估计和行为识别的方法，该方法能够对输入的单个RGB图像进行2D/3D姿态估计，同时又能对输入视频帧进行行为识别，...

【技术保护点】
1.一种多任务的人体姿态估计和行为识别方法，其特征在于，该方法包括以下步骤：/n步骤1：输入连续视频帧，将摄像头采集视频帧输入计算机，单个RGB图像I∈R

【技术特征摘要】
1.一种多任务的人体姿态估计和行为识别方法，其特征在于，该方法包括以下步骤：
步骤1：输入连续视频帧，将摄像头采集视频帧输入计算机，单个RGB图像I∈RT×H×W×3,其中H×W为输入图像大小；
步骤2：通过一个inception-v4网络的多任务主干模型提取特征，采用多次卷积和2次pooling，并行结构用来防止bottleneck问题，最后还有一个可分离残差模块；
步骤3：将多任务主干模型输出输入到姿势估计模型，里面有K个预测块，预测块由分成3种不同分辨率的8个可分离残差模块组成；
步骤4：使用soft-argmax函数获得各关节点的联合概率图，进行回归不断优化姿态估计与真实姿态位置误差，最终第K个估计姿态位置即为最终姿态位置；通过将2D热图转化为体积热图，定义的堆叠2D热图对应于深度分辨率；通过对z平均热图应用2D-Soft-argmax操作执行进行(x,y)坐标预测，z分量通过对x和y维均值的体积表示应用1D-Soft-argmax进行回归；
通过以上步骤1-4，输出视频的2D/3D姿态坐标；
步骤5：通过姿势识别模型，将姿态估计模块输出的带有Nj个关节点的T时间序列转化为类似图像的表现形式，时间T为垂直轴，关节点Nj为水平轴，并将每个点的坐标编码为通道；将其输入到姿态识别网络，该网络将输入通过一个全卷积神经网络将输入的姿势中提取的特征转化为动作热图；并且，经过K个预测块优化预测、max+min池化以及softmax函数激活生成每个动作的输出概率；
步骤6：通过外观识别模型输出视觉特征和姿态估计输出关节点联合概率热图这里Nf为特征点个数，Nj为关节点个数；将视觉特征Vt乘以联合概率热图的每个关节点通道得到外观特征，然后将空间维数收缩得到t时刻的即外观特征为生成每个动作的...

【专利技术属性】
技术研发人员：吴哲夫，蒋岳锋，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人