基于卷积神经网络的舞蹈视频人体骨架检测与提取方法技术

技术编号:22330637 阅读:26 留言:0更新日期:2019-10-19 12:22
本发明专利技术提供了基于卷积神经网络的舞蹈视频人体骨架检测与提取方法,对舞蹈视频预处理获得图片样本,获取COCO数据集图片样本与关键点标注标签,计算标注数据,将计算结果和对应的数据集图片输入模型检测器中不断迭代训练;将待处理的舞蹈图片输入训练后模型检测器中,得到检测结果;对检测结果解析连接,完成多人人体骨架的提取;本发明专利技术实时性高,检测提取准确率高;设计了面向人体部位检测和部位关联的联合学习体系架构,以分数表示部位连接关系的紧密程度,提高检测准确率;图像中的人数增加时也能保持检测提取效率,具有较好的鲁棒性和扩展性。

Detection and extraction of human skeleton in dance video based on convolutional neural network

【技术实现步骤摘要】
基于卷积神经网络的舞蹈视频人体骨架检测与提取方法
本专利技术属于人工智能
,具体涉及基于卷积神经网络的舞蹈视频人体骨架检测与提取方法。
技术介绍
中华民族的舞蹈文化源远流长且种类繁多,随着我国传统文化保护战略的引导,采集民族民间舞蹈动作数据,使民族民间舞蹈动作通过数字化手段保存并传播在当前具有重要的研究意义,但是现在的各种人体姿态估计大多使用传统跟踪的方法或借助动作捕捉工具,实时性不高且对于多人姿态估计准确率低,对舞蹈的美观程度和同步具有很大的影响。因此如何精准检测并提取多人舞蹈视频中的人体姿态骨架并保持较好的实时性,成为当下急需解决的一个问题。
技术实现思路
本专利技术的目的是提供基于卷积神经网络的舞蹈视频人体骨架检测与提取方法,解决了现有人体骨架检测准确率低,实时性差的问题。本专利技术所采用的技术方案是,基于卷积神经网络的舞蹈视频人体骨架检测与提取方法,包括以下步骤:步骤1、对舞蹈视频预处理获得舞蹈图片样本;步骤2、使用具有关键点标注的COCO数据集作为训练集,获取COCO数据集图片样本与关键点标注标签;步骤3、计算步骤2中的标注图片样本,将计算结果和对应的数据集图片输入模型检测器中不断迭代训练;步骤4、将步骤1中待处理的舞蹈图片输入步骤3训练后的模型检测器中,得到检测结果;步骤5、对步骤4中的检测结果解析连接,完成多人人体骨架的提取。本专利技术的特征还在于,步骤1的具体过程为:步骤1-1、获得多人舞蹈视频;步骤1-2、使用MATLAB读取并分析该视频,获取舞蹈视频的视频帧并以图片形式保存到本地文件夹中;步骤1-3、对本地图片统一压缩至分辨率为w×h,得到舞蹈图片样本。步骤3的具体过程为:步骤3-1、计算步骤2所得数据集标注图片标签得到身体部位位置的真值二维置信图S*,表示在每个像素位置都有一个特定的身体部位,并以高斯分布图显示;步骤3-2、据步骤2所得数据集标注图片标签计算得到身体部位关联场的真值二维向量场L*,指明肢体的位置和方向信息;步骤3-3、将步骤2中的COCO数据集图片样本输入模型检测器中,计算预测结果与真值结果的均方误差不断迭代优化网络,得到最小均方误差,训练完成。步骤3-1具体计算过程为,首先为图像中的每个人体k生成单个部位置信图每个像素点p的部位置信图生成公式如下:其中p表示舞蹈图片中的像素点,j表示图片中人体的身体部位,Xj,k表示图中人体k身体部位j的真值部位,σ控制峰值的宽度;然后通过对所有部位置信图取最大进行聚合获得像素点处身体部位分布的置信图公式如下:其中k表示标注图中的人体,j表示身体部位,p表示像素点位置。步骤3-2具体计算过程为,每个像素点p的真值部位关联向量场定义为:其中c表示人体的肢体,k表示人体,v表示身体部位j1到身体部位j2在肢体方向上的单位向量,计算公式如下:v=(Xj2,k-Xj1,k)/||Xj2,k-Xj1,k||2(4)其中Xj1,k和Xj2,k表示肢体上部位j1和部位j2的位置,部位关联向量场中的点集由肢体上存在的点集构成,即p点满足以下条件:0≤v·(p-Xj1,k)≤lC,K且|V⊥·(p-Xj1,k)|≤σl(5)其中σl是以像素为单位的肢体宽度,lc,k=||Xj2,k-Xj1,k||2表示肢体长度,v⊥表示垂直于v的向量,最终通过平均所有人体的关联场得到真值部位关联场:其中nc(p)表示所有k个人体中在点p不为0的向量的数量,即不同个体肢体重叠的平均像素。步骤3-3具体过程为,首先通过模型检测器的第一部分卷积网络获取一组样本特征图F;然后将特征图F输入模型检测器的两个迭代网络同时预测图像中的一组身体部位位置置信图S和一组部位关联场L,其中S=(S1,S2,...,SJ)表示有J个部位置信图,J表示身体部位总数量;L=(L1,L2,...,LC)表示有C个部位关联场,C表示肢体总数量;特征图F经过迭代网络的第一次处理得到的预测结果为:S1=ρ1(F)和L1=φ1(F),其中ρ1和φ1是迭代网络的第一次推理过程,在随后的每个阶段,将前一阶段两个分支的预测S1和L1,连同原始图像特征F连接起来,用于产生更加精确的预测,输入公式如下:其中St-1和Lt-1是迭代网络第t-1阶段的预测结果,F表示经过卷积网络得到的图片特征图,St和Lt表示迭代网络第t阶段的预测结果,ρt和φt表示迭代网络第t次推理过程;在迭代网络的每个分支网络末尾分别应用一个损失函数,通过反向传播修正权重参数,使网络不断迭代直至收敛得到更为精确的预测,两个分支网络损失函数公式如下:其中表示预测部位置信图S时网络分支的损失函数,表示预测部位关联场L时网络分支的损失函数,表示像素点p处身体部位j的真值部位置信图,表示迭代网络第t阶段在像素点p处预测的身体部位j的部位置信图,表示像素点p处肢体c的真值部位关联场,表示迭代网络第t阶段在像素点p处预测肢体c的部位关联场,W(p)表示一个0,1取值数,在像素点p处关节点未被正确标注时避免损失函数过大时设置为0,其余情况设置为1;模型检测器总的损失函数公式为:其中t表示迭代网络所处阶段,N表示总的网络迭代数;经过计算预测结果与真值结果的均方误差不断迭代优化网络,得到最小均方误差训练完成。步骤4具体过程为,将步骤1获取的舞蹈图片样本输入经步骤3更新的模型检测器中,得到图片中多个人体的身体候选部位Dj和部位关联场Lc,其中J表示身体部位总类型数,j表示身体部位,Nj表示身体部位j的候选数目,m表示对身体部位j的候选数目的遍历,表示第m次检测候选身体部位j的位置。步骤5具体实施步骤为:步骤5-1,计算步骤4的检测结果,评估两个身体部位相连的可能性;通过对两个候选部位预测的部位关联场沿着线段进行采样,计算线性积分评估两个部位相连的可能性,计算公式如下:其中Emn表示第m个检测候选的身体部位j1和第n个检测候选身体部位j2相连的可能性概率,表示第m个检测候选身体部位j1的位置,表示第n个检测候选身体部位j2的位置,u表示[0-1]范围间取值,Lc(p(u))表示在点p(u)处的部位j1和部位j2的部位关联场,p(u)表示和连线上的任意一点且p(u)取值为:步骤5-2,定义变量表明两个检测候选部位和是否连接,令其中j1、j2表示不同的身体部位,J表示身体部位总类型数,Nj1表示身体部位j1的候选数量,Nj2表示身体部位j2的候选数量,对所有候选部位选择最少的边将所有部位连接成一个生成树,然后将部位连接问题归结为最大权值二分图匹配问题,其中图节点为身体部位检测候选部分,边是一对候选部位之间的可能连接,根据边的存在与否确定z,边的权重值由式12添加,通过为所选边找到一个最大权值的匹配完成两个身体部位的最优连接,计算公式如下:其中Dj1表示身体部位j1的候选部位,Dj2表示身体部位j2的候选部位,表示检测候选部位和是否连接,Emn表示和连接积分结果,zc表示身体部位j1和j2配对形成肢体c的搭配集合,m表示Dj1中的某一个部位,n表示Dj2中的某一个部位,Ec表示基于部位关联场计算得出所有人体肢体c的最佳搭配结果集合;公式15和公式16限制同一类型的两条肢体不存在共享部位;步骤5-3,循环步骤5-2,配对所有预测的身体部位,然后将具有相同候选部位的骨架连本文档来自技高网...

【技术保护点】
1.基于卷积神经网络的舞蹈视频人体骨架检测与提取方法,其特征在于,所述方法包括以下步骤:步骤1、对舞蹈视频预处理获得舞蹈图片样本;步骤2、使用具有关键点标注的COCO数据集作为训练集,获取COCO数据集图片样本与关键点标注标签;步骤3、计算步骤2中的标注图片样本,将计算结果和对应的数据集图片输入模型检测器中不断迭代训练;步骤4、将步骤1中待处理的舞蹈图片输入步骤3训练后的模型检测器中,得到检测结果;步骤5、对步骤4中的检测结果解析连接,完成多人人体骨架的提取。

【技术特征摘要】
1.基于卷积神经网络的舞蹈视频人体骨架检测与提取方法,其特征在于,所述方法包括以下步骤:步骤1、对舞蹈视频预处理获得舞蹈图片样本;步骤2、使用具有关键点标注的COCO数据集作为训练集,获取COCO数据集图片样本与关键点标注标签;步骤3、计算步骤2中的标注图片样本,将计算结果和对应的数据集图片输入模型检测器中不断迭代训练;步骤4、将步骤1中待处理的舞蹈图片输入步骤3训练后的模型检测器中,得到检测结果;步骤5、对步骤4中的检测结果解析连接,完成多人人体骨架的提取。2.根据权利要求1所述的基于卷积神经网络的舞蹈视频人体骨架检测与提取方法,其特征在于,所述步骤1的具体过程为:步骤1-1、获得多人舞蹈视频;步骤1-2、使用MATLAB读取并分析该视频,获取舞蹈视频的视频帧并以图片形式保存到本地文件夹中;步骤1-3、对本地图片统一压缩至分辨率为w×h,得到舞蹈图片样本。3.根据权利要求1所述的基于卷积神经网络的舞蹈视频人体骨架检测与提取方法,其特征在于,所述步骤3的具体过程为:步骤3-1、计算步骤2所得数据集标注图片标签得到身体部位位置的真值二维置信图S*,表示在每个像素位置都有一个特定的身体部位,并以高斯分布图显示;步骤3-2、据步骤2所得数据集标注图片标签计算得到身体部位关联场的真值二维向量场L*,指明肢体的位置和方向信息;步骤3-3、将步骤2中的COCO数据集图片样本输入模型检测器中,计算预测结果与真值结果的均方误差不断迭代优化网络,得到最小均方误差,训练完成。4.根据权利要求3所述的基于卷积神经网络的舞蹈视频人体骨架检测与提取方法,其特征在于,所述步骤3-1具体计算过程为,首先为图像中的每个人体k生成单个部位置信图每个像素点p的部位置信图生成公式如下:其中p表示舞蹈图片中的像素点,j表示图片中人体的身体部位,Xj,k表示图中人体k身体部位j的真值部位,σ控制峰值的宽度;然后通过对所有部位置信图取最大进行聚合获得像素点处身体部位分布的置信图公式如下:其中k表示标注图中的人体,j表示身体部位,p表示像素点位置。5.根据权利要求3所述的基于卷积神经网络的舞蹈视频人体骨架检测与提取方法,其特征在于,所述步骤3-2具体计算过程为,每个像素点p的真值部位关联向量场定义为:其中c表示人体的肢体,k表示人体,v表示身体部位j1到身体部位j2在肢体方向上的单位向量,计算公式如下:v=(Xj2,k-Xj1,k)/||Xj2,k-Xj1,k||2(4)其中Xj1,k和Xj2,k表示肢体上部位j1和部位j2的位置,部位关联向量场中的点集由肢体上存在的点集构成,即p点满足以下条件:0≤v·(p-Xj1,k)≤lC,K且|V⊥·(p-Xj1,k)|≤σl(5)其中σl是以像素为单位的肢体宽度,lc,k=||Xj2,k-Xj1,k||2表示肢体长度,v⊥表示垂直于v的向量,最终通过平均所有人体的关联场得到真值部位关联场:其中nc(p)表示所有k个人体中在点p不为0的向量的数量,即不同个体肢体重叠的平均像素。6.根据权利要求3ˉ5任一项所述的基于卷积神经网络的舞蹈视频人体骨架检测与提取方法,其特征在于,所述步骤3-3具体过程为,首先通过模型检测器的第一部分卷积网络获取一组样本特征图F;然后将特征图F输入模型检测器的两个迭代网络同时预测图像中的一组身体部位位置置信图S和一组部位关联场L,其中S=(S1,S2,...,SJ)表示有J个部位置信图,J表示身体部位总数量;L=(L1,L2,...,LC)表示有C个部位关联场,C表示肢体总数量;特征图F经过迭代网络的第一次...

【专利技术属性】
技术研发人员:张九龙李孟阳屈晓娥
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1