【技术实现步骤摘要】
基于多尺度融合的遮挡人体姿势识别方法
[0001]本专利技术属于计算机视觉领域,具体地说,涉及视频中人体的检测与姿势识别方法。
技术介绍
[0002]近年来,人们对视频监控智能化的需求越来越高,希望通过智能分析从视频中提取到更多的信息,应用于人们的生活和工作中的各个领域。视频中“人”作为绝对的内容主体,其姿态和行为往往蕴含着大量的信息。人体姿势识别技术对于描述视频中的人体姿态、预测人体行为至关重要。姿势识别是要准确地识别和定位所有人体骨骼关键点,这是诸多计算机视觉应用的基础研究主题。视频中的人体姿态识别在动作分类、异常行为检测、人机交互、游戏、动画、安全等领域有着重要的研究意义和广阔的应用前景,是计算机视觉领域的重要任务之一。
[0003]视频中的人体姿势识别是一项具有挑战性的任务。肢体关节点的灵活性就使得关键点的识别具有一定难度,同时例如视点变化的影响、镜头运动的干扰、遮挡物的存在、强烈光线与阴影的变化等等都会干扰人体姿势识别的精度和速度。如何借助先进计算机视觉技术手段增强识别算法的精确度与鲁棒性,实现动态抗干扰的 ...
【技术保护点】
【技术特征摘要】
1.一种基于多尺度融合的遮挡人体姿势识别方法,其特征在于,包括步骤步骤一:基于惩罚机制的人体检测框回归对视频中人体目标进行检测,通过惩罚机制得到每个目标的检测框;步骤二:基于级联金字塔网络的多尺度特征融合基于人体检测框识别结果,在金字塔级联网络中加入多个尺度的特征;步骤三:保持高分辨率的人体关键点识别融合高分辨率来实现人体的关键点识别,并显式处理困难节点。2.如权利要求1所述的基于多尺度融合的遮挡人体姿势识别方法,其特征在于,步骤一:基于惩罚机制的人体检测框回归1.1使用深度学习方法对COCO图像集进行训练,利用特征金字塔网络(Feature Pyramid Network)得到初步的预测检测框;1.2基于初步预测结果,结合损失函数的不同惩罚排斥项,利用基于惩罚机制的检测框回归算法对视频中人体目标进行检测;设置损失函数如下:Loss=L0+αL1+βL2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,L0为最终的检测框与真实框之间的损失值,即传统意义上的Loss,作用是吸引项,使预测框靠近其指定目标;L1为检测框与相邻的真实框之间的损失值,这里指的是其他人体真实检测框,作用是排斥项,使预测框远离其他人体检测框;L2为检测框与相邻的预测其他目标的真实框之间的损失值,这里指的是其他物体的真实检测框,作用是排斥项,使预测框远离其他物体检测框;α和β分别是两个损失值的平衡系数,目前都取值为0.5;构造的时候沿用了Faster R
‑
CNN提出的smooth_L1_Loss;通过调整损失函数,得到人体检测框的预测结果。3.如权利要求1所述的基于多尺度融合的遮挡人体姿势识别方法,其特征在于,针对步骤二,所述基于级联金字塔网络为一种基于多尺度特征融合的级联金字塔网络模型,这是一种自顶向下的视频人体姿势识别模型,将全局网络和精炼网络级联起来。4.如权利要求3所述的基于多尺度融合的遮挡人体姿势识别方法,其特征在于,步骤二:基于级联金字塔网络的多尺度特征融合,算法具体为:2.1基于目标检测框识别结果,使用级联金字塔(Cascaded Pyramid)人体检测器处理模型输入图像;2.2使用基于残差网络(ResNet)的全局网络,对目标整体进行识别;2.3基于全局网络识别结果,使用精炼网络对困难关键点进行处理。5.如权利要求4所述的基于多尺度融合的遮挡人体姿势识别方法,其特征在于,具体地,基于目标检测框识别结果,使用级联金字塔(Cascaded Pyramid)人体检测器处理模型输入图像,该模型采用自顶向下的结构,基本流程如下:a.图像输入级联金字塔网络进行人体骨骼关键点的识别;级联金字塔网络级联了两个不同作用的网络结构:全局网络和精炼网络;b.在全局网络中,对所有人体关键点进行识别;在此阶段,较为容易识别的关键点能够
较为迅速地被确定;然后将全局网络识别结果输入级联的下一级网络。c.在精炼网络中,采用难例挖掘策略针对被遮挡的困难节点进行显式的处理,从而在全局网络的基础上进一步地调整了那些不易被识别的困难点的误差;d.图像经过两级...
【专利技术属性】
技术研发人员:卫志华,范佳琪,王瀚漓,赵才荣,沈雯,
申请(专利权)人:同济大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。