A multi-character pose detection method based on localization classification regression network is proposed in the present invention. The main contents of the method include localization, classification, regression and iterative estimation. The process is to obtain pose suggestions by locating a set of K hypothetical posture categories (represented as anchor postures) in a candidate box, and then use classification. Each posture suggestion is scored and regressed individually for each position. By calculating anchor posture specific regression, the difference between the real posture and the posture suggestion is estimated. Finally, the posture estimation is obtained by integrating the adjacent posture assumptions. The invention obtains the final posture estimation by integrating the adjacent posture hypothesis, improves the performance of two-dimensional and three-dimensional posture estimation, and makes the detection result more accurate and reliable.
【技术实现步骤摘要】
一种基于定位分类回归网络的多人物姿势检测方法
本专利技术涉及姿势检测领域,尤其是涉及了一种基于定位分类回归网络的多人物姿势检测方法。
技术介绍
人类姿势的识别和检测是机器视觉领域的一大研究热点,被广泛应用在人机交互、行为分析、多媒体应用和运动科学等领域。近年来,随着数码相机、智能手机、监控摄像头等的普及,数字相片和视频数据急剧增长,其中人类活动是这些数据中获得的最主要内容。有效处理和理解数据中的人类活动,将对人们的研究和记录等带来极大的方便。人类姿势的识别和检测可以通过结合语音输入和麦克风输入实现人机交互,增强玩家的游戏体验。通过对监控视频中的人物画面进行姿势检测,可以协助安保人员检测人员密集的公共场所中出现的危险行为、盗窃行为等,有效维护公共场所的安全和秩序。对于运动员和舞者,可以通过姿势检测技术记录相应姿势,通过大量数据记录和分析,总结出更具有针对性训练方法。然而现有方法仍然存在由于人物被图像边界部分遮挡、人与人之间互相遮挡而不能准确识别和检测的问题。本专利技术提出了一种基于定位分类回归网络的多人物姿势检测方法,先通过在候选框中定位K个假设姿势类别的集合(表示为锚点姿势)来获得姿势建议,然后使用分类器对每个姿势建议进行评分,并针对每个定位单独地进行回归,通过计算锚点姿势特定回归,估计真实人体姿势和姿势建议之间的差异,最后通过对相邻姿态假设进行积分获得姿态估计。本专利技术通过对相邻的姿势假设进行积分来获得最终的姿势估计,提高了二维和三维姿势估计的性能,使检测结果更加准确可靠。
技术实现思路
针对由于人物被图像边界部分遮挡、人与人之间互相遮挡而不能准确识别和检 ...
【技术保护点】
1.一种基于定位分类回归网络的多人物姿势检测方法,其特征在于,主要包括定位(一);分类(二);回归(三);迭代估计(四)。
【技术特征摘要】
1.一种基于定位分类回归网络的多人物姿势检测方法,其特征在于,主要包括定位(一);分类(二);回归(三);迭代估计(四)。2.基于权利要求1所述的定位分类回归网络,其特征在于,人的姿势(p,P)被定义为2D姿势p(即图像中每个关节的像素坐标)和3D姿势P(即每个关节相对于身体中心的3D位置,以米为单位);考虑13个关节的姿势,假设给定一组固定的K个2D-3D锚点姿势,用{(ak,Ak)}k=1..K表示;在本方法中,它们是通过对大量姿态进行聚类,并将每个聚类的中心用作锚点姿态获得的。3.基于权利要求2所述的定位分类回归,其特征在于,给定一幅图像,首先计算卷积特征;定位组件,在姿势检测的上下文中也称为姿态建议网络,输出姿势建议的列表;姿态建议由一组假设的锚点姿势候选位置组成;接下来,感兴趣区域(RoI)汇聚层聚合每个候选区域内的特征;在两个全连接层之后,网络被分成两个部分;分类分支估计每个位置的锚点姿势正确的概率;回归分支计算锚点姿势特定回归,估计真实人体姿势和姿势建议之间的差异;损失为以下三项损失的总和:卷积特征在三个组件之间共享,并且分类和回归分支也共享来自两个全连接层的特征;该体系结构允许进行端点到端点的训练,以便对人类进行定位并估计其2D-3D姿态。4.基于权利要求1所述的定位(一),其特征在于,姿势建议网络输出一组N×K姿势建议,即通过将K个定位放置在由姿势建议网络产生的N个边界框中获得的2D-3D姿势假设;这些姿态建议将分别由分类和回归分支进行评分和提炼;定位组件的损失是姿势建议网络的损失:在训练过程中,每个边界框B都标有一个标定好的真实数据分类cB∈{0…K}和一个姿态回归目标姿势建议网络包括姿势建议整合和姿态建议集成。5.基于权利要求4所述的边界框,其特征在于,如果边界框的联合交叉点(IoU)低于0.5且具有所有真实姿势,则标定真值类别cB被设置为0(对应于背景);使用姿势的所有关节的边界框来计算边界框和姿势之间的IoU,其中有10%的固定附加边界;如果B与几个姿势有很高的重叠,则令(p,P)为具有最高IoU的标定真实姿势;标签cB=argminkD3D(Ak,P),其中D3D(·,·)是以躯干为中心的定向3D姿势之间的距离;这个标签将被分类分支使用;如果标签cB不为零,则定义回归分支中使用的姿态回归目标,边界框B的其中和表示根据框坐标在[0..1]范围内归一化的2D姿态和锚点姿势;归一化使得回归独立于图像中人物和边界框的比例和位置。6.基于权利要求4所述的姿势建议整合,其特征在于,定位分类回归网络输出一组精确的姿势建议和相关的分类得分s(p,P)=u(cB);边界框B外的一个或多个关节的姿势建议完全在框内,因此更可能准确估计,建议使用以下方法重新提交建...
【专利技术属性】
技术研发人员:夏春秋,
申请(专利权)人:深圳市唯特视科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。