基于全局信息整合的多人姿态估计方法技术

技术编号:21893046 阅读:65 留言:0更新日期:2019-08-17 14:57
本发明专利技术公开了一种基于全局信息整合的多人姿态估计方法,包括:对输入图像进行前期处理;经过人体检测器生成一组人体边界框,将获得的人体边界框输入“特征编码+姿态解码”模块中进行模型训练;依次预测每个人的关键点的定位,生成多个关键点热图,以表示每个关键点的位置置信度;最后,通过姿态非极大值抑制模块消除冗余的姿态估计以得到最终的人体姿态。本发明专利技术所提出的一种基于全局信息整合的多人姿态估计方法,通过结合不同归一化策略与多层信息融合可以显著提高多人姿态估计的精度,采用超边几何约束策略能够有效减少误连接,能够有效地改善在尺度变化,遮挡和复杂的多人场景中遇到困难的姿态估计方法。

Multi-person attitude estimation method based on global information integration

【技术实现步骤摘要】
基于全局信息整合的多人姿态估计方法
本专利技术涉及一种多人姿态方法,特别涉及一种基于全局信息整合的多人姿态估计方法,属于图像处理

技术介绍
试图让计算机具备自动理解图像或者视频序列中蕴含的人体行为信息的能力一直都是众多机器学习相关领域研究的热点问题。人体姿态估计是这些任务的重要基础,在行为识别、人机交互、人类重新识别、影音娱乐等领域均有广泛的应用。人体姿势估计是指从图像中定位身体关键点(头部,肩部,肘部,手腕,膝盖,脚踝等),通过图像分析来确定不同人体部位在图片中的位置和方向等定位信息的过程,是人体动作行为识别与分析的基础。我们关注单张图片中的多人姿态估计问题。由于自然图片中的背景与光照、人体外观特征和姿势结构的复杂多变性,该任务面临诸多挑战,当场景推广到多人时,问题进一步复杂化。在这项工作中,我们主要关注基于卷积神经网络的方法,由于卷积神经网络可以从大数据中自动学习抽象特征,相比传统人体姿态估计算法中采用的手工设计的特征,它有更强的表达和区分能力,能更准确地表征真实人体外观特征,而且卷积神经网络模型还具有很强的非线性映射能力,可以更加有效地实现从图像特征到人体姿态的映射。现有多人姿态估计现阶段有两种常用的方法:基于部分框架标记出候选的部分检测并且将它们和每个个体关联起来,然后根据部件组队的得分高低判断组合方式。两步框架借助现有的用于单人姿势判断的技术,先检测人,然后对每一个人进行姿态估计,这两步分别进行。两种方法各有优缺点,前者需要进行匹配算法,虽然能达到实时,但精度不高;后者姿态估计的精度在很大程度上取决于检测到的边界框的质量,并且人数越多,计算成本越大,但精度比基于部分框架的高。由于自然图片的复杂多变,人体姿态估计面临着诸多的挑战:对于背景复杂或光照条件弱的待处理图片,人体与背景的外观相似性可能较高;不同人体同一部位的外观特征经常有较大的不同,其原因主要在于不同图片光照条件不同、不同人体着装和体型不同以及运动模型不同等;人体部位外观可能并不完整,产生原因主要是人体部位间的相互遮挡或被其他物体遮挡;部位搜索空间过于巨大,这是因为在没有任何先验的情况下人体部位可能位于图片的任何区域和角度;复杂度随着实时人数的增加而提升。
技术实现思路
针对具有多个实例的单帧图像,本专利技术采用两步框架实现多人姿态估计,结合不同归一化策略与多层信息融合以提高多人姿态估计的精度,采用超边几何约束策略以减少误连接,从而有效地改善在尺度变化,遮挡和复杂的多人场景中遇到困难的姿态估计方法。为实现前述专利技术目的,本专利技术采用两步框架实现多人姿态估计,首先,输入一张尺寸为W×H×3(宽×高×3,3为图片通道数)的图像,将其大小调整为卷积神经网络的输入大小,经过人体检测器生成一组人体边界框,获得的人体边界框被输入“特征编码(FEM)+姿态解码(PPM)”模块,依次预测每个人的关键点的定位,生成k个尺寸为W’×H’(分别为热图的宽和高,本专利技术中分别将其设为W/4,H/4)的热图,来表示每个关键点(如人体的五官、肩、肘、腕、髋、膝、踝)的位置置信度,位置置信度可以看作是每个关键点的得分。人体探测器不可避免地产生冗余检测,这反过来产生冗余的姿态估计,因此,需要姿态非极大值抑制(NMS)来消除冗余,顾名思义就是抑制不是极大值的元素,可以理解为局部最大搜索。首先,选择得分最高的姿势作为参考,并且通过应用消除标准来消除接近它的一些姿势。对剩余姿势设置重复该过程,直到消除冗余姿势并且仅报告唯一姿势,从而得到最终的人体姿态。具体包括以下步骤:步骤一:输入图像数据,将该图像数据的大小调整为卷积神经网络的输入大小;步骤二:经过人体检测器生成一组人体边界框,将获得的人体边界框输入姿态卷积神经网络进行模型训练,所述的姿态卷积神经网络结构包括基于全局信息提取的特征编码模块和基于全局信息提取的姿态解码模块;步骤三:依次预测每个人的关键点的定位,生成多个关键点热图,所述关键点热图用于表示每个关键点的位置置信度,所述位置置信度表示每个关键点的得分;步骤四:通过姿态非极大值抑制模块消除冗余的姿态估计,具体包括:选择得分最高的姿势作为参考,通过应用消除标准来消除接近它的一些姿势;对剩余姿势设置重复该过程,直到消除冗余姿势并且仅报告唯一姿势,得到最终的人体姿态。优选地,所述关键点包括:人体的五官、肩、肘、腕、髋、膝、踝。优选地,所述基于全局信息提取的特征编码模块基于残差网络,并引入实例归一化策略,使得在特征提取中更专注于人体实例,图像目标特征的注意力更高;首先使用卷积-池化操作从图片中提取出低层次特征,包括:轮廓;之后的1到4层网络基于之前提取更高一些的语义特征,包括:五官,人体各个肢体部件。优选地,所述基于全局信息提取的姿态解码模块基于下采样得到的语义信息,采用三种不同的上采样方法,包括:子像素卷积、上采样、反卷积层进行关键点回归,每进行一次上采样,目标关键点的回归热图精度更高,感受野的范围越大;除此之外,融合多尺度关键点回归策略,结合人体上下文信息在最后一个卷积操作后得到人体所需要的关键点。优选地,经过人体检测器生成一组人体边界框之后,在测试期间,对检测到的人体边界沿高度和宽度方向延伸30%使人体实例处于边界框的中心位置,再将其输入姿态卷积神经网络中。优选地,所述的基于全局信息整合的多人姿态估计方法,还包括:将人体连接的先验知识加入网络,用于提高连接精度;使用超边几何约束来模拟人类骨骼结构,用于提高当前深度网络在建模结构先验中的能力,以进行姿态估计,具体包括:引入人类骨骼图,考虑到多个关键点的连通性,包括连接关键点的三联体,根据人类骨骼图凭经验确定结构上连接的关键点列表,以此获得超边几何图,可以更好地捕获人体中关键点的物理连通性以获得结构先验;根据人体部位的连通性和结构明确匹配连接的关键点对。与现有技术相比,本专利技术的优点包括:(1)通过结合不同归一化策略与多层信息融合可以显著提高多人姿态估计的精度;(2)为了更好的得到连接的姿势,我们设计了基于先验知识的人体姿态估计的算法,本专利技术中采用超边几何约束策略能够有效减少误连接。(3)采用本专利技术的技术方案能够有效地改善在尺度变化,遮挡和复杂的多人场景中遇到困难的姿态估计方法。附图说明图1是本专利技术一典型实施案例中提出的进行多人姿态估计的主要工作流程;图2是本专利技术一典型实施案例中提出的人体姿态估计的框架原理图;图3是本专利技术一典型实施案例中提出的集合实例归一化与批量归一化的合成块;图4是本专利技术一典型实施案例中提出的人体关键点定位图;图5是本专利技术一典型实施案例中在数据集验证的精确回忆曲线在所有,大和中等尺度上的设置;图6是本专利技术一典型实施案例中提出的模型在数据集上预测的结果。具体实施方式鉴于现有技术中的不足,本案专利技术人经长期研究和大量实践,得以提出本专利技术的技术方案。如下将对该技术方案、其实施过程及原理等作进一步的解释说明。由于进行深度卷积神经网络实验所采用的数据集较大,需要将图片大小裁剪成卷积神经网络的输入大小,然后输入“特征编码(FEM)+姿态解码(PPM)”中进行模型训练。图1显示了进行人体姿态估计的主要工作流程(其下部分为输出的每个关节点的置信度图以及整合之后的姿势图,最后会将姿势图渲染到原图上)。整个专利技术方法的主要本文档来自技高网
...

【技术保护点】
1.一种基于全局信息整合的多人姿态估计方法,其特征在于,包括如下步骤:步骤一:输入图像数据,将该图像数据的大小调整为卷积神经网络的输入大小;步骤二:经过人体检测器生成一组人体边界框,将获得的人体边界框输入姿态卷积神经网络进行模型训练,所述的姿态卷积神经网络结构包括基于全局信息提取的特征编码模块和基于全局信息提取的姿态解码模块;步骤三:依次预测每个人的关键点的定位,生成多个关键点热图,所述关键点热图用于表示每个关键点的位置置信度,所述位置置信度表示每个关键点的得分;步骤四:通过姿态非极大值抑制模块消除冗余的姿态估计,具体包括:选择得分最高的姿势作为参考,通过应用消除标准来消除接近它的一些姿势;对剩余姿势设置重复该过程,直到消除冗余姿势并且仅报告唯一姿势,得到最终的人体姿态。

【技术特征摘要】
1.一种基于全局信息整合的多人姿态估计方法,其特征在于,包括如下步骤:步骤一:输入图像数据,将该图像数据的大小调整为卷积神经网络的输入大小;步骤二:经过人体检测器生成一组人体边界框,将获得的人体边界框输入姿态卷积神经网络进行模型训练,所述的姿态卷积神经网络结构包括基于全局信息提取的特征编码模块和基于全局信息提取的姿态解码模块;步骤三:依次预测每个人的关键点的定位,生成多个关键点热图,所述关键点热图用于表示每个关键点的位置置信度,所述位置置信度表示每个关键点的得分;步骤四:通过姿态非极大值抑制模块消除冗余的姿态估计,具体包括:选择得分最高的姿势作为参考,通过应用消除标准来消除接近它的一些姿势;对剩余姿势设置重复该过程,直到消除冗余姿势并且仅报告唯一姿势,得到最终的人体姿态。2.根据权利要求1所述的基于全局信息整合的多人姿态估计方法,其特征在于,所述关键点包括:人体的五官、肩、肘、腕、髋、膝、踝。3.根据权利要求1所述的基于全局信息整合的多人姿态估计方法,其特征在于,所述基于全局信息提取的特征编码模块基于残差网络,并引入实例归一化策略,使得在特征提取中更专注于人体实例,图像目标特征的注意力更高;首先使用卷积-池化操作从图片中提取出低层次特征,包括:轮廓;之后的1到4层网络基于之前提取更高一些的语...

【专利技术属性】
技术研发人员:田佳豪乔会翔雷蕾王敏杰张加焕肖江剑
申请(专利权)人:中国科学院宁波材料技术与工程研究所
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1