一种人体姿态估计方法、装置制造方法及图纸

技术编号:29198828 阅读:39 留言:0更新日期:2021-07-10 00:32
本申请公开了一种人体姿态估计方法、装置,用于改善现有技术中人体姿态估计方法效果差的技术问题。方法包括:将待处理图像输入预先训练的包含非局部网络模块和至少一级高分辨率网络模块的神经网络模型;基于非局部网络模块提取待处理图像的特征信息生成待处理图像的特征图;基于至少一级高分辨率网络模块对特征图进行计算,获得人体姿态估计结果。本申请基于非局部网络模块可以实现对人体关节点相对位置关系的更精细的描述,解决复杂场景下人体姿态估计难的问题,同时结合高分辨率网络模块保证整个模型传递过程中均保持有高分辨率的表示,进而减少图像信息在传递过程中的损失,进而从整体上提高模型预测精准性。进而从整体上提高模型预测精准性。进而从整体上提高模型预测精准性。

【技术实现步骤摘要】
一种人体姿态估计方法、装置


[0001]本申请涉及图像处理领域,尤其涉及一种人体姿态估计方法、装置。

技术介绍

[0002]电子设备对人体的姿态进行准确的识别是电子设备与用户成功交互的前提。例如,对于服务型机器人来说,准确识别用户的吃饭动作是其能够执行为用户收拾餐桌这一动作的前提;又如,对于(virtual reality,VR)游戏来说,对用户动作捕捉并给出对应响应,是VR设备给用户以沉浸感的关键。而人体的动作一般由一系列的人体姿态组成,因此,准确识别人体姿态在识别人体动作方面具有重要的意义。
[0003]近年来,研究人员提出了多种人体姿态估计方法,目前主流的人体姿态估计方法主要分为自顶向下和自底向上两种主流方法。自顶向下:先检测出每个人体,然后再检测每个人体的关节点进行姿态估计;自底向上:先检测出所有的关节点,然后再判断每一个关节点属于哪一个人。但是,这两种方法都容易受到人体部位遮挡、背景混淆等因素的影响,导致姿态估计效果差。

技术实现思路

[0004]本申请提供一种人体姿态估计方法、装置,用于改善现有技术中人体姿态估计方法效果差的技术问题。
[0005]第一方面,本申请实施例提供一种人体姿态估计方法,包括:将待处理图像输入预先训练的神经网络模型,其中,所述待处理图像中包括人体,所述神经网络模型包括非局部网络模块和至少一级高分辨率网络模块;基于所述非局部网络模块提取所述待处理图像的特征信息,生成所述待处理图像的特征图,所述特征信息包括所述人体所在区域的每个像素与所述人体所在区域的其他像素的相关信息;基于所述至少一级高分辨率网络模块对所述特征图进行计算,获得所述待处理图像中所述人体的姿态估计结果。
[0006]本申请实施例通过在神经网络模型中插入非局部网络模块,使得神经网络模型在提取图像的特征信息时,可以基于非局部网络模块将每个人体上的像素点与该像素点所在人体范围内的其它所有像素进行关联,计算出该像素点与该像素点所在人体范围内的其它所有像素的相关信息,实现神经网络模型对人体关节点相对位置关系的更精细的描述,进而高层网络模块在对特征图进行计算预测关键点位置时,就会考虑到不同像素之间的位置相关性,可以提高人体姿态估计的精准性,解决密集人群中人体部位遮挡、背景混淆等复杂场景下人体姿态估计难的问题。另外,神经网络模型的高层网络模块使用高分辨率网络模块构建,能够保证图像在高分辨率网络模块的整个计算过程中均保持有高分辨率的表示,进而有效减少图像在模型传递过程中的信息损失,进一步提高人体姿态估计的精准性。
[0007]一种可能的实施方式中,所述神经网络模型还包括至少一个m
×
m卷积模块,m为奇数;所述非局部网络模块设置在所述至少一个卷积模块之后,所述至少一级高分辨率网络模块之前;在基于所述非局部网络模块提取所述待处理图像的特征信息之前,还包括:基于
所述至少一个卷积模块对所述待处理图像中所述人体所在区域上的若干个m
×
m大小的区域进行初步特征提取,获得所述待处理图像的初始特征信息,并基于所述初始特征信息生成所述待处理图像的初始特征图;则基于所述非局部网络模块提取所述待处理图像的特征信息,包括:将所述初始特征图输入所述非局部网络模块,计算所述待处理图像中所述人体所在区域的每个像素与所述人体所在区域的其他像素的相关信息,基于所述初始特征信息以及所述相关信息生成所述待处理图像的特征图。
[0008]本实施方式中,将非局部模块设置在神经网络模型的浅层(至少一个m
×
m卷积模块和高分辨网络模块之间),可以获得良好的特征提取结果,实现神经网络模型对人体关节点相对位置关系的更精细的描述,可以提高人体姿态估计的精准性。
[0009]一种可能的实施方式中,所述初始特征信息可以包括像素值、颜色特征、纹理特征、形状特征或空间关系特征等中的一项或多项;所述相关信息可以包括空间关系、颜色关系、纹理关系或形状关系等中的一项或多项。
[0010]本实施方式提供了初始特征信息、相关信息多种具体实现形式,在提高方案灵活性的同事,可以进一步提高人体姿态估计的精准性。
[0011]一种可能的实施方式中,所述非局部网络模块具体可以按照如下公式计算所述待处理图像中所述人体所在区域的每个像素与所述人体所在区域的其他像素的相关信息:
[0012][0013]z
i
=W
z
y
i
+x
i
ꢀꢀꢀꢀꢀꢀꢀ
(2)
[0014]其中,f为配对计算函数,用于计算像素X
i
和像素X
j
的相关信息;y
i
为所述人体所在区域上像素X
j
与所述人体所在区域上的所有其他像素的相关信息;g(x
j
)为一元输入函数,用于变换不同的像素X
j
;C(x)为归一化函数,保证变换y
i
前后整体信息不变,x为输入的所述人体所在区域的图像;j为所述人体所在区域上的其他像素的标识;z
i
为non-local网络模块输出的特征图;W
z
为权重值;+x
i
表示一个残差连接。
[0015]本实施方式给出了非局部网络模块实现相关信息计算的具体方法,保证了方案的可靠性。
[0016]一种可能的实施方式中,所述高分辨率网络模块可以包括多个交换模块,所述高分辨率网络模块中的每个交换模块包括至少两个并联连接的残差块,所述每个交换模块中第n个残差块的分辨率为c/A
n-1
,所述第n个残差块的输出通道为C0×
B
n-1
,其中c等于所述非局部网络模块的分辨率大小,n为正整数,A、B为大于1的正整数,C0为所述非局部网络模块的输出通道数。
[0017]本实施方式中,高分辨网络模块包括交换模块,每个交换模块由至少两个残差块组成的并联结构,每个并联结构中至少有一个通道保持高分辨率的输出(例如和non-local网络模块输出的分辨率一致),这样可以保证图像在高分辨率网络模块的整个计算过程中均保持有高分辨率的表示,进而有效减少图像在模型传递过程中的信息损失,提高人体姿态估计的精准性。
[0018]一种可能的实施方式中,所述高分辨率网络模块还可以包括多个交换单元,所述交换单元和所述交换模块按照预定次序交替连接,所述交换单元用于对输入的特征图进行多尺度融合。
[0019]本实施方式中,使用交换单元将相邻的交换模块进行连接,通过交换单元完成重复的多尺度融合,进一步提高人体姿态估计的精准性。
[0020]一种可能的实施方式中,所述残差块可以由多个相同类型的残差单元串联而成,例如,通过4个相同类型的残差单元串联而成。
[0021]本实施方式中,给出了残差块的具体结构,保证了方案的可靠性。
[0022]一种可能的实施方式中,每级所述高分辨率网络模块可以由至少两个阶段串本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人体姿态估计方法,其特征在于,包括:将待处理图像输入预先训练的神经网络模型,其中,所述待处理图像中包括人体,所述神经网络模型包括非局部网络模块和至少一级高分辨率网络模块;基于所述非局部网络模块提取所述待处理图像的特征信息,生成所述待处理图像的特征图,所述特征信息包括所述人体所在区域的每个像素与所述人体所在区域的其他像素的相关信息;基于所述至少一级高分辨率网络模块对所述特征图进行计算,获得所述待处理图像中所述人体的姿态估计结果。2.如权利要求1所述的方法,其特征在于,所述神经网络模型还包括至少一个m
×
m卷积模块,m为奇数;所述非局部网络模块设置在所述至少一个卷积模块之后,所述至少一级高分辨率网络模块之前;在基于所述非局部网络模块提取所述待处理图像的特征信息之前,还包括:基于所述至少一个卷积模块对所述待处理图像中所述人体所在区域上的若干个m
×
m大小的区域进行初步特征提取,获得所述待处理图像的初始特征信息,并基于所述初始特征信息生成所述待处理图像的初始特征图;基于所述非局部网络模块提取所述待处理图像的特征信息,包括:将所述初始特征图输入所述非局部网络模块,计算所述待处理图像中所述人体所在区域的每个像素与所述人体所在区域的其他像素的相关信息,基于所述初始特征信息以及所述相关信息生成所述待处理图像的特征图。3.如权利要求2所述的方法,其特征在于,所述初始特征信息包括像素值、颜色特征、纹理特征、形状特征或空间关系特征中的一项或多项;所述相关信息包括空间关系、颜色关系、纹理关系或形状关系中的一项或多项。4.如权利要求2所述的方法,其特征在于,所述非局部网络模块计算所述待处理图像中所述人体所在区域的每个像素与所述人体所在区域的其他像素的相关信息,具体包括:按照如下公式计算所述待处理图像中所述人体所在区域的每个像素与所述人体所在区域的其他像素的相关信息:z
i
=W
z
y
i
+x
i
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,f为配对计算函数,用于计算像素X
i
和像素X
j
的相关信息;y
i
为所述人体所在区域上像素X
j
与所述人体所在区域上的所有其他像素的相关信息;g(x
j
)为一元输入函数,用于变换不同的像素X
j
;C(x)为归一化函数,保证变换y
i
前后整体信息不变,x为输入的所述人体所在区域的图像;j为所述人体所在区域上的其他像素的标识;z
i
为non-local网络模块输出的特征图;W
z
为权重值;+x
i
表示一个残差连接。5.如权利要求1-4任一项所述的方法,其特征在于,所述高分辨率网络模块包括多个交换模块,所述高分辨率网络模块中的每个交换模块包括至少两个并联连接的残差块,所述每个交换模块中第n个残差块的分辨率为c/A
n-1
,所述第n个残差块的输出通道为C0×
B
n-1
,其中c等于所述非局部网络模块的分辨率大小,n为正整数,A、B为大于1的正整数,C0为所述
非局部网络模块的输出通道数。6.如权利要求5所述的方法,其特征在于,所述高分辨率网络模块还包括多个交换单元,所述交换单元和所述交换模块按照预定次序交替连接,所述交换单元用于对输入的特征图进行多尺度融合。7.如权利要求5所述的方法,其特征在于,所述残差块由多个相同类型的残差单元串联而成。8.如权利要求5所述的方法,其特征在于,每级所述高分辨率网络模块由至少两个阶段串行连接,每个阶段包括至少一个所述交换模块;其中,相邻两个阶段中的前一个阶段中每个交换模块的残差块的数量不超过后一个阶段中每个交换模块的残差块的数量。9.如权利要求1-8任一项所述的方法,其特征在于,在将待处理图像输入预先训练的神经网络模型之前,还包括:检测所述待处理图像中的人体,确定出所述待处理图像中所述人体所在区域。10.一种识别人体姿态的装置,其特征在于,包括:输入单元,用于将待处理图像输入预先训练的神经网络模型,其中,所述待处理图像中包括人体,所述神经网络模型...

【专利技术属性】
技术研发人员:谭文伟
申请(专利权)人:华为数字技术苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1