基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法技术

技术编号:35182049 阅读:45 留言:0更新日期:2022-10-12 17:51
本发明专利技术公开了一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,通过图像采集模块模块对图像进行采集,将采集的图像经过核心计算单元发送至轻量级神经网络算法模块;所述该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络,采集的图像首先进入ShuffleNetV2骨干网络进行计算,所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成;将所述基础骨干网络输出一系列卷积特征图作为关键点回归模块的输入,先通过池化层,再分别通过4个FC层,其中,FC1输出3D骨骼关键点的坐标信息,FC2输出3D骨骼关键点的得分信息,FC3输出2D骨骼关键点的的坐标信息,FC4输出2D骨骼关键点的得分信息,以此完成对3D骨骼关键点和2D骨骼关键点识别。2D骨骼关键点识别。2D骨骼关键点识别。

【技术实现步骤摘要】
基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法


[0001]本专利技术涉及计算机
,尤其涉及一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法。

技术介绍

[0002]人体2D/3D骨骼关键点识别技术作为计算机视觉的基础任务之一,是一个非常重要的研究领域。其目标初始是从给的的传感器(摄像头,红外线等设备)输入中获取人体骨骼信息,近年来随着深度学习在图形分类、目标检测等许多计算机任务中表现出了良好的性能,人体2D/3D骨骼关键点识别也通过采用深度学习技术获得快速的发展。人体2D/3D骨骼关键点识别技术可以应用于许多应用领域,在电影和动画中各种生动形象的数字人物的产生离不开对人体动作的的捕捉。低成本和精准的人体动作捕捉系统可以更好的促进数字娱乐产业的发展。虚拟现实是一种非常有前途的技术,可以应用于教育和娱乐。通过对人体2D/3D骨骼关键点识别,可以进一步获得人与虚拟现实世界的关系,增强交互体验。人机交互中人体2D/3D骨骼关键点识别对于计算机和机器人能更好的理解人身份、位置、和行为是很重要的。以人体的姿势,计算机和机器人可以以一种简单的方式执行命令,使个过程更加智能。人体2D/3D骨骼关键点识别技术的用途很多样,对于更精细的需求以及实际落地时,往往对人体2D/3D骨骼关键点识别的精度、速度、计算量等需求较大。现有基于深度学习的2D骨骼关键点识别的新算法大多是基于高斯热图输出的方式,存在着其要求的输出特征图很大、算法训练和推理速度慢的问题。在低成本硬件平台上难以实时运行,需要搭配高成本的硬件(如GPU或高端摄像头)才能达到实时。
[0003]现有基于深度学习的3D骨骼关键点识别的新算法较为流行的是基于2D关键点的基础上或是基于高斯热图输出的方式,由于前者方式为二阶段模型,后者方式需要渲染高斯热图,两个方式都会导致推理速度慢,在实际落地项目中会造成又慢又消耗内存的情况,而导致无法使用的问题。
[0004]除了使用单目RBG图像外,越来越多的传感器被应用于3D骨骼关键点识别的研究,常见的有深度相机、雷达等。如Kinect深度相机,一个色彩感知摄像头和一个红外摄像头用于测量图像深度,可以测量场景中物体到相机的距离,用于重建三维人体模型以此获得3D3D骨骼关键点信息。但这种方式无疑会增加硬件成本,因此若是基于单目RBG图像方式对3D骨骼关键点识别将能大幅度降低硬件成本。
[0005]目前的最新的2D骨骼关键点识别算法大致可分两种方式,一种是基于热图的方式在二维骨骼关键点识别领域占据了主导位置,另一种是基于回归的方式,但是相关的研究较少。基于热图的方式,由于热图输出的值为整数,不同于坐标回归输出是浮点数,不会丢失精度,因此通过热图得到坐标放大回原图时,会承受不可避免的量化误差。对于3D骨骼关键点识别,基于热图的方式,可将热图扩展到三维空间上,但在三维热图上为了防止量化误差,不可避免地需要一个相对高分辨率的热图。因此也就自然而然的导致模型需要很大的计算量和内存开销。若是基于热图的方式模型同时对人体2D/3D骨骼关键点识别,由于热图
输出是需要高度定制化的,2D骨骼关键点识别必须是二维热图输出,3D骨骼关键点识别必须是三维热图输出,这会导致模型的计算量和内存开销的需求会大幅度的提升。

技术实现思路

[0006]传统的骨骼关键点算法在几何先验的基础上基于模版匹配的思路来进行,精确性较差。而现有的基于深度学习的骨骼关键点识别算法由于硬件性能的限制,在低成本硬件平台上(如移动端手机、平板)的识别速度较慢,算法联动应用会造成应用卡顿、丢帧等情况,非常影响用户体验。当前专利技术基于一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,针对以上提到的问题,该设计方法可以实现在低成本硬件平台上,满足较高精度、快速并且人体2D/3D骨骼关键点能同时实时识别的需求。
[0007]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术公开一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,所述识别方法包括:
[0008]步骤1,通过图像采集模块模块对图像进行采集,将采集的图像经过核心计算单元发送至轻量级神经网络算法模块;
[0009]步骤2,所述该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络,采集的图像首先进入ShuffleNetV2骨干网络进行计算,所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成;
[0010]步骤3,将所述基础骨干网络输出一系列卷积特征图作为关键点回归模块的输入,先通过池化层,再分别通过4个FC层,其中,FC1输出3D骨骼关键点的坐标信息,FC2输出3D骨骼关键点的得分信息,FC3输出2D骨骼关键点的的坐标信息,FC4输出2D骨骼关键点的得分信息,以此完成对3D骨骼关键点和2D骨骼关键点识别。
[0011]更进一步地,所述步骤2中的所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成进一步包括:其中卷积层conv1层经过24组3x3的卷积核(步长为2),卷积层conv5经过1024组1x1的卷积核(步长为1);池化层Maxpool1大小均为3x3,步长为2;ShuffleV2Block层结构统一,将输入通道的特征图分为两个分支,左边分支不做任何操作,右边的分支由连续的1x1卷积核和3x3卷积连接组成,两个分支用concat操作进行合并,紧接进行通道混洗(channel shuffle),左边分支由连续的3x3卷积核和1x1卷积连接组成。
[0012]更进一步地,所述步骤3进一步包括:为了对回归结果的概率分布进行监督,添加2个标准化流模块进行辅助训练,其中,标准化流模块结构统一,标准化流模块1辅助回归3D骨骼关键点,标准化流模块2辅助回归2D骨骼关键点。
[0013]更进一步地,所述标准化流模块能将基本的简单分布转换为任意的的复杂分布,在模型训练过程中,回归模块会拟合出简单分布的输出值,通过标准化流模块对拟合出来的结果值进行变换,让变换后的结果更接近目标的分布P。
[0014]更进一步地,所述标准化流模块的损失函数L
mle
设置为如公式1:
[0015][0016]其中,φ为标准化流模型的可学习参数,μ
g
为数据的骨骼关键点坐标,为回归模块预测出来的骨骼关键点坐标,为回归模块预测出来的骨骼关键点得分。
[0017]更进一步地,在模型训练的过程中损失函数的选择往往是基于对数据分布的假设,如果假设数据分布是服从高斯分布,那么选择使用L2损失函数,若假设为拉普拉斯分布,则选择使用L1损失函数。
[0018]更进一步地,在模型训练过程中2D/3D骨骼关键点识别都选择使用L1损失函数,结合标准化流模块的损失函数L
mle
,2D/3D骨骼关键点的训练损失函数L
kpt
定义如公式3:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,所述识别方法包括:步骤1,通过图像采集模块模块对图像进行采集,将采集的图像经过核心计算单元发送至轻量级神经网络算法模块;步骤2,所述该轻量级神经网络算法模块采用ShuffleNetV2作为基础骨干网络,采集的图像首先进入ShuffleNetV2骨干网络进行计算,所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成;步骤3,将所述基础骨干网络输出一系列卷积特征图作为关键点回归模块的输入,先通过池化层,再分别通过4个FC层,其中,FC1输出3D骨骼关键点的坐标信息,FC2输出3D骨骼关键点的得分信息,FC3输出2D骨骼关键点的的坐标信息,FC4输出2D骨骼关键点的得分信息,以此完成对3D骨骼关键点和2D骨骼关键点识别。2.如权利要求1所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,所述步骤2中的所述ShuffleNetV2骨干网络由两个卷积层,三个ShuffleV2Block层和一个最大池化层组成进一步包括:其中卷积层conv1层经过24组3x3的卷积核,卷积层conv5经过1024组1x1的卷积核;池化层Maxpool1大小均为3x3,步长为2;ShuffleV2Block层结构统一,将输入通道的特征图分为两个分支,左边分支不做任何操作,右边的分支由连续的1x1卷积核和3x3卷积连接组成,两个分支用concat操作进行合并,紧接进行通道混洗,左边分支由连续的3x3卷积核和1x1卷积连接组成。3.如权利要求1所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,所述步骤3进一步包括:为了对回归结果的概率分布进行监督,添加2个标准化流模块进行辅助训练,其中,标准化流模块结构统一,标准化流模块1辅助回归3D骨骼关键点,标准化流模块2辅助回归2D骨骼关键点。4.如权利要求3所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,所述标准化流模块能将基本的简单分布转换为任意的的复杂分布,在模型训练过程中,回归模块会拟合出简单分布的输出值,通过标准化流模块对拟合出来的结果值进行变换,让变换后的结果更接近目标的分布P。5.如权利要求4所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其特征在于,所述标准化流模块的损失函数L
mle
设置为如公式1:其中,φ为标准化流模型的可学习参数,μ
g
为数据的骨骼关键点坐标,为回归模块预测出来的骨骼关键点坐标,为回归模块预测出来的骨骼关键点得分。6.如权利要求5所述的基于单目RGB图像回归的实时人体2D/3D骨骼关键点识别方法,其...

【专利技术属性】
技术研发人员:李观喜梁倬华赵乾张磊
申请(专利权)人:广州紫为云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1