手势关键点检测方法、装置、设备及介质制造方法及图纸

技术编号：40579997 阅读：4 留言：0更新日期：2024-03-06 17:22

本申请涉及人工智能技术领域，提供一种手势关键点检测方法、装置、设备及介质，方法包括：获取待检测手势图像；将待检测手势图像输入手势关键点热图预测网络，并从手势关键点热图预测网络的输出中获取一对热图；其中，每对热图包括一张位置热图以及一张深度热图；所述手势关键点热图预测网络是通过监督训练得到的，监督训练标签包括预先设置好的位置热图以及预先设置好的深度热图，所述位置热图以及深度热图均是具有亚像素信息的高斯热图；基于所述位置热图和深度热图，通过softmax归一化计算关键点坐标的期望值；根据所述关键点坐标的期望值，计算得到所述关键点坐标。本发明专利技术实施例具有更快的推理速度，以及能提取出更加准确的关键点坐标信息。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种手势关键点方法、装置、设备及介质。

技术介绍

1、最常用的手势关键点检测方案为每只手检测出21个关键点，分别是手掌根部的一个关键点以及每根手指4个关键点，如图1所示，这21个关键点后期可以用来重建手部模型，以及进行手势识别。手势关键点检测在学术上主要有两种方法，第一种方法为关键点回归模型，该模型最早在2013年由谷歌学者alexandertoshe以及christianszegedy提出。简单地说，关键点回归模型首先利用卷积神经网络提取出特征图，然后利用全连接层把特征图回归成21个关键点的坐标。这种方法的优势是可以直接输出浮点数值，不会造成精度损失，但是缺点是容易造成过拟合，导致泛化能力较差。举一个例子，如果训练神经网络的时候手部总是在图像的左上角，那么训练出来的模型就很难识别右下角的手及其关键点。

2、第二种方法为热图回归模型，该方法于2014年由纽约大学学者jonathantompson，arjunjain，christophbregle以及神经网络之父yannlecun提出。简单地说，热图回归模型就是输出21张热图(heatmap)，热图每个像素的值都在0到1之间，分别代表该点是关键点的概率。得到21张热图后，找到每张热图的最大值，最大值所在的位置即关键点位置。热图回归模型的优势是泛化能力强，即使训练的时候样本分布不均匀也能在预测时得到较好结果，缺点是计算量大，因为，关键点回归模型只需要输出21个关键点坐标(总共42 个输出，因为每个关键点包含x，y)，而热图回归需要输出21张热

3、那么如何才能利用泛化能力强的热图回归同时又不丢失关键点精度呢？谷歌学者在2018年提出过一种heatmap+offset的热图回归方法，简单地说，这种方法通过热图回归找到热图上的关键，每一个关键点对应原图的4*4区域，该方法首先取4*4区域的中心位置作为关键点位置，然后offset会提供关键点相对于4*4区域的中心位置的偏移量。结合offset偏移的关键点位置即为最终关键点位置。

4、heatmap+offset的热图回归方法虽然具有较强的泛化能力，且减少了关键点位置存在精度损失的问题，然而，利用heatmap+offset的热图回归方法计算得到的关键点坐标位置还是不够准确。

技术实现思路

1、针对上述技术问题，本申请的目的在于提供一种手势关键点检测方法、装置、设备存储介质，旨在提高手势关键点坐标计算的准确性。

2、为了解决上述技术问题，第一方面，本申请实施例提供一种手势关键点检测，包括：

3、获取待检测手势图像；

4、将所述待检测手势图像输入手势关键点热图预测网络，并从手势关键点热图预测网络的输出中获取一对热图；其中，每对热图包括一张位置热图以及一张深度热图；所述手势关键点热图预测网络是通过监督训练得到的，监督训练标签包括预先设置好的位置热图以及预先设置好的深度热图，所述预先设置好的位置热图以及预先设置好的深度热图均是具有亚像素信息的高斯热图；

5、计算所述位置热图的最大热度的位置；

6、以所述位置热图的最大热度的位置为中心，从所述位置热图中提取第一矩阵；

7、对所述第一矩阵进行归一化，根据对所述第一矩阵进行归一化的结果计算关键点坐标的位置期望值；

8、根据所述位置热图的宽度和所述待检测手势图像的宽度的比值，以及所述位置热图的长度和所述待检测手势图像的长度的比值对所述关键点坐标的位置期望值进行转换，得到关键点坐标的位置值；

9、计算所述深度热图的最大热度的位置；

10、以所述深度热图的最大热度的位置为中心，从所述深度热图中提取第二矩阵；其中，所述第二矩阵和所述第一矩阵的列数相同；

11、对所述第二矩阵进行归一化，根据对所述第二矩阵进行归一化的结果计算关键点坐标的深度期望值；

12、根据所述关键点坐标的位置值与所述关键点坐标的深度期望值得到关键点坐标。

13、进一步的，所述预先设置好的位置热图为二维高斯分布，所述二维高斯分布均值为(x/4，y/4)，标准差为σ，有效区域为m*m，超过有效区域部分全部设为0；所述深度热图为一维高斯分布，所述一维高斯分布的均值为 (z+0.5)*32，标准差为σ，有效区域为1*m，超过有效区域部分全部设为0，其中，(x,y,z)为标注好的手势关键点的坐标。

14、进一步的，所述对所述第一矩阵进行归一化，根据对所述第一矩阵进行归一化的结果计算关键点坐标的位置期望值，包括：

15、根据公式计算关键点坐标的位置期望值；其中，i，j为所述第一矩阵h中的元素hi,j在位置热图中的坐标位置，矩阵h为n*n的矩阵，n为正整数，为位置热图的最大热度的位置，h为位置热图，τ为softmax温度，是设定的值，(x′,y′) 为关键点坐标的位置期望值。

16、进一步的，所述对所述第二矩阵进行归一化，根据对所述第二矩阵进行归一化的结果计算关键点坐标的深度期望值包括：

17、根据公式计算关键点坐标的深度期望值；

18、其中，k为第二矩阵d中的元素dk在热图d中的坐标位置，矩阵为1*n 的矩阵，n为正整数，τ为softmax温度，是设定的值，为深度热图的最大热度的位置，z为关键点坐标的深度期望值。

19、进一步的，所述根据所述位置热图的宽度和所述待检测手势图像的宽度的比值，以及所述位置热图的长度和所述待检测手势图像的长度的比值对所述关键点坐标的位置期望值进行转换，得到关键点坐标的位置值，包括：

20、根据公式对所述关键点坐标的位置期望值进行转换，得到关键点坐标的位置值；其中，(x,y)为关键点坐标的位置值，(x′,y′)为关键点坐标的位置期望值，sx为位置热图的宽度和待检测手势图像的宽度的比值，sy为位置热图的长度和待检测手势图像的长度的比值。

21、进一步的，所述将所述待检测手势图像输入手势关键点热图预测网络，并从所述手势关键点热图预测网络的输出中获取一对热图，包括：

22、将所述待检测手势图像输入第一手势关键点热图预测网络，由所述第一手势关键点热图预测网络提取所述待检测手势图像的特征图，并基于所述待检测手势图像的特征图生成m对热图；其中，每一对热图包括一张位置热图以及一张深度热图；其中，m为正整数；

23、从所述m对热图中获取一对热图。

24本文档来自技高网...

【技术保护点】

1.一种手势关键点检测方法，其特征在于，包括：

2.根据权利要求1所述的手势关键点检测方法，其特征在于，所述预先设置好的位置热图为二维高斯分布，所述二维高斯分布均值为(x/4，y/4)，标准差为σ，有效区域为m*m，超过有效区域部分全部设为0；

3.根据权利要求1所述的手势关键点检测方法，其特征在于，所述对所述第一矩阵进行归一化，根据对所述第一矩阵进行归一化的结果计算关键点坐标的位置期望值，包括：

4.根据权利要求1所述的手势关键点检测方法，其特征在于，所述对所述第二矩阵进行归一化，根据对所述第二矩阵进行归一化的结果计算关键点坐标的深度期望值包括：

5.根据权利要求3所述的手势关键点检测方法，其特征在于，所述根据所述位置热图的宽度和所述待检测手势图像的宽度的比值，以及所述位置热图的长度和所述待检测手势图像的长度的比值对所述关键点坐标的位置期望值进行转换，得到关键点坐标的位置值，包括：

6.根据权利要求1所述的手势关键点检测方法，其特征在于，所述将所述待检测手势图像输入手势关键点热图预测网络，并从所述手势关键点热图预测网络

7.根据权利要求1所述的手势关键点检测方法，其特征在于，所述将所述待检测手势图像输入手势关键点热图预测网络，并从所述手势关键点热图预测网络的输出中获取一对热图，包括：

8.一种手势关键点检测装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种手势关键点检测方法，其特征在于，包括：

5.根据权利要求3所述的手势关键点检测方法，其特征在于，所述根据所述位置热图的宽度和所述待检测手势图像的宽度的比值，以及所述位置热图的长度和所述待检测手势图像的长度的比值对所述关键点坐标...

【专利技术属性】
技术研发人员：卢梓文，
申请(专利权)人：广州视源电子科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人