一种手语识别方法技术

技术编号：41204332 阅读：6 留言：0更新日期：2024-05-07 22:29

本发明专利技术提供了一种手语识别方法，旨在为听障人群提供一种手语识别解决方案。本发明专利技术针对图像背景干扰、手势形变以及类间特征相似，通过对深度相机获取到的RGB‑D彩色‑深度图像进行归一化等操作，将16位深度信息转化8位深度信息，将深度像素伪色彩化，通过色域分割法将手语手势从背景中分割，通过像素融合方法将前后跨度较大的手势进行颜色融合，同时对深度图像和彩色图像进行仿射变换，实现像素对齐，最后通过双通道特征融合注意网络(DFANet)训练，并在网络后期进行特征融合，通过softmax分类器进行分类。相对现有技术，本发明专利技术的网络特征提取效果更好，手语手势分割精度更高，网络模型参数量更少，训练开销低，运算效率高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别，尤其是一种手语识别方法。

技术介绍

1、手语是一种视觉语言，是听障人群沟通的主要方式之一。由于手语具有独特的语法和词汇，因此需要专门的手语识别系统将手语转化为文字或语音，以便更好地与非听障人群进行交流和沟通。

2、现有技术的解决方案是通过图像形态学处理(如颜色过滤、阈值分割)或对手势进行建模实现手势背景分离从而提取图像鉴别特征，并将其送入到卷积神经网络中进行特征学习，完成手语识别任务。但是此方法需要手动设置图像处理阈值或对每个手型作精细建模，若阈值设置不合理或建模错误则会影响手语识别精度，并且由于背景干扰、动作形变、手势遮挡等问题的存在使得手语图像中有效特征的提取变得困难。为解决此问题，部分研究者使用传感器获取手势运动信息辅助完成手语识别任务，但此方法需要受试者穿戴运动传感器设备，给手语识别工作造成了一定的麻烦。

3、此外，上述方案对于手语数据的预处理方式存在不足，数据集中存在大量无效及重复数据，不仅使得网络训练量庞大而且影响了手势特征提取效果。为了提升特征利用率，部分方法利用多个传感器，如可见光rgb摄像头、深度摄像头、毫米波雷达或计算额外的通道，如光流，以提高其性能，导致模型参数庞大，网络训练量较高，对于实际场景的应用提升有限。手势具有时间相关性并在空间上存在连续性，这种对空间和时间的依赖关系表明对手势空间和时间特征的利用尤其重要，而现有方法在此方面的工作存在不足。充分利用帧间时间相关信息以及每一帧中手型位置、形状、方向编码信息对于提升手势特征利用率，改善模型识别效果尤其重要。

4、综上，手语识别方法如何在网络特征提取效果、手势背景的分割精度、以及网络模型训练的效率、成本三个方面进行优化，成为了本领域的一个痛点。

技术实现思路

1、本申请针对上述现有技术中的缺点，提供一种手语识别方法，该手语识别方法具有网络特征提取效果更好，手语手势分割精度高、误差低，网络模型参数量少，训练开销低，运算效率高的优点。

2、本专利技术所采用的技术方案如下：

3、一种手语识别方法，其包括如下步骤：

4、s1：原始手语图像采集，通过深度相机获取手语的彩色和深度图像，并对采集的图像进行尺寸归一化；

5、s2：将归一化后的深度图像转换为灰度图像，根据距离信息进行伪色彩化；

6、s3：对步骤s2获取到的图像根据色域分割法对手势进行分割，对分割后的手势结果进行判别并进行色彩融合；

7、s4：对生成的手语分割手势灰度化二值化处理，并且对处理结果进行像素反转集中图像像素信息，处理完毕将图像送入双通道特征融合网络进行特征提取；

8、s5：将输出特征与全连接层相连接，最后通过softmax分类器输出24分类概率，在网络训练设定轮数后保存训练模型并加载用来测试，在公开数据集上进行n次交叉验证，验证模型泛化性并保存最佳训练模型；

9、s6：待步骤s5中的模型训练完毕，加载模型并进行手语识别。

10、进一步地，所述步骤s1中，根据原始手语rgb-d图像生成图像金字塔，通过选择性搜索算法从图像金字塔中获得若干个可能存在目标的感兴趣区域，将感兴趣区域缩放成227*227的大小完成手语图像的采集与归一化。

11、进一步地，所述步骤s2中，深度相机获取的原始手语手势深度为16位，像素范围为0到65535，对16位深度像素矩阵通过如下公式进行归一化处理：

12、

13、其中h、w、c分别表示图像宽度、高度和通道数，为原始图像像素矩阵，为归一化处理后的图像像素矩阵。

14、所述感兴趣区域的确定公式为：

15、dst＝deal(src)×scale+shift

16、其中为原始图像，为线性变换后输出数组，scale为比例因子，shift为偏移量，其中像素反变换矩阵deal由下述线性变换公式得出：

17、

18、

19、

20、其中r(x,y)、g(x,y)、b(x,y)表示该点在红绿蓝三通道的颜色值，f(x,y)和f分别表示表示灰度图像特定点的灰度值及所选灰度图像的灰度值，输入图像后按照比例因子scale对数组进行缩放并对元素进行偏移，偏移量为shift，缩放完毕图像深度信息及像素信息发生相应变化从而色彩发生改变，根据手部离相机远近确定比例因子，比例因子通过如下公式确定：

21、d×scale＝255

22、其中d为感兴趣区域到相机的距离。

23、进一步地，所述步骤s3中，将图像从rgb图像空间转换为hsv颜色空间，所述hsv颜色空间包括色调(h)、饱和度(s)及明度(v)，修改h的值以确定待分割颜色，动态调整s、v的值以确定待分割颜色范围。

24、进一步地，所述步骤s4中，彩色图像的灰度按加权的方法转换，r、g、b比值为3:6:1，定义图像一处颜色为rgb(红：r，绿：g，蓝：b)，则计算公式为：

25、gray＝r×0.3+g×0.59+b×0.11

26、其中，r，g，b是图像三原色分别代表红绿蓝，gray为图像的灰度值，系数为加权转换后得到的数值，最后对图像进行阈值反转，先由局部阈值二值化方法对图像做二值化处理，接着通过如下公式将阈值化结果进行反转：

27、reverse＝255-binary

28、其中reverse为翻转后的图像，binary为单通道二值图。

29、进一步地，所述步骤s5中，特征信息经双通道特征融合网络进行提取，所述双通道特征融合网络包括2个卷积批量激活层、2个反向移动瓶颈层、2个融合移动卷积层以及4个注意力模块，以96×96尺寸的图像为输入提取手语手势纹理特征，最后卷积层生成空间分辨率为3×3的特征图，最后一卷积层与全局平均池化、全连接层和softmax层相连接。

30、进一步地，所述注意力模块包括通道注意模块、空间注意模块、dpam以及像素关注度模块。

31、进一步地，所述训练模型中为了加快计算及防止梯度弥散，使用二元交叉熵作为损失函数：

32、

33、其中：n是最小批次大小，k是类别数，yij是第i个样本属于第j个类别的预测概率，yij表示样本标签，所述损失函数中还增加了稀疏诱导惩罚项，所述损失函数为：

34、l＝lb+λσr∈γ|γ|

35、其中γ是批归一化的比例因子，γ是网络中的比例因子集合，λ是控制二进制交叉熵损失和稀疏诱导的惩罚之间的权重。最后，采用带动量的随机梯度下降法作为优化器。

36、进一步地，所述步骤s3中，感兴趣像素值大小通过如下判别方法进行色彩融合：

37、方法一：若(或)的感兴趣像素值小于eff_low，将当前手语分割图像指定为(或)。

38、方法二：若(或)的感兴趣像素值大于eff_high，将当前手语分割图像指定为(或本文档来自技高网...

【技术保护点】

1.一种手语识别方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种手语识别方法，其特征在于：所述步骤S1中，根据原始手语RGB-D图像生成图像金字塔，通过选择性搜索算法从图像金字塔中获得若干个可能存在目标的感兴趣区域，将感兴趣区域缩放成227*227的大小完成手语图像的采集与归一化。

3.如权利要求2所述的一种手语识别方法，其特征在于：所述步骤S2中，深度相机获取的原始手语手势深度为16位，像素范围为0到65535，对16位深度像素矩阵通过如下公式进行归一化处理：

4.如权利要求1所述的一种手语识别方法，其特征在于：所述步骤S3中，将图像从RGB图像空间转换为HSV颜色空间，所述HSV颜色空间包括色调(H)、饱和度(S)及明度(V)，修改H的值以确定待分割颜色，动态调整S、V的值以确定待分割颜色范围。

5.如权利要求1所述的一种手语识别方法，其特征在于：所述步骤S4中，彩色图像的灰度按加权的方法转换，R、G、B比值为3:6:1，定义图像一处颜色为RGB(红：R，绿：G，蓝：B)，则计算公式为：

6.如权利要求1

7.如权利要求6所述的一种手语识别方法，其特征在于：所述注意力模块包括通道注意模块、空间注意模块、DPAM以及像素关注度模块。

8.如权利要求1所述的一种手语识别方法，其特征在于：所述训练模型中为了加快计算及防止梯度弥散，使用二元交叉熵作为损失函数：

9.如权利要求3所述的一种手语识别方法，其特征在于：所述步骤S3中，感兴趣像素值大小通过如下判别方法进行色彩融合：

10.如权利要求1所述的一种手语识别方法，其特征在于：所述步骤S3中图像分割方法为：根据原始图像尺寸生成掩膜，对HSV图像像素做掩膜运算，将掩膜空间范围内的图像像素值变为白色，其余图像像素值变为黑色，最后将原始图片与根据掩膜处理后的图像做与运算，剔除黑色、保留白色，获取原图掩膜位置区域。

...

【技术特征摘要】

1.一种手语识别方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种手语识别方法，其特征在于：所述步骤s1中，根据原始手语rgb-d图像生成图像金字塔，通过选择性搜索算法从图像金字塔中获得若干个可能存在目标的感兴趣区域，将感兴趣区域缩放成227*227的大小完成手语图像的采集与归一化。

3.如权利要求2所述的一种手语识别方法，其特征在于：所述步骤s2中，深度相机获取的原始手语手势深度为16位，像素范围为0到65535，对16位深度像素矩阵通过如下公式进行归一化处理：

4.如权利要求1所述的一种手语识别方法，其特征在于：所述步骤s3中，将图像从rgb图像空间转换为hsv颜色空间，所述hsv颜色空间包括色调(h)、饱和度(s)及明度(v)，修改h的值以确定待分割颜色，动态调整s、v的值以确定待分割颜色范围。

5.如权利要求1所述的一种手语识别方法，其特征在于：所述步骤s4中，彩色图像的灰度按加权的方法转换，r、g、b比值为3:6:1，定义图像一处颜色为rgb(红：r，绿：g，蓝：b)，则计算公式为：

6.如权利要求1所述的一种手语识别方法，其特征...

【专利技术属性】
技术研发人员：高奇志，
申请(专利权)人：无锡机电高等职业技术学校，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人