一种基于多视角的手语识别方法技术

技术编号：41237621 阅读：10 留言：0更新日期：2024-05-09 23:51

本发明专利技术涉及手语识别领域。一种基于多视角的手语识别方法，多视角手语识别数据集的构建，对于每个孤立手语或连续手语，从正面、左侧面和右侧面三个视角同时采集专业手语人员的手语视频，形成一组手语视频，经过预处理后，从该组手语视频中的每个手语视频中分别提取身体关键点、手部关键点以及该组手语视频序列的特征向量，构建多视角手语识别数据集。将提取到的特征向量进行融合，形成融合后的赋予手语含义的一组手语视频特征向量，对于每个孤立手语或连续手语，多次从正面、左侧面和右侧面三个视角同时采集专业手语人员的手语视频，采用以上同样的方式进行处理，形成每个孤立手语或连续手语的融合后赋予手语含义的多组手语视频特征向量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及手语识别领域。

技术介绍

1、手语作为一种以视觉为基础的交流手段，具有较为复杂的语言规则，在听障群体得到广泛使用。据世界卫生组织报告，全球约有4.66亿人患有不同类型的听力障碍。因此，手语作为听障人群的一种重要交流手段，值得更多关注。听障人士大部分能够使用手语进行交流，而在听力正常的人群中，能看懂手语的人却寥寥无几。这使得听障人群与正常人群在社会沟通交流中存在较大障碍。为解决这一问题，有必要研发一种智能手语识别方法并应用于各类系统，以促进听障人群与正常人群之间的沟通，使听障人士能够更好地融入社会生活。

2、目前，国内哑语手势识别研究主要基于中国科学技术大学的手语数据集(chinesesign language，clr)。该数据集包含rgb视频序列、深度图像序列及骨架信息，尽管数据量充足，但所有视频均在受试者正面录制，缺乏多视角手语视频序列。因此，存在手部遮挡问题，导致模型对于遮挡较为严重的手语识别率较低。

技术实现思路

1、本专利技术所要解决的技术问题是：如何更为准确的识别手语。

2、本专利技术所采用的技术方案是：一种基于多视角的手语识别方法，按如下步骤进行步骤一、多视角手语识别数据集的构建，对于每个孤立手语或连续手语，从正面、左侧面和右侧面三个视角同时采集专业手语人员的手语视频，形成一组手语视频，经过预处理后，利用resnet18网络从该组手语视频中的每个手语视频中分别提取身体关键点、手部关键点以及该组手语视频序列的特征向量，构建多视角手语识

3、步骤三、建立lstm网络，使用多视角手语识别数据集对lstm网络，进行训练，获得训练完成的lstm网络，利用lstm网络对融合后的待识别人员特征向量分类识别，在lstm网络的整个全连接层中，每个节点的输出是通过将输入与相应的权重相乘，加上偏置，并经过激活函数得到的，可以表达为

4、zl＝f(weight·zl-1+bias)

5、其中，f(·)是relu(rectified linear unit)激活函数，zl是输出向量，zl-1是输入向量，weight是权重矩阵,bias是偏置向量；

6、利用softmax函数获得分类结果，其具体计算如下：

7、

8、result＝max(θ(zi)) 0≤i≤len(y)

9、其中，e≈2.71828，zi是输入向量的第i个元素，分母是所有输入元素的指数函数之和，θ(zi)是softmax函数的输出的第i个元素，代表最后的分类结果，每个分类与多视角手语识别数据集中的一条孤立手语或连续手语。所述预处理是指，将手语视频中的每一帧图像按如下公式进行高斯滤波处理

10、

11、其中图像的顶点为(0,0)点，o输出图像[i,j]为经过预处理后的输出图像的(i，j)点的像素值，o输入图像[i-l,j-q]是输入图像的(i-l，j-q)点像素值，滤波核的矩阵的大小为l*q，l为滤波核的矩阵的横向值，q为滤波核的矩阵的纵向值，(l，q)为滤波核的矩阵中的横向值为l纵向值为q的值，kernel[l,q]为高斯滤波核的矩阵中坐标(l,q)处的值，且l为纵向值q为横向值

12、

13、其中，σ是高斯分布的标准差。

14、所述找出关键帧包括如下内容

15、帧对齐，即对手语视频的正面、左侧面和右侧面三个视角进行帧对齐处理，由于正面、左侧面和右侧面三个视角的手语视频的关键帧时间是一致的，帧对齐完成后，只需根据正面手语视频的关键帧索引，就能找出左侧面和右侧面手语视频的关键帧，分别将正面、左侧面和右侧面三个视角的手语视频从rgb颜色空间转换到luv颜色空间，然后分别对正面、左侧面和右侧面三个视角的手语视频的连续两帧图像的每个像素进行比较，计算它们之间的色彩差异数值，并求和得到连续两帧图像的色彩差异总值，当连续两帧图像的色彩差异总值开始超过设定阈值时，便认为从连续两帧图像的后一帧图像开始手语表达；

16、关键帧选取，计算正面手语视频的所有帧的前后帧的差异

17、

18、将diff(n)从大到小进行排列，当手语视频是孤立手语时则选用diff(n)最大的16帧图像作为关键帧，当手语视频是连续手语时则选用diff(n)最大的128帧图像作为关键帧，其中，diff(n)表示第n帧图像与其前一帧图像的前后帧的差异，w和h分别表示每帧图像的宽度和高度像素值，xi,j为第n帧图像的(i,j)点的像素值，xi,j'表示第n-1帧图像的(i,j)点的像素值。

19、所述手语视频从rgb颜色空间转换到luv颜色空间按如下步骤进行

20、步骤1、将手语视频从rgb颜色空间转换xyz颜色空间

21、

22、步骤2、手语视频从xyz颜色空间转换到luv颜色空间

23、

24、l*＝116.yr-16

25、

26、

27、

28、

29、u'＝13l*(u'-ur')

30、v'＝13l*(v'-vr')

31、其中，(xn,yn,zn)是参考白点的xyz值，yr是将y归一化到参考白点的转换，l*是最终的亮度值，ur'和vr'分别代表参考白点的色度坐标，u'和v'是色度坐标。所述身体关键点为将手语视频的加载到coco数据集上训练好的hrnet-48网络中所得出的，包含了人体骨架的17个关键点；所述手部关键点是将手语视频的加载到onehand10k数据集上训练好的hrnetv2-18网络中所得出的，其中包含了人体手部的21个关键点，所述序列的特征向量是指身体关键点和手部关键点在视频中随时间和空间变化的特征向量。

32、将提取到的特征向量进行融合按如下公式进行

33、

34、其中fout是融合后的特征向量，fin表示输入的多特征向量，表示二维交叉相关计算，k表示卷积核，bias表示的是偏差，在训练的过程中，k和bias会不断随着学习而改变。

35、对于孤立手语，其识别准确率accuracy如下

36、accuracy＝modelpredict(test_label,test_data)

37、其中，tes本文档来自技高网...

【技术保护点】

1.一种基于多视角的手语识别方法，其特征在于：按如下步骤进行

2.根据权利要求1所述的一种基于多视角的手语识别方法，其特征在于：所述预处理是指，将手语视频中的每一帧图像按如下公式进行高斯滤波处理

3.根据权利要求1所述的一种基于多视角的手语识别方法，其特征在于：所述找出关键帧包括如下内容

4.根据权利要求3所述的一种基于多视角的手语识别方法，其特征在于：所述手语视频从RGB颜色空间转换到LUV颜色空间按如下步骤进行

5.根据权利要求1所述的一种基于多视角的手语识别方法，其特征在于：所述身体关键点为将手语视频的加载到Coco数据集上训练好的Hrnet-48网络中所得出的，包含了人体骨架的17个关键点；所述手部关键点是将手语视频的加载到Onehand10k数据集上训练好的HrnetV2-18网络中所得出的，其中包含了人体手部的21个关键点，所述序列的特征向量是指身体关键点和手部关键点在视频中随时间和空间变化的特征向量。

6.根据权利要求1所述的一种基于多视角的手语识别方法，其特征在于：将提取到的特征向量进行融合按如下公式进行

7.根据权利要求1所述的一种基于多视角的手语识别方法，其特征在于：对于孤立手语，其识别准确率accuracy如下

...

【技术特征摘要】

1.一种基于多视角的手语识别方法，其特征在于：按如下步骤进行

2.根据权利要求1所述的一种基于多视角的手语识别方法，其特征在于：所述预处理是指，将手语视频中的每一帧图像按如下公式进行高斯滤波处理

3.根据权利要求1所述的一种基于多视角的手语识别方法，其特征在于：所述找出关键帧包括如下内容

4.根据权利要求3所述的一种基于多视角的手语识别方法，其特征在于：所述手语视频从rgb颜色空间转换到luv颜色空间按如下步骤进行

5.根据权利要求1所述的一种基于多视角的手语识别方法，其特征在于：所述身体关键点为将手语视频...

【专利技术属性】
技术研发人员：薛珮芸，杨璞，唐翱，杨昭，白静，乔安然，许乾明，朱文海，
申请(专利权)人：太原理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人