一种融合几何结构特征图的手语识别方法、系统、装置及存储介质制造方法及图纸

技术编号:33142910 阅读:19 留言:0更新日期:2022-04-22 13:53
本发明专利技术公开了一种融合几何结构特征图的手语识别方法、系统、装置及存储介质,属于手语识别技术领域;包括:获取手语视频,将其帧数和像素大小统一调整;将统一调整后的手语视频输入预建立的预先进行过训练的三维卷积神经网络,提取手语特征;将手语特征输入预建立的预先进行过训练的深度卷积生成对抗网络,生成手语特征图;将手语特征图的像素大小统一调整,根据手语特征图G通道和B通道的手部轨迹信息进行预分类,得到预分类类别;将统一调整后的手语特征图输入预建立的VGG16网络,输出特征向量,特征向量中值最高的元素在预分类类别对应的手语词汇库中对应的手语词汇为识别结果;提高手语识别的准确度和整体分类识别效率。提高手语识别的准确度和整体分类识别效率。提高手语识别的准确度和整体分类识别效率。

【技术实现步骤摘要】
一种融合几何结构特征图的手语识别方法、系统、装置及存储介质


[0001]本专利技术涉及一种融合几何结构特征图的手语识别方法、系统、装置及存储介质,属于手语识别


技术介绍

[0002]手语是聋哑人主要的交际工具,是聋哑人与社会沟通的桥梁;手语是一种结构化非常明显的语言,手语识别主要通过手的形状、手的位置和手的移动轨迹去实现;手语识别按使用传感器不同分为非视觉和视觉,前者采用的是穿戴式设备,虽然能够采集到更准确的数据但是价格昂贵且对使用者来说不便于生活,而后者是通过摄像头捕获数据,这种方法成本较低而且不会对使用者造成身体上的负担。
[0003]手部的形状和位置信息可以通过骨骼数据表现,因此很多研究会将骨骼识别作为手语识别的一个步骤;PVV Kishore等人在2018年的研究中搭建了由9个摄像头组成的骨骼数据捕获系统,虽然最终可以达到不错的手语识别准确度,但是系统太过庞大不适合实际应用;Qinkun Xiao等人在2019年的研究中将Kinect传感器捕获的骨骼数据作为手语识别的一组特征与其他特征进行融合取得了不错的准确率,但是骨骼数据中包含了一些不必要的关键点。
[0004]基于视觉的手语识别在采集图像数据时,通常难以避免会将人身后的复杂背景一起采集,因此会面临背景噪声影响识别精度的问题;Muneer Al

Hammadi等人在2020年的研究中,根据人脸和身体的比例关系,将图像四周不包括人身体部位的部分通过矩形裁剪的方式剔除,但是在剩下的图像中人体后面的背景依然存在;Saleh Aly等人在2020年的研究中使用语义分割模型将手部图像从含有复杂背景的图像中提取了出来,但是他们没有把手部的移动轨迹和手指间的位置关系单独提取出来用于识别,没有提取至关重要的特征用于识别,手语识别结果的准确度较低。
[0005]卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一;Du Jiang等人在2019年的研究中使用了2D卷积神经网络对骨骼数据进行特征提取从而实现手势识别,他们充分利用了骨骼数据但是没有把视频序列考虑在内,Zhijie Liang等人在2018年的研究中使用了3D卷积神经网络去提取手语视频的时空特征,但遗憾的是他们没有把手部的形状、位置和移动轨迹统一起来进行处理,整体分类和识别效率较低。

技术实现思路

[0006]本专利技术的目的在于提供一种融合几何结构特征图的手语识别方法、系统、装置及存储介质,提高手语识别的准确度,大大提高整体分类和识别效率。
[0007]为实现以上目的,本专利技术是采用下述技术方案实现的:
[0008]第一方面,本专利技术提供了一种融合几何结构特征图的手语识别方法,包括:
[0009]获取手语视频,将其帧数和像素大小统一调整;
[0010]将统一调整后的手语视频输入预建立的三维卷积神经网络,提取手语特征,所述三维卷积神经网络预先进行过训练;
[0011]将手语特征输入预建立的深度卷积生成对抗网络,生成手语特征图,所述深度卷积生成对抗网络预先进行过训练;
[0012]将手语特征图的像素大小统一调整,根据手语特征图的G通道和B通道的手部轨迹信息进行预分类,得到预分类类别;
[0013]将统一调整后的手语特征图输入预建立的VGG16网络,输出特征向量,特征向量中值最高的元素在预分类类别对应的手语词汇库中对应的手语词汇为识别结果。
[0014]结合第一方面,进一步的,将手语视频的帧数统一为16帧:
[0015][0016]其中,index
i
表示统一完成后手语视频的第i帧为原手语视频帧序列的第index
i
帧,round()表示对参数进行四舍五入的运算,len(input)表示输入视频的长度,i表示统一完成后手语视频的第i帧;
[0017]将手语视频的像素大小统一调整为126
×
126像素,将手语特征图的像素大小统一调整为224
×
224像素。
[0018]结合第一方面,进一步的,所述三维卷积神经网络包括5层三维卷积层,在每层三维卷积层后都接有1层最大池化层,在最后连接有2层全连接层;所述三维卷积层的形状为3
×3×
3,第一层最大池化层的形状为2
×2×
1,剩余最大池化层的形状为2
×2×
2;所述三维卷积层中卷积核的个数按前后顺序分别为32、64、128、256、512,所述两层全连接层中神经元个数分别为2048和100。
[0019]结合第一方面,进一步的,所述深度卷积生成对抗网络预先进行过训练:
[0020]对手语视频进行手动标记手语特征图,将手语视频和标记的手语特征图输入深度卷积生成对抗网络进行训练,直至深度卷积生成对抗网络能够生成手语特征图。
[0021]结合第一方面,进一步的,对手语视频进行手动标记手语特征图:
[0022]获取一张RGB值为(0,0,0)、大小为64
×
64像素的图片,记为wp,使用RGB值为(0,0,255)的蓝色标记手语视频中每一帧左手腕关键点并按帧序连接成线,记为bl,使用RGB值为(0,255,0)的绿色标记手语视频中每一帧右手腕关键点并按帧序连接成线,记为gl,使用RGB值为(255,0,0)的红色分别标记手语视频中第h帧的左手和右手的五个指尖关键点,并将左右手的五个指尖按拇指、食指、中指、无名指、小指的顺序连接成闭环,记为rl,其中h满足h%3=0,%为求余符号;
[0023]将wp、bl、gl和rl进行逐像素相加得到手语特征图:
[0024][0025]其中,FM(x,y)表示手语特征图,wp(x,y)、bl(x,y)、gl(x,y)、rl(x,y)分别表示wp、bl、gl、rl在像素坐标(x,y)处的像素值。
[0026]结合第一方面,进一步的,根据手语特征图的G通道和B通道的手部轨迹信息进行预分类:
[0027]获取G通道和B通道的像素坐标集合交集,获取方式如下:
[0028]G'={(x,y)|G(x,y)≠0}
[0029]B'={(x,y)|B(x,y)≠0}
[0030]I=G'∩B'
[0031]其中,G'表示G通道内值不为0的像素坐标集合,G(x,y)表示G通道在像素坐标(x,y)处的值,B'表示B通道内值不为0的像素坐标集合,B(x,y)表示B通道在像素坐标(x,y)处的值,I表示G通道和B通道的像素坐标集合交集;
[0032]预分类的方法如下:
[0033][0034][0035]其中,P为平均像素坐标点,m为I中元素的个数,I
i
表示I中第i个元素,Pre为预分类类别,P
x
表示平均像素坐标点的横坐标,P
y
表示平均像素坐标点的纵坐标。
[0036]结合第一方面,进一步的,所述特征向量包含本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合几何结构特征图的手语识别方法,其特征在于,包括:获取手语视频,将其帧数和像素大小统一调整;将统一调整后的手语视频输入预建立的三维卷积神经网络,提取手语特征,所述三维卷积神经网络预先进行过训练;将手语特征输入预建立的深度卷积生成对抗网络,生成手语特征图,所述深度卷积生成对抗网络预先进行过训练;将手语特征图的像素大小统一调整,根据手语特征图的G通道和B通道的手部轨迹信息进行预分类,得到预分类类别;将统一调整后的手语特征图输入预建立的VGG16网络,输出特征向量,特征向量中值最高的元素在预分类类别对应的手语词汇库中对应的手语词汇为识别结果。2.根据权利要求1所述的一种融合几何结构特征图的手语识别方法,其特征在于,将手语视频的帧数统一为16帧:其中,index
i
表示统一完成后手语视频的第i帧为原手语视频帧序列的第index
i
帧,round()表示对参数进行四舍五入的运算,len(input)表示输入视频的长度,i表示统一完成后手语视频的第i帧;将手语视频的像素大小统一调整为126
×
126像素,将手语特征图的像素大小统一调整为224
×
224像素。3.根据权利要求1所述的一种融合几何结构特征图的手语识别方法,其特征在于,所述三维卷积神经网络包括5层三维卷积层,在每层三维卷积层后都接有1层最大池化层,在最后连接有2层全连接层;所述三维卷积层的形状为3
×3×
3,第一层最大池化层的形状为2
×2×
1,剩余最大池化层的形状为2
×2×
2;所述三维卷积层中卷积核的个数按前后顺序分别为32、64、128、256、512,所述两层全连接层中神经元个数分别为2048和100。4.根据权利要求1所述的一种融合几何结构特征图的手语识别方法,其特征在于,所述深度卷积生成对抗网络预先进行过训练:对手语视频进行手动标记手语特征图,将三维卷积神经网络输出的手语特征和标记的手语特征图输入深度卷积生成对抗网络进行训练,直至深度卷积生成对抗网络能够生成手语特征图。5.根据权利要求4所述的一种融合几何结构特征图的手语识别方法,其特征在于,对手语视频进行手动标记手语特征图:获取一张RGB值为(0,0,0)、大小为64
×
64像素的图片,记为wp,使用RGB值为(0,0,255)的蓝色标记手语视频中每一帧左手腕关键点并按帧序连接成线,记为bl,使用RGB值为(0,255,0)的绿色标记手语视频中每一帧右手腕关键点并按帧序连接成线,记为gl,使用RGB值为(255,0,0)的红色分别标记手语视频中第h帧的左手和右手的五个指尖关键点,并将左右手的五个指尖按拇指、食指、中指、...

【专利技术属性】
技术研发人员:张小瑞曾祥龙孙伟刘青山刘佳邓志良
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1