【技术实现步骤摘要】
一种融合几何结构特征图的手语识别方法、系统、装置及存储介质
[0001]本专利技术涉及一种融合几何结构特征图的手语识别方法、系统、装置及存储介质,属于手语识别
技术介绍
[0002]手语是聋哑人主要的交际工具,是聋哑人与社会沟通的桥梁;手语是一种结构化非常明显的语言,手语识别主要通过手的形状、手的位置和手的移动轨迹去实现;手语识别按使用传感器不同分为非视觉和视觉,前者采用的是穿戴式设备,虽然能够采集到更准确的数据但是价格昂贵且对使用者来说不便于生活,而后者是通过摄像头捕获数据,这种方法成本较低而且不会对使用者造成身体上的负担。
[0003]手部的形状和位置信息可以通过骨骼数据表现,因此很多研究会将骨骼识别作为手语识别的一个步骤;PVV Kishore等人在2018年的研究中搭建了由9个摄像头组成的骨骼数据捕获系统,虽然最终可以达到不错的手语识别准确度,但是系统太过庞大不适合实际应用;Qinkun Xiao等人在2019年的研究中将Kinect传感器捕获的骨骼数据作为手语识别的一组特征与其他特征进行融合取得了不错的准确率,但是骨骼数据中包含了一些不必要的关键点。
[0004]基于视觉的手语识别在采集图像数据时,通常难以避免会将人身后的复杂背景一起采集,因此会面临背景噪声影响识别精度的问题;Muneer Al
‑
Hammadi等人在2020年的研究中,根据人脸和身体的比例关系,将图像四周不包括人身体部位的部分通过矩形裁剪的方式剔除,但是在剩下的图像中人体后面的背景依然存在;Sa ...
【技术保护点】
【技术特征摘要】
1.一种融合几何结构特征图的手语识别方法,其特征在于,包括:获取手语视频,将其帧数和像素大小统一调整;将统一调整后的手语视频输入预建立的三维卷积神经网络,提取手语特征,所述三维卷积神经网络预先进行过训练;将手语特征输入预建立的深度卷积生成对抗网络,生成手语特征图,所述深度卷积生成对抗网络预先进行过训练;将手语特征图的像素大小统一调整,根据手语特征图的G通道和B通道的手部轨迹信息进行预分类,得到预分类类别;将统一调整后的手语特征图输入预建立的VGG16网络,输出特征向量,特征向量中值最高的元素在预分类类别对应的手语词汇库中对应的手语词汇为识别结果。2.根据权利要求1所述的一种融合几何结构特征图的手语识别方法,其特征在于,将手语视频的帧数统一为16帧:其中,index
i
表示统一完成后手语视频的第i帧为原手语视频帧序列的第index
i
帧,round()表示对参数进行四舍五入的运算,len(input)表示输入视频的长度,i表示统一完成后手语视频的第i帧;将手语视频的像素大小统一调整为126
×
126像素,将手语特征图的像素大小统一调整为224
×
224像素。3.根据权利要求1所述的一种融合几何结构特征图的手语识别方法,其特征在于,所述三维卷积神经网络包括5层三维卷积层,在每层三维卷积层后都接有1层最大池化层,在最后连接有2层全连接层;所述三维卷积层的形状为3
×3×
3,第一层最大池化层的形状为2
×2×
1,剩余最大池化层的形状为2
×2×
2;所述三维卷积层中卷积核的个数按前后顺序分别为32、64、128、256、512,所述两层全连接层中神经元个数分别为2048和100。4.根据权利要求1所述的一种融合几何结构特征图的手语识别方法,其特征在于,所述深度卷积生成对抗网络预先进行过训练:对手语视频进行手动标记手语特征图,将三维卷积神经网络输出的手语特征和标记的手语特征图输入深度卷积生成对抗网络进行训练,直至深度卷积生成对抗网络能够生成手语特征图。5.根据权利要求4所述的一种融合几何结构特征图的手语识别方法,其特征在于,对手语视频进行手动标记手语特征图:获取一张RGB值为(0,0,0)、大小为64
×
64像素的图片,记为wp,使用RGB值为(0,0,255)的蓝色标记手语视频中每一帧左手腕关键点并按帧序连接成线,记为bl,使用RGB值为(0,255,0)的绿色标记手语视频中每一帧右手腕关键点并按帧序连接成线,记为gl,使用RGB值为(255,0,0)的红色分别标记手语视频中第h帧的左手和右手的五个指尖关键点,并将左右手的五个指尖按拇指、食指、中指、...
【专利技术属性】
技术研发人员:张小瑞,曾祥龙,孙伟,刘青山,刘佳,邓志良,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。