一种基于深度学习的中文手语识别系统技术方案

技术编号：25803980 阅读：177 留言：0更新日期：2020-09-29 18:38

本发明专利技术公开了一种基于深度学习的中文手语识别系统。该手语识别系统设为手语单词识别和连续手语识别两个模式，分别用于对手语动作表达的单词和句子进行识别。整个系统由数据采集模块、数据处理模块、识别模块和输出显示模块组成，其中手语单词识别模块由图卷积神经网络和三维卷积神经网络组成，连续手语识别模块由编码器‑解码器网络组成。系统通过数据采集模块采集手语动作的图像和关节数据，然后进行预处理，并将数据输入识别模块，最终输出对应的手语单词或者句子。本发明专利技术可以将手语转换为文本，促进听力障碍人士和普通人之间的沟通。本发明专利技术实用性强，稳定性高，便于推广应用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的中文手语识别系统
本专利技术涉及一种手语识别系统，特别是涉及一种基于深度学习算法的中文手语识别系统。
技术介绍
手语是一种不使用语音，通过手势、肢体动作和面部表情等方式表达的一种语言。它是听力障碍人士之间进行沟通交流的主要方式，普通人如果没有专门的学习，很难与听力障碍人士进行沟通。手语识别旨在将手语转换为语音或文本，促进听力障碍人士与普通人之间的交流。手语识别任务具有广泛的社会需求。根据世界卫生组织的统计，全球大约有4.66亿人患有残疾性听力损失，超过世界人口5％。听力损失给这些人口带来了难以想象的不便，听力障碍人士很难与普通人交流，面临巨大的社会压力。因此，设计一套通用的手语识别系统解决这些问题是十分必要的。手语识别任务可以分为手语单词识别和连续手语识别。手语单词识别对一个单词进行识别，连续手语识别对一个完整句子进行识别。输入的数据来源包括视频、骨架信息等。传统的方法使用数据手套采集数据，将手语的手势、肢体动作等转换为手工设计的特征，然后利用这些特征通过机器学习的方法对手语进行分类，完成识别的任务。由于手工特征的表示能力有限和数据手套使用不够便利，这些方法不具有足够的鲁棒性和实用性。
技术实现思路
针对手语识别任务的社会需求和存在的问题，本专利技术提供了一种基于深度学习的中文手语识别系统，实用性强、鲁棒性高、使用方便、成本低，便于推广使用。本专利技术能够对500类中文手语单词和100类中文手语句子进行识别，并实时显示识别结果，克服听力障碍人士和普通人之间的沟通障碍。r>本专利技术所采用的具体技术方案是：一种基于深度学习的中文手语识别系统，其包含：数据采集模块，用于采集人体作出手语动作时RGB图像和人体关节数据；数据处理模块，用于对所述数据采集模块采集的RGB图像进行大小调整，并对像素值进行归一化；手语单词识别模块，由图卷积神经网络模块、三维卷积神经网络模块和融合模块组成，用于对手语动作表达的手语单词进行识别；所述图卷积神经网络模块基于所述数据采集模块采集的人体关节数据构建一张关节图，并对所有相邻节点进行图卷积，进而输出手语单词类别的概率分布，其中相邻节点同时包括空间维度的相邻节点和时间维度的相邻节点；所述三维卷积神经网络模块利用包含空间维度和时间维度的三维卷积核对所述数据处理模块处理后的RGB图像进行卷积，提取RGB图像的空间时间特征，进而输出手语单词类别的概率分布；所述融合模块用于通过加权平均对图卷积神经网络模块和三维卷积神经网络模块的输出结果进行融合，得到最终的手语单词预测结果；连续手语识别模块，由编码器模块和解码器模块组成，用于对连续手语动作表达的完整句子进行识别；所述编码器模块包括卷积神经网络和循环神经网络，用于分别提取连续手语的空间特征和时间特征，并生成连续手语动作的全局语义信息；所述解码器模块采用循环神经网络，利用编码器编码的全局语义信息、上一时刻的输出和循环神经网络的隐藏层状态，预测下一时刻的输出。输出显示模块，用于供用户选择手语单词识别模式或连续手语识别模式，并根据用户的选择显示手语单词识别模块或连续手语识别模块的输出结果。作为优选，所述的数据采集模块使用Kinect深度相机，能同时采集人体作出手语动作时的RGB图像和25个人体关节数据。作为优选，所述的数据处理模块将数据采集模块采集的RGB图像大小调整为224*224的图像，并对像素值进行归一化，使其满足均值和标准差都是0.5的高斯分布。作为优选，所述的图卷积神经网络模块中，具体过程如下：11)首先基于数据采集模块采集的人体关节数据构建一张关节图，关节图的节点对应人体关节点的坐标信息，关节图的边对应关节点之间的连接，并在时间维度上将相同的节点连接起来；12)然后对关节图进行图卷积运算；运算过程中，根据给定的K×K大小的卷积核，以及通道数为c的输入特征fin，单个通道在空间位置x的输出fout(x)为：其中：fin(v)表示输入特征fin中v节点的特征值，w(v)表示v节点的权重；B(vti)为需要遍历的节点集合，其中：B(vti)＝{vqj|d(vti,vqj)≤D,|q-t|≤T}式中：d(vti,vqj)表示节点vti和节点vqj之间的距离，vti是t时刻在位置x的节点，vqj是指q时刻在卷积核范围内位置x附近的节点；D为空间维度上的距离阈值，T为时间维度上的距离阈值；所有通道的输出经过加权求和，得到单张关节图的特征；13)通过全连接层将单张关节图中提取的特征映射为手语单词类别的概率分布，并通过归一化函数进行归一化。作为优选，所述的三维卷积神经网络模块使用多层的三维深度残差网络，其中每层残差网络中的具体过程如下：21)残差网络的输入I大小为C×T×H×W，其中C是通道数量，T是时间维度上的长度，H和W分别是图像的长和宽，网络通过三维的卷积核w对图像进行卷积操作：其中：F(x,y,t)表示卷积结果，x和y代表图像中的像素坐标，t代表图像序列中的位置，c代表图像的通道c，δx、δy和δt分别表示图像长度、宽度和时间维度上的偏移量，b代表偏置；在网络的基础上添加恒等映射，将网络转换为学习一个残差函数H(I)＝F(I)+I，其中F(I)是网络输入I的卷积结果，H(I)是当前层残差网络的输出，同时作为下一层残差网络的输入；22)三维深度残差网络提取RGB图像的空间时间特征后，通过一层全连接层将特征映射为手语单词类别的概率分布，并归一化。作为优选，所述的融合模块中，具体融合过程如下：获取图卷积神经网络模块输出的手语单词类别的概率分布向量与三维卷积神经网络输出的手语单词类别的概率分布向量，概率分布向量中的数值均在0～1之间，代表的是每一类手语单词的概率大小；将两个向量中的概率值一一对应进行加权平均计算，得到最终输出的概率分布向量。进一步的，所述的融合模块中，进行加权平均计算时，图卷积神经网络模块和三维卷积神经网络的输出向量的权值分别优选为0.4和0.6。作为优选，所述的编码器模块中,卷积神经网络是多层的深度残差网络，循环神经网络是长短期记忆网络；所述编码器接收可变长度的图像序列作为输入，首先使用深度残差网络对每一帧图像的空间特征进行提取，然后通过长短期记忆网络完成对连续手语视频的语义编码；长短期记忆网络以卷积神经网络提取的空间特征作为输入，不断地更新隐藏层状态，隐藏层状态包含时间维度的特征；对所有时间步的隐藏层状态进行平均，得到编码后的语义向量c，作为解码器的输入：其中T′是输入的序列长度，ht是循环神经网络在t时刻的隐藏层状态。作为优选，所述的解码器模块中，解码器由一个长短期记忆网络、一个词嵌入层和一个全连接层组成，长短期记忆网络使用编码器最后一个时刻的隐藏层状态进行初始化；词嵌入层对上一时刻输出的单词提取语义向量，然后将其与编码器编码的特征进行连接，作为长短期记忆网络的输入；长本文档来自技高网...

【技术保护点】
1.一种基于深度学习的中文手语识别系统，其特征在于，包含：/n数据采集模块，用于采集人体作出手语动作时RGB图像和人体关节数据；/n数据处理模块，用于对所述数据采集模块采集的RGB图像进行大小调整，并对像素值进行归一化；/n手语单词识别模块，由图卷积神经网络模块、三维卷积神经网络模块和融合模块组成，用于对手语动作表达的手语单词进行识别；/n所述图卷积神经网络模块基于所述数据采集模块采集的人体关节数据构建一张关节图，并对所有相邻节点进行图卷积，进而输出手语单词类别的概率分布，其中相邻节点同时包括空间维度的相邻节点和时间维度的相邻节点；/n所述三维卷积神经网络模块利用包含空间维度和时间维度的三维卷积核对所述数据处理模块处理后的RGB图像进行卷积，提取RGB图像的空间时间特征，进而输出手语单词类别的概率分布；/n所述融合模块用于通过加权平均对图卷积神经网络模块和三维卷积神经网络模块的输出结果进行融合，得到最终的手语单词预测结果；/n连续手语识别模块，由编码器模块和解码器模块组成，用于对连续手语动作表达的完整句子进行识别；/n所述编码器模块包括卷积神经网络和循环神经网络，用于分别提取连续手语的...

【技术特征摘要】
1.一种基于深度学习的中文手语识别系统，其特征在于，包含：
数据采集模块，用于采集人体作出手语动作时RGB图像和人体关节数据；
数据处理模块，用于对所述数据采集模块采集的RGB图像进行大小调整，并对像素值进行归一化；
手语单词识别模块，由图卷积神经网络模块、三维卷积神经网络模块和融合模块组成，用于对手语动作表达的手语单词进行识别；
所述图卷积神经网络模块基于所述数据采集模块采集的人体关节数据构建一张关节图，并对所有相邻节点进行图卷积，进而输出手语单词类别的概率分布，其中相邻节点同时包括空间维度的相邻节点和时间维度的相邻节点；
所述三维卷积神经网络模块利用包含空间维度和时间维度的三维卷积核对所述数据处理模块处理后的RGB图像进行卷积，提取RGB图像的空间时间特征，进而输出手语单词类别的概率分布；
所述融合模块用于通过加权平均对图卷积神经网络模块和三维卷积神经网络模块的输出结果进行融合，得到最终的手语单词预测结果；
连续手语识别模块，由编码器模块和解码器模块组成，用于对连续手语动作表达的完整句子进行识别；
所述编码器模块包括卷积神经网络和循环神经网络，用于分别提取连续手语的空间特征和时间特征，并生成连续手语动作的全局语义信息；
所述解码器模块采用循环神经网络，利用编码器编码的全局语义信息、上一时刻的输出和循环神经网络的隐藏层状态，预测下一时刻的输出。
输出显示模块，用于供用户选择手语单词识别模式或连续手语识别模式，并根据用户的选择显示手语单词识别模块或连续手语识别模块的输出结果。

2.根据权利要求1所述的一种基于深度学习的中文手语识别系统，其特征在于，所述的数据采集模块使用Kinect深度相机，能同时采集人体作出手语动作时的RGB图像和25个人体关节数据。

3.根据权利要求1所述的一种基于深度学习的中文手语识别系统，其特征在于，所述的数据处理模块将数据采集模块采集的RGB图像大小调整为224*224的图像，并对像素值进行归一化，使其满足均值和标准差都是0.5的高斯分布。

4.根据权利要求1所述的一种基于深度学习的中文手语识别系统，其特征在于，所述的图卷积神经网络模块中，具体过程如下：
11)首先基于数据采集模块采集的人体关节数据构建一张关节图，关节图的节点对应人体关节点的坐标信息，关节图的边对应关节点之间的连接，并在时间维度上将相同的节点连接起来；
12)然后对关节图进行图卷积运算；运算过程中，根据给定的K×K大小的卷积核，以及通道数为c的输入特征fin，单个通道在空间位置x的输出fout(x)为：

其中：fin(v)表示输入特征fin中v节点的特征值，w(v)表示v节点的权重；B(vti)为需要遍历的节点集合，其中：
B(vti)＝{vqj|d(vti，vqj)≤D，|q-t|≤T}
式中：d(vti,vqj)表示节点vti和节点vqj之间的距离，vti是t时刻在位置x的节点，vqj是指q时刻在卷积核范围内位置x附近的节点；D为空间维度上的距离阈值，T为时间维度上的距离阈值；
所有通道的输出经过加权求和，得到单张关节图的特征；
1...

【专利技术属性】
技术研发人员：张浩东，李威杰，谢亮，熊蓉，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人