一种基于时空注意力机制的手语识别方法技术

技术编号：24011330 阅读：182 留言：0更新日期：2020-05-02 01:50

本发明专利技术公开了一种基于时空注意力机制的手语识别方法，首先将手语视频采样为具有统一长度的连续手语序列作为模型的输入。然后将视频帧序列输入到由3D残差块构成的空间注意力网络中，使得网络能够自动关注空间中的显著区域。随后将提取的卷积特征经过ConvLSTM卷积长短时记忆网络解析后提取出长时间的序列特征，同时分配不同视频帧的时间注意力权重生成视频的特征表示。最后，生成的特征表示经过Softmax分类器，以向量的形式输出分类类别。本发明专利技术能够降低冗余信息对识别的干扰，提高识别准确率。

A sign language recognition method based on spatiotemporal attention mechanism

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时空注意力机制的手语识别方法
本专利技术属于图像处理与模式识别领域，特别是一种基于时空注意力机制的手语识别方法。
技术介绍
手语识别的目的是将手语翻译成文本或者语音进行输出，达到聋人与正常人、聋人与聋人交流的目的。手语中包含了图片信息和运动信息，因此如何有效地提取手语中的时空特征是手语识别的研究重点。传统的手语识别框架包括四个部分：预处理，手势检测，特征提取，分类。其中，特征提取和分类是关键的两个部分。因此研究人员着重设计复杂的人工特征，同时利用传统机器学习方法分类。但是这些工作依赖于有效的人工特征和选择的机器学习方法，耗费大量的时间，并且光照变化、个体差异等因素对人工特征的提取影响较大。深度学习在图像分类、物体检测和语义分割等任务上取得了大幅度超出手工特征的性能，因此也成为了手语识别研究方法的热点。基于深度学习网络的动态手语识别系统，不仅可以实现从输入到输出的端到端手语词分类，还可以达到更优秀的识别性能。深度学习网络一般可以代替传统手势检测+手势跟踪+特征提取模块的功能，不仅省去了人工设计手势特征等...

【技术保护点】
1.一种基于时空注意力机制的手语识别方法，其特征在于，包括以下步骤：/nS1数据预处理，对手语视频进行采样，并对采样后的图片进行图像尺度归一化处理；/nS2构建残差3D卷积神经网络，提取输入视频的短期的时空特征，在残差3D卷积神经网络中引入空间注意力模块；/nS3构建卷积长短时记忆网络，将短期的时空特征经过卷积长短时记忆网络解析后提取出长时间的时空特征，在卷积长短时记忆网络中引入时间注意力模块，生成视频帧的时间注意力权重，结合不同视频帧的时间注意力生成视频的特征表示；/nS4经过Softmax分类器，输出手语分类类别。/n

【技术特征摘要】
1.一种基于时空注意力机制的手语识别方法，其特征在于，包括以下步骤：
S1数据预处理，对手语视频进行采样，并对采样后的图片进行图像尺度归一化处理；
S2构建残差3D卷积神经网络，提取输入视频的短期的时空特征，在残差3D卷积神经网络中引入空间注意力模块；
S3构建卷积长短时记忆网络，将短期的时空特征经过卷积长短时记忆网络解析后提取出长时间的时空特征，在卷积长短时记忆网络中引入时间注意力模块，生成视频帧的时间注意力权重，结合不同视频帧的时间注意力生成视频的特征表示；
S4经过Softmax分类器，输出手语分类类别。

2.根据权利要求1所述一种基于时空注意力机制的手语识别方法，其特征在于：所述数据预处理包括将每一个手语视频采样为32帧；帧数大于32的视频，将多余的帧数平均分配到首尾两端进行删除，保留中间的关键帧；而对于帧数小于32的视频为了保证数据的时序性，则重复最后一帧。

3.根据权利要求1所述一种基于时空注意力机制的手语识别方法，其特征在于：所述残差3D卷积神经网络中具有4个残差块；每个残差块包含六层3D卷积层，一层下采样层和一层上采样层，前两层3D卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。

4.根据权利要求3所述一种基于时空注意力机制的手语识别方法，其特征在于：所述下采样层采用最大值池化，所述上采样层采用双线性插值。

5.根据权利要求1所述一种基于时空注意力机制的手语识别方法，其特征在于：所述空间注意力模块为：
S21:输入的特征图x首先经过两层3D卷积网络得到特征图Hx：Hx＝x*Wh
其中，*表示三维卷积操作，Wh是一个3维张量，表示待学习的权重参数；
S22:Hx分别通过掩膜分支和残差分支被变换到两个不同的特征空间Fx和Gx；掩膜分支主要通过下采样和上采样处理使高低维度的特征更好地组合在一起，残差分支的目的是提取更深层次的时空特征；对两个特征空间进行组合变换，再经过归一化处理生成空间注意力图αx：

其中，为哈达玛积，也就是逐元素相乘，σ表示Softmax激活函数，Fx和Gx分别是掩膜分支和残差分支的输出。
S23:注意力层输出为为了更好地利用前层的信息，最终的输出为：Ox＝x+Sx。

【专利技术属性】
技术研发人员：罗元，李丹，张毅，汪杰，陈顺，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人