一种基于时空注意力机制的手语识别方法技术

技术编号:24011330 阅读:176 留言:0更新日期:2020-05-02 01:50
本发明专利技术公开了一种基于时空注意力机制的手语识别方法,首先将手语视频采样为具有统一长度的连续手语序列作为模型的输入。然后将视频帧序列输入到由3D残差块构成的空间注意力网络中,使得网络能够自动关注空间中的显著区域。随后将提取的卷积特征经过ConvLSTM卷积长短时记忆网络解析后提取出长时间的序列特征,同时分配不同视频帧的时间注意力权重生成视频的特征表示。最后,生成的特征表示经过Softmax分类器,以向量的形式输出分类类别。本发明专利技术能够降低冗余信息对识别的干扰,提高识别准确率。

A sign language recognition method based on spatiotemporal attention mechanism

【技术实现步骤摘要】
一种基于时空注意力机制的手语识别方法
本专利技术属于图像处理与模式识别领域,特别是一种基于时空注意力机制的手语识别方法。
技术介绍
手语识别的目的是将手语翻译成文本或者语音进行输出,达到聋人与正常人、聋人与聋人交流的目的。手语中包含了图片信息和运动信息,因此如何有效地提取手语中的时空特征是手语识别的研究重点。传统的手语识别框架包括四个部分:预处理,手势检测,特征提取,分类。其中,特征提取和分类是关键的两个部分。因此研究人员着重设计复杂的人工特征,同时利用传统机器学习方法分类。但是这些工作依赖于有效的人工特征和选择的机器学习方法,耗费大量的时间,并且光照变化、个体差异等因素对人工特征的提取影响较大。深度学习在图像分类、物体检测和语义分割等任务上取得了大幅度超出手工特征的性能,因此也成为了手语识别研究方法的热点。基于深度学习网络的动态手语识别系统,不仅可以实现从输入到输出的端到端手语词分类,还可以达到更优秀的识别性能。深度学习网络一般可以代替传统手势检测+手势跟踪+特征提取模块的功能,不仅省去了人工设计手势特征等一系列繁琐的步骤,网络结构设计合理甚至还可以提取到比人工特征更有效的手势特征,从而提高手语识别系统的识别率。在动态手势识别中,最常采用的神经网络模型为卷积神经网络CNN和循环神经网络RNN。然而,一般的基于CNN-RNN的网络在空间特征提取的有效性上有所欠缺,并且不能突出时间上的差异性,因而提取的时空特征包含了许多冗余信息,时空关联性不强。
技术实现思路
针对现有技术的不足,提出了一种基于时空注意力机制的手语识别方法,通过在残差3D卷积神经网络引入空间注意力、在卷积LSTM中引入时间注意力,使得网络能够自动专注空间中的显著区域,为手语视频帧自动分配权重,从而提高手语识别准确率。为了实现上述目的,本专利技术采用的技术方案是:一种基于时空注意力机制的手语识别方法,包括以下步骤:S1数据预处理,对手语视频进行采样,并对采样后的图片进行图像尺度归一化处理。S2构建残差3DCNN卷积神经网络,提取输入视频的短期的时空特征,在残差3D卷积神经网络中引入空间注意力模块。S3构建卷积LSTM长短时记忆网络,将短期的时空特征经过卷积长短时记忆网络解析后提取出长时间的时空特征,在卷积长短时记忆网络中引入时间注意力模块,生成视频帧的时间注意力权重,结合不同视频帧的时间注意力生成视频的特征表示。S4经过Softmax分类器,输出手语分类类别。进一步,所述数据预处理包括将每一个手语视频采样为32帧;帧数大于32的视频,将多余的帧数平均分配到首尾两端进行删除,保留中间的关键帧;而对于帧数小于32的视频为了保证数据的时序性,则重复最后一帧。进一步,所述残差3D卷积神经网络中具有4个残差块;每个残差块包含六层3D卷积层,一层下采样层和一层上采样层,前两层3D卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。更进一步,所述下采样层采用最大值池化,所述上采样层采用双线性插值。卷积核大小均为3×3×3和1×1×1的卷积;网络中每一层卷积之后都是BN层和ReLU激活函数;BN层使每一层神经网络的输入都保持相同的数据分布,使得训练速度加快,同时可以将训练数据打乱,具有更快速的收敛特性;使用ReLU激活函数可以增强网络稀疏性,防止过拟合。进一步,所述空间注意力模块为:S21:输入的特征图x首先经过两层3D卷积网络得到特征图Hx:Hx=x*Wh其中,*表示三维卷积操作,Wh是一个3维张量,表示待学习的权重参数;S22:Hx分别通过掩膜分支和残差分支被变换到两个不同的特征空间Fx和Gx;掩膜分支主要通过下采样和上采样处理使高低维度的特征更好地组合在一起,残差分支的目的是提取更深层次的时空特征;对两个特征空间进行组合变换,再经过归一化处理生成空间注意力图αx:其中,为哈达玛积,也就是逐元素相乘,σ表示Softmax激活函数,Fx和Gx分别是掩膜分支和残差分支的输出。S23:注意力层输出为为了更好地利用前层的信息,最终的输出为:Ox=x+Sx。所述两个分支其中一个需要经过下采样和上采样处理,另一个经过四层3D卷积处理。进一步,步骤S3所述卷积长短时记忆网络为:令空间注意力网络的输出特征为{x1,x2,...,xt,...},则每个卷积长短时记忆单元按照如下方式更新参数:it=σ(wxi*xt+whi*ht-1+bi)ft=σ(wxf*xt+whf*ht-1+bf)ot=σ(wxo*xt+who*ht-1+bo)其中,it,ot,ft分别表示步长t时的输入门、输出门、遗忘门的向量;xt是数据的输入;ct为存储细胞状态;ht表示t时刻卷积长短时记忆单元的输出;w~,b~分别表示相应的系数矩阵和偏置向量;*表示卷积计算,代表哈达玛积。进一步,所述引入时间注意力模块的步骤包括:S31:计算在每个时间步长t时的时间注意力权重β={β1,β2,...,βt,...},如下公式计算:βt=ReLU(Wg*ht)其中,ht是一个3维张量,表示在时间步长t时的隐藏状态;Wg表示尺寸为1×1的卷积核;使用的ReLU激活函数定义为max(0,x);S32:βt通过Softmax函数得到归一化的权重:其中,T表示序列的长度。S33:为了获得视频级的分类结果c,计算所有时间步长内的隐藏状态和时间注意力的权重和:在基于时间注意力的卷积LSTM网络的最后一层增加softmax分类器,以向量的形式输出手语分类类别。进一步地,在模型训练及测试过程中根据损失函数,动量随机梯度下降算法更新网络。损失函数如下式所示:其中,第一项为交叉熵函数,y=(y1,y2,...,yc)表示手语的真实类别,表示预测的向量;wj表示网络参数的设置,λ1是权值衰减;λ2是正则化系数。由于采用了上述技术方案,本专利技术具有如下的优点:本专利技术提出一种基于残差3D卷积网络和卷积LSTM网络的手语识别方法,能够有效地提取手语视频的空间和时间特征。在残差3D卷积网络中引入空间注意力机制,自动关注空间中的显著区域,减少背景和噪声的干扰;在卷积LSTM网络中引入时间注意力机制,对视频帧序列学习和分配权重,还能保留空间关系。时空注意力的引入能够有效提高手语识别准确率。本专利技术在训练过程中对时空注意力网络进行联合学习,充分利用时空特征进行协调互补,整个网络是端到端的可学习的模型。附图说明图1为本专利技术方法流程图;图2为本专利技术网络总体架构图;图3为设计的残差3D卷积块;图4为残差3DCNN中引入的空间注意力模块。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本专利技术的一部分实施例本文档来自技高网...

【技术保护点】
1.一种基于时空注意力机制的手语识别方法,其特征在于,包括以下步骤:/nS1数据预处理,对手语视频进行采样,并对采样后的图片进行图像尺度归一化处理;/nS2构建残差3D卷积神经网络,提取输入视频的短期的时空特征,在残差3D卷积神经网络中引入空间注意力模块;/nS3构建卷积长短时记忆网络,将短期的时空特征经过卷积长短时记忆网络解析后提取出长时间的时空特征,在卷积长短时记忆网络中引入时间注意力模块,生成视频帧的时间注意力权重,结合不同视频帧的时间注意力生成视频的特征表示;/nS4经过Softmax分类器,输出手语分类类别。/n

【技术特征摘要】
1.一种基于时空注意力机制的手语识别方法,其特征在于,包括以下步骤:
S1数据预处理,对手语视频进行采样,并对采样后的图片进行图像尺度归一化处理;
S2构建残差3D卷积神经网络,提取输入视频的短期的时空特征,在残差3D卷积神经网络中引入空间注意力模块;
S3构建卷积长短时记忆网络,将短期的时空特征经过卷积长短时记忆网络解析后提取出长时间的时空特征,在卷积长短时记忆网络中引入时间注意力模块,生成视频帧的时间注意力权重,结合不同视频帧的时间注意力生成视频的特征表示;
S4经过Softmax分类器,输出手语分类类别。


2.根据权利要求1所述一种基于时空注意力机制的手语识别方法,其特征在于:所述数据预处理包括将每一个手语视频采样为32帧;帧数大于32的视频,将多余的帧数平均分配到首尾两端进行删除,保留中间的关键帧;而对于帧数小于32的视频为了保证数据的时序性,则重复最后一帧。


3.根据权利要求1所述一种基于时空注意力机制的手语识别方法,其特征在于:所述残差3D卷积神经网络中具有4个残差块;每个残差块包含六层3D卷积层,一层下采样层和一层上采样层,前两层3D卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。


4.根据权利要求3所述一种基于时空注意力机制的手语识别方法,其特征在于:所述下采样层采用最大值池化,所述上采样层采用双线性插值。


5.根据权利要求1所述一种基于时空注意力机制的手语识别方法,其特征在于:所述空间注意力模块为:
S21:输入的特征图x首先经过两层3D卷积网络得到特征图Hx:Hx=x*Wh
其中,*表示三维卷积操作,Wh是一个3维张量,表示待学习的权重参数;
S22:Hx分别通过掩膜分支和残差分支被变换到两个不同的特征空间Fx和Gx;掩膜分支主要通过下采样和上采样处理使高低维度的特征更好地组合在一起,残差分支的目的是提取更深层次的时空特征;对两个特征空间进行组合变换,再经过归一化处理生成空间注意力图αx:



其中,为哈达玛积,也就是逐元素相乘,σ表示Softmax激活函数,Fx和Gx分别是掩膜分支和残差分支的输出。
S23:注意力层输出为为了更好地利用前层的信息,最终的输出为:Ox=x+Sx。

【专利技术属性】
技术研发人员:罗元李丹张毅汪杰陈顺
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1