一种用于手语识别的时空Transformer动作识别方法技术

技术编号:35266411 阅读:17 留言:0更新日期:2022-10-19 10:29
一种用于手语识别的时空Transformer动作识别方法,为了能够应用到手语识别方面,是因为手语识别是动作识别的一个分支,就是说手语属于动作,因此采用基于视频时空Transformer的动作识别的方法,用有卷积的操作对视频帧切成每一个块进行提取特征,通过利用LSTM模块的作用是对视频帧进行关联,并保留可能有用的视频动作信息特征,利用时间注意力机制和空间注意力机结合形成时空Transformer的方法,可增强动作识别的特征表达能力,从而可以实现应用到手语识别的方面。本发明专利技术主要解决健全人与聋人的交流与沟通。人的交流与沟通。人的交流与沟通。

【技术实现步骤摘要】
一种用于手语识别的时空Transformer动作识别方法


[0001]本专利技术涉及到计算机视觉,人工智能,数据挖掘,深度学习等
具体涉及一种基于视频时空Transformer动作识别的方法应用到手语识别方面。

技术介绍

[0002]随着人工智能的发展,计算机视觉或机器视觉受到许多科研人的关注,计算机视觉在人工智能方面有很多应用实际起到作用,如:图像识别、目标检测/目标跟踪、人脸检测、物体检测、姿态识别等。在深度学习技术兴起之前,传统计算机视觉需要大量依靠人手工提取的特征的方法。随着互联网的发展,数据的数量呈指数级增长,同时GPU硬件成本越来越昂贵,以深度神经网络代表的深度学习逐渐兴起。近年以来,Transformer是自然语言处理的领域中最流行的模型方法,许多计算机视觉领域的科研人借鉴自然语言处理Transformer模型的方法,并且把Transformer模型的改进方法,完全适应了计算机视觉领域的方法。因此,人们见证了深度学习具有强大的的表示学习能力,不需要人手工进行复杂的特征和规则提取制定,就能让深度网络学习并理解到某种知识。所以,利用计算机视觉的深度学习技术的知识,设计一种基于视频时空Transformer的动作识别的方法能够应用到手语识别方面。

技术实现思路

[0003]为了克服现有技术的不足和解决聋人手语的问题,本专利技术人提供一种用于手语识别的时空Transformer动作识别方法,用来解决动作视频的识别的问题,同时解决把动作识别应用到手语识别的方面的问题,从而计算机能够学会识别手语者表达的意思,实现健听人和聋人的交流与沟通。
[0004]为了解决上述技术问题本专利技术提供如下的技术方案:
[0005]一种用于手语识别的时空Transformer动作识别方法,所述方法包括以下步骤:
[0006]1)视频数据集x∈X
B
×
C
×
T
×
W
×
H
,其中,B表示视频数据集的批大小,T表示视频帧的长度,W和H表示视频帧的宽和高,C表示视频帧的通道的数量,通过采取2DCNN操作进行提取视频帧的特征:
[0007]x

=reshape(x)(1)
[0008]其中x代表视频数据集,x

是重新调整维度形状大小的视频数据集;由公式(1)可知2DCNN对视频数据集x∈X
B
×
C
×
T
×
H
×
W
无法操作,因此先把视频数据集x的维度大小进行压缩,压缩后得到x

∈X
(B
·
T)
×
C
×
H
×
W
,就可以实现2DCNN的操作;然后通过2D卷积函数对x

进行提取特征,2D卷积函数中设置卷积核大小为16和步长大小为16,因为图像识别VisionTransoformer中图像块大小相等于2D卷积的卷积核大小和步长大小,将2D卷积提取特征的应用为:
[0009][0010]其中表示2D卷积函数,kernel表示卷积核,stride表示步长,Flatten
(
·
)表示将输出的四维度进行扁平化成三维度z∈X
(B
·
T)
×
D
×
N
(N是H
o
·
W
o
),接下来使用矩阵进行转置并且重新调整维度大小,最终得到z∈X
B
×
(N
·
T)
×
D
,其中N表示视频帧的块数,相当于图像识别VisionTransformer的图片分割成每一块的数量,D表示经过卷积提取的特征大小,之后进行位置嵌入操作,对已保留的位置信息,定义为:
[0011]z0=zE+E
pos
(3)
[0012]其中E表示可学习矩阵的线性大小,E
pos
∈X
((N
·
T)+1)
×
D
表示初始化位置嵌入的线性大小,这意味着给视频帧的每一块做标签,以保证其顺序性,将z0∈X
B
×
((N
·
T)+1)
×
D
的结果序列作为编码器的输入;
[0013]2)输入序列z∈X
B
×
((N
·
T)+1)
×
D
由LSTM层处理,然后再发送到TST模块,LSTM层包括隐藏状态、输出状态、存储单元状态,由过去时间段的隐藏状态的初始化,将LSTM输出序列直接发送到TST的时间注意力模型,或者通过融合层和LSTM层组合,形成绕过LSTM的残差连接,将LSTM模块定义为:
[0014]z

=Fusion(z
l
,Lstm(z
l
))(4)
[0015]O=TSTBlock(z

)(5)
[0016]其中Fusion(
·
)表示融合层的函数,通过序列z
l
和经过LSTM的输出序列Lstm(z
l
)进行做计算,最终得到输出序列大小为z

z

∈X
B
×
((N
·
T)+1)
×
D
表示LSTM层与融合层的输出序列大小,
[0017],而Fusion(
·
)是融合层中采取最大值的操作,由于考虑到深层的LSTM在特征提取过程中会丢弃了很多重要的信息特征,为了保留有用的信息特征,所以采用了融合层的方法,将l(l=1...n)定义为LSTMBlock的层数,TSTBlock(
·
)表示对z

进行时间注意力和空间注意力计算的操作,O是把z

经过TSTBlock(
·
)进行计算结果的输出序列大小,将时间注意力模块定义为:
[0018][0019]其中表示对z

进行时间注意力操作的输出时间序列大小,(z

)
L
‑1表示上一层的输出结果进行处理序列z

的序列大小,L(L=1...n)为TSTBlock的层数的大小,L

1指是上一层的输出结果,MSA
T
(
·
)是时间注意力模型的结果,LN(
·
)是层归一化,对空间注意力模型进行定义:
[0020][0021]其中表示对进行空间注意力操作的输出空间序列大小,表示上一层输出结果进行处理时间序列的序列大小,MSA...

【技术保护点】

【技术特征摘要】
1.一种用于手语识别的时空Transformer动作识别方法,其特征在于,所述方法包括以下步骤:1)视频数据集x∈X
B
×
C
×
T
×
W
×
H
,其中,B表示视频数据集的批大小,T表示视频帧的长度,W和H表示视频帧的宽和高,C表示视频帧的通道的数量,通过采取2DCNN操作进行提取视频帧的特征:x

=reshape(x)(1)其中x代表视频数据集,x

是重新调整维度形状大小的视频数据集,reshape(
·
)是改变维度形状大小的函数;由公式(1)可知2DCNN对视频数据集x∈X
B
×
C
×
T
×
H
×
W
无法操作,因此先把视频数据集x的维度大小进行压缩,压缩后得到x

∈X
(B
·
T)
×
C
×
H
×
W
,就可以实现2DCNN的操作;然后通过2D卷积函数对x

进行提取特征,2D卷积函数中设置卷积核大小为16和步长大小为16,因为图像识别VisionTransoformer中图像块大小相等于2D卷积的卷积核大小和步长大小,将2D卷积提取特征的应用为:其中表示2D卷积函数,kernel表示卷积核,stride表示步长,Flatten(
·
)表示将输出的四维度进行扁平化成三维度z∈X
(B
·
T)
×
D
×
N
(N是H
o
·
W
o
),接下来使用矩阵进行转置并且重新调整维度大小,最终得到z∈X
B
×
(N
·
T)
×
D
,其中N表示视频帧的块数,相当于图像识别VisionTransformer的图片分割成每一块的数量,D表示经过卷积提取的特征大小,之后进行位置嵌入操作,对已保留的位置信息,定义为:z0=zE+E
pos
(3)其中E表示可学习矩阵的线性大小,E
pos
∈X
((N
·
T)+1)
×
D
表示初始化位置嵌入的线性大小,这意味着给视频帧的每一块做标签,以保证其顺序性,将z0∈X
B
×
((N
·
T)+1)
×
D
的结果序列作为编码器的输入;2)输入序列z∈X
B
×
((N
·
T)+1)
×
D
由LSTM层处理,然后再发送到TST模块,LSTM层包括隐藏状态、输出状态、存储单元状态,由过去时间段的隐藏状态...

【专利技术属性】
技术研发人员:袁甜甜乔明阳薛翠红杨学蔡佳良
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1