【技术实现步骤摘要】
一种用于手语识别的时空Transformer动作识别方法
[0001]本专利技术涉及到计算机视觉,人工智能,数据挖掘,深度学习等
具体涉及一种基于视频时空Transformer动作识别的方法应用到手语识别方面。
技术介绍
[0002]随着人工智能的发展,计算机视觉或机器视觉受到许多科研人的关注,计算机视觉在人工智能方面有很多应用实际起到作用,如:图像识别、目标检测/目标跟踪、人脸检测、物体检测、姿态识别等。在深度学习技术兴起之前,传统计算机视觉需要大量依靠人手工提取的特征的方法。随着互联网的发展,数据的数量呈指数级增长,同时GPU硬件成本越来越昂贵,以深度神经网络代表的深度学习逐渐兴起。近年以来,Transformer是自然语言处理的领域中最流行的模型方法,许多计算机视觉领域的科研人借鉴自然语言处理Transformer模型的方法,并且把Transformer模型的改进方法,完全适应了计算机视觉领域的方法。因此,人们见证了深度学习具有强大的的表示学习能力,不需要人手工进行复杂的特征和规则提取制定,就能让深度网络学习并理解到某种知识。所以,利用计算机视觉的深度学习技术的知识,设计一种基于视频时空Transformer的动作识别的方法能够应用到手语识别方面。
技术实现思路
[0003]为了克服现有技术的不足和解决聋人手语的问题,本专利技术人提供一种用于手语识别的时空Transformer动作识别方法,用来解决动作视频的识别的问题,同时解决把动作识别应用到手语识别的方面的问题,从而计算机能够学会识别
【技术保护点】
【技术特征摘要】
1.一种用于手语识别的时空Transformer动作识别方法,其特征在于,所述方法包括以下步骤:1)视频数据集x∈X
B
×
C
×
T
×
W
×
H
,其中,B表示视频数据集的批大小,T表示视频帧的长度,W和H表示视频帧的宽和高,C表示视频帧的通道的数量,通过采取2DCNN操作进行提取视频帧的特征:x
′
=reshape(x)(1)其中x代表视频数据集,x
′
是重新调整维度形状大小的视频数据集,reshape(
·
)是改变维度形状大小的函数;由公式(1)可知2DCNN对视频数据集x∈X
B
×
C
×
T
×
H
×
W
无法操作,因此先把视频数据集x的维度大小进行压缩,压缩后得到x
′
∈X
(B
·
T)
×
C
×
H
×
W
,就可以实现2DCNN的操作;然后通过2D卷积函数对x
′
进行提取特征,2D卷积函数中设置卷积核大小为16和步长大小为16,因为图像识别VisionTransoformer中图像块大小相等于2D卷积的卷积核大小和步长大小,将2D卷积提取特征的应用为:其中表示2D卷积函数,kernel表示卷积核,stride表示步长,Flatten(
·
)表示将输出的四维度进行扁平化成三维度z∈X
(B
·
T)
×
D
×
N
(N是H
o
·
W
o
),接下来使用矩阵进行转置并且重新调整维度大小,最终得到z∈X
B
×
(N
·
T)
×
D
,其中N表示视频帧的块数,相当于图像识别VisionTransformer的图片分割成每一块的数量,D表示经过卷积提取的特征大小,之后进行位置嵌入操作,对已保留的位置信息,定义为:z0=zE+E
pos
(3)其中E表示可学习矩阵的线性大小,E
pos
∈X
((N
·
T)+1)
×
D
表示初始化位置嵌入的线性大小,这意味着给视频帧的每一块做标签,以保证其顺序性,将z0∈X
B
×
((N
·
T)+1)
×
D
的结果序列作为编码器的输入;2)输入序列z∈X
B
×
((N
·
T)+1)
×
D
由LSTM层处理,然后再发送到TST模块,LSTM层包括隐藏状态、输出状态、存储单元状态,由过去时间段的隐藏状态...
【专利技术属性】
技术研发人员:袁甜甜,乔明阳,薛翠红,杨学,蔡佳良,
申请(专利权)人:天津理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。