一种自适应帧采样驱动的手势识别方法技术

技术编号:37778109 阅读:9 留言:0更新日期:2023-06-09 09:08
本发明专利技术公开一种自适应帧采样驱动的手势识别方法,包括将摄像头捕获的帧序列转化为张量,使用两个卷积层作为特征提取层提取张量中每一帧图像的特征;采用帧间运动注意力算法根据两帧间局部区域模式的相似度追踪每一帧中的运动区域,为运动区域分配更大的关注权重;采用自注意力时间下采样算法根据重要性为相邻的多帧的同一区域分配不同的权重,再通过求和将多帧的特征融合为一帧;采用自注意力空间下采样算法根据重要性为局部区域的每一点分配不同的权重,通过求和将局部区域不同点特征融合为一个点;将冗余信息低的特征输入到已有的手势分类模型中对手势进行分类。本发明专利技术通过自适应帧采样剔除帧序列中冗余信息,提高手势识别模型的准确率。识别模型的准确率。识别模型的准确率。

【技术实现步骤摘要】
一种自适应帧采样驱动的手势识别方法


[0001]本专利技术涉及手势识别领域,具体是一种自适应帧采样驱动的手势识别方法。

技术介绍

[0002]在许多场景下,手势是一种基本的交流方式。手势识别是让计算机理解目标手势的含义,它在人机交互方面有非常多的应用场景。基于计算机视觉的动态手势识别,是指通过特定算法对摄像头捕获的视频进行解析,进而对手势进行分类。
[0003]随着深度学习的兴起,越来越多视频分类方面的神经网络被创建出来,但由于视频的帧序列包含太多的冗余信息,这些冗余信息在一定程度上影响了模型对有效特征的关注,导致模型损失了分类的准确率。动态手势识别也存在这样的问题,主要分为两方面:首先,由于捕获视频的设备质量有限和帧率设置过大等原因会导致数据中包含一些重复帧和模糊帧,这些冗余的帧包含极少的有用信息。另一方面,每一帧图像会同时记录人体和人身后的复杂背景,而动态手势识别主要关注运动区域,其它位置的信息通常会对模型的识别精度产生负面影响。

技术实现思路

[0004]本专利技术的目的在于提供一种自适应帧采样驱动的手势识别方法,解决了视频的帧序列包含太多的冗余信息,导致对模型的识别精度产生负面影响的问题。
[0005]本专利技术的目的可以通过以下技术方案实现:
[0006]一种自适应帧采样驱动的手势识别方法,所述手势识别方法包括以下步骤:
[0007]S1:将摄像头捕获的帧序列转化为张量,并使用两个卷积层作为特征提取层提取张量中每一帧图像的特征。
[0008]S2:采用帧间运动注意力算法根据两帧间局部区域模式的相似度追踪S1中每一帧中的运动区域,为运动区域分配更大的关注权重。
[0009]S3:采用自注意力时间下采样算法根据重要性为相邻的多帧的同一区域分配不同的权重,再通过求和将多帧的特征融合为一帧。
[0010]S4:采用自注意力空间下采样算法根据重要性为局部区域的每一点分配不同的权重,再通过求和将局部区域不同点特征融合为一个点。
[0011]S5:将S4得到的冗余信息低的特征输入到已有的手势分类模型中,对手势进行分类。
[0012]进一步的,所述S3中多帧的选取和S4中局部区域的选取,均通过步长为2的滑动窗口进行选取。
[0013]进一步的,所述使用两个卷积层作为特征提取层提取帧序列中每一帧图像的特征的过程如下:
[0014]将帧序列的每一帧图像输入到1
×
1卷积层和3
×
3卷积层中提取空间特征,两层卷积层的参数分别为:
[0015]1×
1卷积层中输入通道数为3,卷积核大小为1
×
1,卷积核个数为64,步长为1,填充为0。3
×
3卷积层中输入通道数为64,卷积核大小为3
×
3,卷积核个数为64,步长为1,填充为1。
[0016]进一步的,所述帧间运动注意力算法计算过程如下:
[0017](1)将卷积层输出按照大小为(2,7,7,64)的窗口划分为同等大小的块,设经过卷积层后得到特征的维度为(D,H,W,64),其中D是帧数,H和W是每一帧图像的高和宽,64是通道数量,则按窗口划分后得到个大小为(2,7,7,64)大小的块。
[0018](2)将每个块再在第一个维度上进一步划分,每个大小为(2,7,7,64)的块被划分为(1,7,7,64)大小的两个小块,那么就得到组由两个小块组成的块。
[0019]将同一组的两个小块分别输入全连接层中提取模式,表达式为:
[0020][0021][0022]其中,Q
i
和K
i
分别是两个线性层处理第i组小块得到的输出,L1表示第一个线性层,L2表示第二个线性层,两个线性层的输入、输出通道数均为64,表示第i组的第1个小块,表示第i组的第2个小块。
[0023]求取两个小块各自的注意力权重并应用,首先计算相似度矩阵,表达式为:
[0024]Attn
i
=Q
i
@T(K
i
)
[0025]其中,Attn
i
表示第i组中两个小块的相似度矩阵,@表示矩阵相乘,T()表示将张量的最后两个维度进行转置。
[0026]接着分别计算两个小块各自的注意力权重,表达式为:
[0027]AF
i
=R(Softmax(max(Attn
i
,

1)))
[0028]AL
i
=R(T(Softmax(max(Attn
i
,

2))))
[0029]其中,AF
i
和AL
i
分别是第i组中第1个和第2个小块的注意力权重,R表示在张量的最后一个维度将数据复制64次,Softmax()表示Softmax函数,max()表示求某一维度的最大值。
[0030](3)将注意力权重应用到输入特征中,表达式为:
[0031]output
i
=RS(concate(AF
i
,AL
i
))
×
input
[0032]其中,output
i
是第i个块应用帧间运动注意力权重的结果,RS()是将各个块按原来相对位置拼接,concate()表示将两组张量在第一个维度上拼接,input是S1中3
×
3卷积层的输出。
[0033]进一步的,所述自注意力时间下采样算法计算过程如下:
[0034](1)将S2输出按照大小为(4,1,1,64),步长为2的滑动窗口划分为同等大小的块。
[0035](2)将每个块重构成(4,64)维度的块,再进行自注意力下采样操作,表达式为:
[0036]y
j
=T(Softmax(S(L3(x
j
)@T(L4(x
j
)))))@L5(x
j
)
[0037]其中,y
j
是第j个块的计算结果,S()是对输入张量的最后一个维度数据求和,L3、L4、L5是三个输入输出通道数均为64的全连接层,x
j
表示第j个块对应的张量;
[0038](3)使用RS()将各个块的计算结果按原来的相对位置拼接。
[0039]进一步的,所述自注意力空间下采样算法计算过程如下:
[0040](1)将S3的输出按照大小为(3,3,3,64),步长为2的滑动窗口划分为同等大小的块。
[0041](2)将每个块的前三个维度合并为一个维度,则块的大小变为(27,64),计算注意力矩阵的表达式为:
[0042]a
k
=Softmax(S(L6(c
k
)@T(L7(c
k
))))...

【技术保护点】

【技术特征摘要】
1.一种自适应帧采样驱动的手势识别方法,其特征在于,所述手势识别方法包括以下步骤:S1:将摄像头捕获的帧序列转化为张量,并使用两个卷积层作为特征提取层提取张量中每一帧图像的特征;S2:采用帧间运动注意力算法根据两帧间局部区域模式的相似度追踪S1中每一帧中的运动区域,为运动区域分配更大的关注权重;S3:采用自注意力时间下采样算法根据重要性为相邻的多帧的同一区域分配不同的权重,再通过求和将多帧的特征融合为一帧;S4:采用自注意力空间下采样算法根据重要性为局部区域的每一点分配不同的权重,再通过求和将局部区域不同点特征融合为一个点;S5:将S4得到的冗余信息低的特征输入到已有的手势分类模型中,对手势进行分类。2.根据权利要求1所述的一种自适应帧采样驱动的手势识别方法,其特征在于,所述S3中多帧的选取和S4中局部区域的选取,均通过步长为2的滑动窗口进行选取。3.根据权利要求1所述的一种自适应帧采样驱动的手势识别方法,其特征在于,所述使用两个卷积层作为特征提取层提取帧序列中每一帧图像的特征的过程如下:将帧序列的每一帧图像输入到1
×
1卷积层和3
×
3卷积层中提取空间特征,两层卷积层的参数分别为:1
×
1卷积层中输入通道数为3,卷积核大小为1
×
1,卷积核个数为64,步长为1,填充为0;3
×
3卷积层中输入通道数为64,卷积核大小为3
×
3,卷积核个数为64,步长为1,填充为1。4.根据权利要求1所述的一种自适应帧采样驱动的手势识别方法,其特征在于,所述帧间运动注意力算法计算过程如下:(1)将卷积层输出按照大小为(2,7,7,64)的窗口划分为同等大小的块,设经过卷积层后得到特征的维度为(D,H,W,64),其中D是帧数,H和W是每一帧图像的高和宽,64是通道数量,则按窗口划分后得到个大小为(2,7,7,64)大小的块;(2)将每个块再在第一个维度上进一步划分,每个大小为(2,7,7,64)的块被划分为(1,7,7,64)大小的两个小块,那么就得到组由两个小块组成的块;将同一组的两个小块分别输入全连接层中提取模式,表达式为:将同一组的两个小块分别输入全连接层中提取模式,表达式为:其中,Q
i
和K
i
分别是两个线性层处理第i组小块得到的输出,L1表示第一个线性层,L2表示第二个线性层,两个线性层的输入、输出通道数均为64,表示第i组的第1个小块,表示第i组的第2个小块;求取两个小块各自的注意力权重并应用,首先计算相似度矩阵,表达式为:Attn
i
=Q
i
@T(K
i
)其中,Attn
i
表示第i组中两个小块的相似度矩阵,@表示矩阵相乘,T()表示将张量的最后两个维度进行转置;
接着分别计算两个小块各自的注意力权重,表达式为:AF
i
=R(Softmax(max(Attn
i


1)))AL
i
=R(T(Softmax(max(Attn
i


...

【专利技术属性】
技术研发人员:张小瑞曾祥龙孙伟宋爱国张小娜
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1