一种远距离手势识别方法及装置制造方法及图纸

技术编号:33777883 阅读:30 留言:0更新日期:2022-06-12 14:31
本发明专利技术公开了一种远距离手势识别方法及装置,所述方法包括:获取目标视频中帧p1的手部位置h1,并基于所述手部位置h1,计算帧p1的手势估计区域;基于目标视频中帧p

【技术实现步骤摘要】
一种远距离手势识别方法及装置


[0001]本专利技术涉及计算机视觉和手势识别领域,具体涉及一种远距离手势识别方法及装置。

技术介绍

[0002]手势识别在人与人之间的交流和人与机器之间的交互中发挥着重要的作用,在手语识别和自然人机交互领域中有着广阔的应用前景。由于手势变化复杂多样,持续时间也具有很大的不确定性,再加上拍摄角度和距离以及光照条件的影响,手势的检测和识别是一项挑战性很大的任务。
[0003]手势的识别需要考虑手部形状、位置的变化,人工设计的特征描述子很难覆盖到手势的细节特征,而深度神经网络具有很好的特征表征能力,在图像和视频视觉任务上显示出其强大的优势。因此,目前主流的手势识别方法是基于深度神经网络学习表达手势复杂的空间形态特征和时序运动特征。卷积神经网络(Convolutional Neural Networks,CNNs)被广泛用于提取图像的空间特征。对于时序运动特征的表示,主要有三种方法:第一种是基于光流(opticalflow)、运动向量,这种方式计算量非常大,而且易受光照和遮挡情况影响,鲁棒性差;第二种是使用循环神经网络(Recurrent Neural Networks,RNNs)提取时序特征,这种方式将卷积神经网络提取到的图像特征输入到循环神经网络中提取运动特征,模型庞大复杂,优化困难,而且往往需要对原始视频进行大幅度的下采样,这样容易丢失关键信息;第三种是基于3D卷积,使用三维卷积核在两个空间维度和一个时间维度上进行卷积,同时提取空间特征和时序特征,这种方式在能够很好的建模和融合时空特征,但是需要设计合适的卷积核和网络结构,在保证识别精度的同时提高预测速度。
[0004]现有的手势识别方法关注的是面对面交流、手势控制驾驶等近距离交互场景,如中国专利技术专利CN108932500A和CN113255602A。在这些场景中,手势发出者距离摄像头很近,因此手部在采集的画面中是显著且容易被识别的,然而在很多场景中,需要远距离的控制与交互。如会议场景中与会者希望通过手势控制会议大屏一体机进行幻灯片的放映,家居观影时通过手势调节播放进度、声音等。在远距离情况下,手势发生的区域在摄像机视野中的占比很小,手势细节不足,同时背景也会带来更多的干扰,手势识别具有更大的难度。

技术实现思路

[0005]本专利技术的目的是针对上述现有技术中手势识别精度低、速度慢以及无法识别远距离手势的问题,提供一种远距离手势识别方法及装置,能够提取更鲁棒的视频特征,并且能够捕捉远距离手势,进行精准识别。
[0006]本专利技术为实现上述目的,采用如下技术方案:
[0007]一种远距离手势识别方法,其步骤包括:
[0008]获取目标视频中帧p1的手部位置h1,并基于所述手部位置h1,计算帧p1的手势估计区域 q1;
[0009]获取目标视频中帧p
i
的手部位置h
i
,并当所述手部位置h
i
落在帧p
i
‑1的手势估计区域q
j
之内时,将所述手势估计区域q
j
作为所述帧p
i
的手势估计区域,否则基于所述手部位置h
i
,计算帧p
i
的手势估计区域q
j+1

[0010]基于手势估计区域q
j
切分所述目标视频,得到若干视频流s
t

[0011]对各所述视频流s
t
进行手势识别,得到所述目标视频的手势识别结果。
[0012]进一步地,所述获取目标视频中帧p1的手部位置h1,包括:
[0013]在手部位置训练集上对YOLO V4 Tiny检测模型进行监督训练,得到手部检测器;
[0014]将所述帧p1的图像输入所述手部检测器,得到所述手部位置h1。
[0015]进一步地,所述基于所述手部位置h1,计算帧p1的手势估计区域q1,包括:以所述手部位置h1为中心,分别向外扩展r
w
倍手部宽度及r
h
倍手部高度的矩形区域。
[0016]进一步地,所述基于手势估计区域q
j
切分所述目标视频,得到视频流s
t
,包括:
[0017]在各帧p
i
中获取若干关键帧;
[0018]使用同一手势估计区域q
j
中的关键帧,构建视频流s
t

[0019]进一步地,所述在各帧p
i
中获取关键帧,包括:
[0020]针对具有同一手势估计区域q
j
的帧p
i
与帧p
i
‑1,分别将所述手势估计区域q
j
转化为灰度图像F
cur
和灰度图像F
pre

[0021]计算所述灰度图像F
cur
与灰度图像F
pre
的帧差图;
[0022]基于设定的像素值阈值,将所述帧差图转变为二值图;
[0023]基于所述二值图,在所述手势估计区域q
j
中统计大于像素值阈值的像素数;
[0024]计算所述像素数占所述手势估计区域q
j
的像素总数的比例,并依据所述比例,判断所述帧p
i
是否为关键帧。
[0025]进一步地,所述对各所述视频流s
t
进行手势识别,得到所述目标视频的手势识别结果,包括:
[0026]利用滑动窗口,获取所述视频流s
t
的若干窗口;
[0027]将窗口视频流输入基于3D ResNeXt

101卷积神经网络的多模态手势识别模型,用于预测该窗口的手势类别,其中所述手势识别模型的每个ResNeXt残差模块后都对来自不同模态视频流的特征图进行加权融合;
[0028]当连续n个窗口的手势类别都被预测为手势类别L
c
时,将该手势类别L
c
作为所述视频流s
t
中的一个预测结果;
[0029]统计所述视频流s
t
中的预测结果,得到所述目标视频的手势识别结果。
[0030]进一步地,所述不同模态视频流包括:RGB视频流和深度视频流。
[0031]进一步地,当连续m个窗口的手势类别被预测为非手势类别L
c
时,判断所述手势类别L
c
已结束。
[0032]一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一所述方法。
[0033]一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一所述方法。
[0034]本专利技术与现有技术相比的有益效果在于:...

【技术保护点】

【技术特征摘要】
1.一种远距离手势识别方法,其步骤包括:获取目标视频中帧p1的手部位置h1,并基于所述手部位置h1,计算帧p1的手势估计区域q1;获取目标视频中帧p
i
的手部位置h
i
,并当所述手部位置h
i
落在帧p
i
‑1的手势估计区域q
j
之内时,将所述手势估计区域q
j
作为所述帧p
i
的手势估计区域,否则基于所述手部位置h
i
,计算帧p
i
的手势估计区域q
j+1
;基于手势估计区域q
j
切分所述目标视频,得到若干视频流s
t
;对各所述视频流s
t
进行手势识别,得到所述目标视频的手势识别结果。2.如权利要求1所述的方法,其特征在于,所述获取目标视频中帧p1的手部位置h1,包括:在手部位置训练集上对YOLO V4 Tiny检测模型进行监督训练,得到手部检测器;将所述帧p1的图像输入所述手部检测器,得到所述手部位置h1。3.如权利要求1所述的方法,其特征在于,所述基于所述手部位置h1,计算帧p1的手势估计区域q1,包括:以所述手部位置h1为中心,分别向外扩展r
w
倍手部宽度及r
h
倍手部高度的矩形区域。4.如权利要求1所述的方法,其特征在于,所述基于手势估计区域q
j
切分所述目标视频,得到视频流s
t
,包括:在各帧p
i
中获取若干关键帧;使用同一手势估计区域q
j
中的关键帧,构建视频流s
t
。5.如权利要求4所述的方法,其特征在于,所述在各帧p
i
中获取关键帧,包括:针对具有同一手势估计区域q
j
的帧p
i
与帧p
i
‑1,分别将所述手势估计区...

【专利技术属性】
技术研发人员:刘丹张立波武延军
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1