一种基于卷积神经网络的实时在线动态手势识别方法技术

技术编号:34524085 阅读:28 留言:0更新日期:2022-08-13 21:14
一种基于卷积神经网络的实时在线动态手势识别方法,其特征在于,对于连续的视频序列,使用长度为的滑动窗口截取固定长度的图片帧,每一时刻滑动窗口相对于视频流移动步,然后将滑动窗口截取的若干图片帧输入到已离线训练好的卷积神经网络中,输出该时刻对手势识别的类别分数,最后,后处理模块对类别分数向量进行处理,得到最终的识别结果。本发明专利技术的实时动态手势识别方法在自制的舰载无人机转运手势数据集上取得了86.91%的Levenshtein精度,识别速度达到每秒70帧。别速度达到每秒70帧。别速度达到每秒70帧。

【技术实现步骤摘要】
一种基于卷积神经网络的实时在线动态手势识别方法


[0001]本专利技术涉及一种模式识别
,尤其是一种动态手势识别方法,具体地说是一种基于卷积神经网络的实时在线动态手势识别方法。

技术介绍

[0002]目前,随着计算机视觉的兴起,基于计算机视觉的手势识别技术快速发展。与基于可穿戴设备的手势识别技术相比,基于视觉的手势识别使用摄像头采集序列图像中包含的信息完成对手势的识别,这使得用户无需穿戴任何复杂的传感设备,人机交互的方式变得更加自然。基于视觉的手势识别技术主要分为两类:传统的手势识别方法,基于卷积神经网络的手势识别方法。
[0003]图1为传统的手势识别方法流程图,由摄像机采集图像,通过图像处理技术分割出图像中手势的区域,然后进行手势跟踪,以确定手势的运动轨迹,再由特征提取算法对手势的空间和运动特征进行提取,最后将提取到的特征通过分类器或者统计概率模型进行手势的分类。传统的手势识别方法主要包含手势分割、手势跟踪、特征提取、手势分类四个环节,各环节所使用的方法都是基于传统的图像处理或者统计学的方法,例如通过肤色分割或者手部轮廓来分割手势,以统计学为基础的卡尔曼滤波算法对手势进行跟踪,提取方向梯度直方图(HOG)、尺度不变特征变换(SIFT)等人工设计的特征来表征手势,通过支持向量机(SVM)或隐马尔可夫模型(HMM)对手势分类。可以看出传统的手势识别技术流程复杂,包含了分割、跟踪、特征提取、分类识别多个步骤,涉及到了多个领域的研究内容,并且其中一个环节的好坏直接影响到后续算法的效果,进而影响到整个识别系统。另外,特征提取环节所用的算法都是基于人工设计的特征,各种特征所适用的场合不同,无法应对实际应用时复杂多变的环境,并且识别手势的类别局限于二维手型和手势。整体来看,传统的手势识别技术的鲁棒性差,无法满足实际应用中手势识别准确性的要求。
[0004]随着深度学习的发展,卷积神经网络被扩展到了动作识别、视频理解领域,基于卷积神经网络的手势识别方法诞生。Du Tran等人利用3D卷积提取视频序列的时空特征,建立了C3D动作识别模型,在动作数据集上取得了远超人工设计特征方式的识别精度。Simonyan等人提出了经典的双流网络模型,一个通道从RGB图像中提取空间特征,另一个通道采用光流输入,以提取运动特征,最后进行分数级别的数据融合得到最终的识别结果。为了捕获视频长期的时域信息,L.Wang等人在双流网络的基础上,优化采样策略,对整个视频进行稀疏采样,提出了TSN模型。也有人利用LSTM等循环卷积网络捕获长期的时域特征,J.Y.Ng等人先用卷积神经网络提取空间特征,然后经过LSTM来关联时域维度的信息。虽然卷积神经网络可以提取视频序列的时空特征,很好地表征动态手势,但网络参数量大,计算成本高,难以满足实时性的需求,无法应用于实际。为了减少参数量,提高手势识别的速度,Ji Lin等人采用2D卷积,交叉前后帧通道的信息来弥补2D卷积无法捕获时域特征的缺点,在保证精度的前提下,减少了模型的计算成本。B.Jiang等人认为时空信息和运动信息是识别动作的关键,于是基于2D卷积构建了逐通道时空模块、逐通道运动模块,有效地表征动作。TEA、
ACTION

Ne与此类似,均提出相应的时域特征提取模块,既有效地减少了参数量,而且充分利用了空间和时域维度的信息。
[0005]目前,基于卷积神经网络的动态手势模型虽然在保证精确度的前提下,加快了识别的速度,但是在应用于实时在线的动态手势识别上依然存在问题。在离线情况下,输入的数据是预分割好的手势片段,手势起始的位置显而易见,所以利用卷积神经网络就可以完成单个独立手势识别的任务。而在实时在线情况下,输入是连续的视频流,包含多个手势序列,并且各个手势之间的间隔有长有短,手势起始的位置并不是很容易确定,而这种不确定性,可能会造成手势错检、漏检。另外,由于只能获取视频流当前和过去的信息,当手势开始时,手势识别器(卷积神经网络模型)判定为某一手势的置信度会较低,而随着手势被继续执行,手势识别器判定为该手势的置信度会随之升高,直至手势执行完毕。在这一过程中,虽然手势仅被执行了一次,手势识别器仍会重复多次输出相同的结果,而这种现象在实时在线识别中,会造成一个手势被执行还是多个相同手势被执行的误解,所以还应要求一个手势仅被响应一次,即单次响应性。mochanov等人采用CTC作为误差函数对神经网络进行训练,应用于在线的车内手势识别,满足识别准确性和实时性的需求,但是无法做到单次响应。Okan等人采用手势检测器和识别器两个模型,前者检测是否有手势执行,后者在前者检测到手势时开通并进行手势的识别,虽然可以作为在线手势识别的一种方案,但是对检测器的要求较高,检测器的好坏直接影响识别器的性能,整个系统的鲁棒性不强,而且检测器的加入无疑增加了算法的计算成本,影响算法的相应速度。因此,在实时在线情况下,如何较好地实现手势起始位置的检测和单次响应,是目前亟待解决的问题,对基于卷积神经网络的动态手势识别技术应用于实际具有重要意义。

技术实现思路

[0006]本专利技术的目的是针对于实时在线情况下,基于卷积神经网络的动态手势识别方法无法检测手势的起始位置和单次响应输出的问题,专利技术一种基于卷积神经网络的实时在线动态手势识别方法,该方法可以有效解决手势的起始位置和单次响应输出的问题,并且满足精确性和实时性的要求。
[0007]本专利技术的技术方案是:
[0008]一种基于卷积神经网络的实时在线动态手势识别方法,其大体流程如图2,对于连续的视频序列,使用长度为size的滑动窗口截取固定长度的图片帧,每一时刻滑动窗口相对于视频流移动stride步,然后将滑动窗口截取的若干图片帧输入到已离线训练好的卷积神经网络中,输出该时刻对手势识别的类别分数,最后,后处理模块对类别分数向量进行处理,得到最终的识别结果。其特征在于它包括以下步骤:
[0009](1)利用长度为size的滑动窗口在连续的视频序列上截取固定长度的图片帧,每一时刻该滑动窗口移动stride步,获得原始的图片序列Imgs;
[0010](2)对原始的图片序列Imgs进行数据预处理,以获得满足卷积神经网络输入特征的数据Imgs
*

[0011](3)将Imgs
*
输入到已离线训练好的基于卷积神经网络的动态手势识别模型中,得到类别分数向量F
i

[0012](4)手势起始位置检测:输入类别分数向量F
i
,若判定为手势开始,则输出当前最
有可能的手势类别C和相应的手势分数P;若判定手势结束,跳过步骤(5),直接进行一次循环;
[0013](5)单次响应:输入步骤(4)得到的手势类别C和相应的手势分数P,若满足输出条件,则输出手势识别最终的结果res,进行下次循环;
[0014]所述步骤(4)手势起始位置检测采用的具体方法如下:
[0015]1.初始化长度为l缓冲队列和阈值th
s

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经网络的实时在线动态手势识别方法,其特征在于,对于连续的视频序列,使用长度为size的滑动窗口截取固定长度的图片帧,每一时刻滑动窗口相对于视频流移动stride步,然后将滑动窗口截取的若干图片帧输入到已离线训练好的卷积神经网络中,输出该时刻对手势识别的类别分数,最后,后处理模块对类别分数向量进行处理,得到最终的识别结果。2.根据权利要求1所述的方法,其特征在于它包括以下步骤:(1)利用长度为size的滑动窗口在连续的视频序列上截取固定长度的图片帧,每一时刻该滑动窗口移动stride步,获得原始的图片序列Imgs;(2)对原始的图片序列Imgs进行数据预处理,以获得满足卷积神经网络输入特征的数据Imgs
*
;(3)将Imgs
*
输入到已离线训练好的基于卷积神经网络的动态手势识别模型中,得到类别分数向量F
i
;(4)手势起始位置检测:输入类别分数向量F
i
,若判定为手势开始,则输出当前最有可能的手势类别C和相应的手势分数P;若判定手势结束,跳过步骤(5),直接进行一次循环;(5)单次响应:输入步骤(4)得到的手势类别C和相应的手势分数P,若满足输出条件,则输出手势识别最终的结果res,进行下次循环。3.根据权利要求2所述的方法,其特征在于,所述步骤(4)手势起始位置检测采用以下方法:1)初始化长度为l缓冲队列和阈值th
s
;2)当队列未满时,将该时刻卷积神经网络输出的类别分数向量加入到缓冲队列队尾中;若队列添加满,则对缓冲队列中的类别分数向量在第一维度求平均值,得到类别分数平均向量F
r
;3)由步骤2)中的类别分数平均向量F
r
求得最大类别分数P,及其相对应的手势类别C;4)如果P大于或等于th
s
,代表手势开始,输出手势类别C和相应的手势分数P;否则,代表手势结束;5)当阈值判决完成后,清空缓冲队列,进行下一步循环。若卷积神经网络在i(t<i≤t+l)时刻输出的类别分数向量为F
i
∈R1×
N
,则在t+l时刻的类别分数...

【专利技术属性】
技术研发人员:赵康黎向锋李高扬尹志浩金玉超吴同一梁铖余浩东左敦稳
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1