一种基于深度学习的手势图像关键帧提取方法技术

技术编号:21833836 阅读:16 留言:0更新日期:2019-08-10 18:26
本发明专利技术公开了一种基于深度学习的手势图像关键帧提取方法。首先读取输入的手势视频,将输入的手势视频转换为视频帧图像;采用Mobilenet‑SSD目标检测模型对视频帧图像中的手势进行检测,并对检测出的手势进行分割;采用VGG16训练模型训练手势分割图像从而得到对应的抽象特征,并进行空间梯度的计算,根据相邻两帧图片的梯度差,设定合适的阈值进行关键帧的判定。本发明专利技术提出利用Mobilenet‑SSD目标检测模型对手部区域进行检测与分割,去除了背景区域噪声,利用VGG‑16精确提取手部抽象特征,不仅使得图片的表达能力大大增强,而且降低了参数量,减小了模型的复杂度,适用于这种小幅变化的视频关键帧提取。

A Key Frame Extraction Method for Gesture Images Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的手势图像关键帧提取方法
本专利技术属于关键帧提取方法,尤其涉及一种基于深度学习的手势图像关键帧提取方法。
技术介绍
手势视频关键帧提取是动态手势识别过程中的关键步骤,对手势视频进行关键帧提取,降低了数据复杂度,提升了手语识别算法的实时性,保证关键帧的提取效果是实现手语准确识别的重要条件。如何判定手语视频中的动作关键帧始终是一个难点,这主要是因为手势变化幅度比较小,不容易进行关键帧的判定,进行关键帧提取时容易出现关键帧冗余的情况。目前常见的手势分割技术有首尾帧和中间帧法、基于颜色、纹理、形状特征法、基于运动信息法、基于聚类方法等。手势视频关键帧提取的方法多种多样,但是在实际提取过程中,由于手势的变化幅度比较小,常常会出现提取的关键帧较少或者关键帧冗余的情况,关键帧的提取成功与否直接影响到手语识别的精度。当前手势视频关键帧提取的主要挑战如下:1)对手势视频的关键帧选取具有局限性,不能准确表示视频的有效信息;2)在基于运动信息的关键帧提取时,对于运动信息的计算量比较大,无法进行实时计算,而且对于运动量的局部极小值的确定也不精确;3)对手势帧序列进行关键帧判定时,往往会由于背景的变化对运动区域产生影响,从而影响关键帧的判定。
技术实现思路
针对背景区域对视频关键帧判定的影响,原始图像特征表达信息的局限性的问题,本专利技术提出了一种基于深度学习的手势图像关键帧提取方法,是一种针对手语视频这种动作幅度变化较小的视频关键帧提取方法。本专利技术提出利用Mobilenet-SSD目标检测模型实现手部区域的分割,消除背景区域对于运动区域的影响,利用VGG-16卷积神经网络自动提取手部区域的抽象复杂特征,增强图片特征的表达能力,降低模型的复杂度以及参数量,通过计算手部抽象特征的空间梯度信息以及相邻帧图像的梯度差,设置合适的阈值实现了手势关键帧的判定。本专利技术采用的技术方案如下:本专利技术包括以下步骤:1)读取手势视频,然后将手势视频转换为手势视频帧图像;2)通过Mobilenet-SSD目标检测模型训练得到手势检测模型,利用手势检测模型对所有手势视频帧图像中的手势进行检测,并将手势视频帧图像中检测出的目标手势进行分割,从而得到对应的手势分割图像;3)将步骤2)的手势分割图像输入CNN网络模型训练输出后,得到手势分割图像的抽象特征;所述CNN网络模型采用VGG16训练模型,VGG-16训练模型中的block2-pool层作为输出层;4)对手势分割图像的抽象特征进行空间梯度计算,并根据计算得到的空间梯度值绘制梯度直方图。5)根据相邻两帧手势分割图像的梯度值差异,绘制差值折线图,通过差值折线图的波动情况设定相应阈值,根据阈值完成关键帧的判定。所述步骤2)具体为:2.1)随机选取手势视频帧图像中的300张手势图像,并利用Labellmg标注工具对300张手势图像中的手势进行标记,为了确保检测的准确性,对左右手不交叉的手势进行左右手分开标记;2.2)按照3:1的比例将步骤2.1)标记后的手势图像分为训练集和测试集;2.3)将训练集和测试集输入Mobilenet-SSD目标检测模型中,训练得到手势检测模型;2.4)利用步骤2.3)的手势检测模型对所有的手势视频帧图像进行手势检测,得到对目标手势进行标注框标注的视频帧图像,根据视频帧图像中标注框的位置对目标手势进行分割,从而得到视频帧图像的手势分割图像;2.5)将所有手势分割图像保存在文件夹中,对于无交叉手势的视频帧图像,去除左手手势分割图像,右手手势分割图像作为视频帧图像的手势分割图像。所述的步骤3)具体为:3.1)下载Keras下的VGG-16训练模型;3.2)将手势分割图像输入VGG-16训练模型中,手势分割图像的原始特征分别经VGG-16训练模型的输入层、卷积层、池化层训练后输出转化为手势分割图像的抽象特征,选择VGG-16中的block2-pool层作为输出层;所述block2-pool层为VGG-16训练模型的中间层,即为VGG-16训练模型第二个池化层;手势分割图像输入VGG-16训练模型中维度为224×224×3的输入层,经过两层相同的卷积层和一层池化层,再经过两层相同的卷积层和一层池化层,让宽和高越来越小,通道数逐渐增加,最后选择block2-pool层作为输出层来获取手势分割图像的抽象特征。其中,卷积层中卷积filter为3×3,步长为1,filter数为64。抽象特征的维度为56*56*128。所述的步骤4)具体为:4.1)对手势分割图像的抽象特征进行空间梯度计算:利用opencv工具中Sobel算子对抽象特征矩阵进行水平方向和竖直方向的梯度计算,将矩阵中水平方向和竖直方向获得的梯度值进行权重计算,得到手势分割图像所有通道最终的空间梯度值;其中,所述权重计算中的权重设为0.5;4.2)将手势分割图像上所有通道最终的空间梯度值保存在一维数组Ⅰ中,统计不同空间梯度值出现的个数,绘制不同梯度值对应个数的直方图。所述的步骤5)具体为:5.1)将每帧手势分割图像一维数组Ⅰ中数值为0的梯度值删除,将剩余梯度值中相同的梯度值出现的个数以及对应的梯度值所组成的键值对保存在一维数组Ⅱ中,将相邻两帧手势分割图像的一维数组Ⅱ进行差值计算,将得到的差值保存在新建数组中,根据新建数组绘制相应的折线图,观察波动情况;5.2)根据所有折线图的波动情况,设定相应的阈值key,将大于阈值key的折线图所对应的两帧手势分割图像中的后一帧图像判定为关键视频帧图像,即为关键帧。本专利技术的有益效果:1)本专利技术采用Mobilenet-SSD目标检测模型完成目标手势的检测,不仅克服了背景区域的影响,而且降低了计算的复杂度,提高了关键帧判定的精准度,为后续的手势视频关键帧提取奠定了坚实的基础。2)本专利技术采取VGG-16网络模型自动提取图片的抽象复杂特征,不仅使得图片的表达能力大大增强,而且减小了模型的复杂度,降低了参数量。3)本专利技术利用手部区域的抽象特征进行空间梯度的计算,根据相邻图片的梯度差设定合适的阈值来进行关键帧的有效判定,实现手势视频关键帧的准确提取,保证了手势视频关键帧提取的完整性;解决了手势关键帧冗余的问题,且该关键帧提取方法具有较好的鲁棒性。附图说明图1为本专利技术方法的流程图。图2为本专利技术方法所用到的部分数据集;(a)(b)(c)(d)(e)(f)(g)(h)(i)(j)(k)(l)分别为部分手势视频帧图像。图3为本专利技术实施例的SSD网络结构图。图4为本专利技术实施例的手势目标标注结果图;(a)(b)(c)(d)(e)(f)(g)(h)(i)(j)(k)(l)分别为部分手势目标标注后的结果图。图5为本专利技术实施例的分割出的手势结果图;(a)(b)(c)(d)(e)(f)(g)(h)(i)(j)(k)(l)分别为部分手势分割图像。图6为本专利技术实施例的梯度直方图;(a)(b)分别为两个不同的手势分割图像对应的梯度直方图。图7为本专利技术实施例的相邻两帧图像的差值图;(a)(b)分别为两张不同的差值图。图8为本专利技术实施例的提取最终结果图;(a)(b)(c)(d)(e)(f)(g)(h)(i)(j)(k)(l)(m)(n)(o)(p)(q)(r)(s)(t)(u)(v)(w)(x)为实施例中关键帧提取的部分结果本文档来自技高网...

【技术保护点】
1.一种基于深度学习的手势图像关键帧提取方法,其特征在于:包括以下步骤:1)读取手势视频,然后将手势视频转换为手势视频帧图像;2)通过Mobilenet‑SSD目标检测模型训练得到手势检测模型,利用手势检测模型对所有手势视频帧图像中的手势进行检测,并将手势视频帧图像中检测出的目标手势进行分割,从而得到对应的手势分割图像;3)将步骤2)的手势分割图像输入CNN网络模型训练输出后,得到手势分割图像的抽象特征;所述CNN网络模型采用VGG16训练模型,VGG‑16训练模型中的block2‑pool层作为输出层;4)对手势分割图像的抽象特征进行空间梯度计算,并根据计算得到的空间梯度值绘制梯度直方图。5)根据相邻两帧手势分割图像的梯度值差异,绘制差值折线图,通过差值折线图的波动情况设定阈值,根据阈值完成关键帧的判定。

【技术特征摘要】
1.一种基于深度学习的手势图像关键帧提取方法,其特征在于:包括以下步骤:1)读取手势视频,然后将手势视频转换为手势视频帧图像;2)通过Mobilenet-SSD目标检测模型训练得到手势检测模型,利用手势检测模型对所有手势视频帧图像中的手势进行检测,并将手势视频帧图像中检测出的目标手势进行分割,从而得到对应的手势分割图像;3)将步骤2)的手势分割图像输入CNN网络模型训练输出后,得到手势分割图像的抽象特征;所述CNN网络模型采用VGG16训练模型,VGG-16训练模型中的block2-pool层作为输出层;4)对手势分割图像的抽象特征进行空间梯度计算,并根据计算得到的空间梯度值绘制梯度直方图。5)根据相邻两帧手势分割图像的梯度值差异,绘制差值折线图,通过差值折线图的波动情况设定阈值,根据阈值完成关键帧的判定。2.根据权利要求1所述的一种基于深度学习的手势图像关键帧提取方法,其特征在于:所述步骤2)具体为:2.1)随机选取手势视频帧图像中的300张手势图像,并利用Labellmg标注工具对300张手势图像中的手势进行标记,对左右手不交叉的手势进行左右手分开标记;2.2)按照3:1的比例将步骤2.1)标记后的手势图像分为训练集和测试集;2.3)将训练集和测试集输入Mobilenet-SSD目标检测模型中,训练得到手势检测模型;2.4)利用步骤2.3)的手势检测模型对所有的手势视频帧图像进行手势检测,得到用标注框标注目标手势的视频帧图像,根据视频帧图像中标注框的位置对目标手势进行分割,从而得到视频帧图像的手势分割图像;2.5)将所有手势分割图像保存在文件夹中,对于无交叉手势的视频帧图像,去除左手手势分割图像,右手手势分割图...

【专利技术属性】
技术研发人员:田秋红杨慧敏李霖烨包嘉欣
申请(专利权)人:浙江理工大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1