一种动态手势识别模型的搭建方法及动态手势识别方法技术

技术编号:36270930 阅读:75 留言:0更新日期:2023-01-07 10:12
本发明专利技术提供了一种动态手势识别模型的搭建方法及动态手势识别方法,模型的搭建方法包括以下步骤:获取动态手势视频的数据集,对获取的数据集进行预处理,首先把视频处理为一帧一帧的图像,并且把每帧图像裁剪为固定大小,然后对数据集进行标注并划分数据集;基于ConvNeXt网络结构,构建TS3C

【技术实现步骤摘要】
一种动态手势识别模型的搭建方法及动态手势识别方法


[0001]本专利技术属于计算机视觉中的手势识别
,尤其涉及一种动态手势识别模型的搭建方法及动态手势识别方法。

技术介绍

[0002]手势识别在人机交互、手语识别、虚拟现实(VR)、增强现实(AR)等领域有着重要作用。例如,在驾驶过程中通过手势与汽车的次要功能(如音乐和空调)进行交互,比触摸屏更安全,因为触摸屏交互会吸引驾驶员的视线。虽然视觉外观信息对手势识别很重要,但更重要的是时间序列的关联性。近几年,卷积神经网络(Convolutional Neural Network, CNN)在静态图像分类方面取得巨大的进步,人们很自然的想把这种进步拓展到视频方面。最初,CNN被用来对视频的单个帧进行基于图像的手势识别,然而,这种方式未考虑图像序列之间的时间和运动信息的关联性,无法区分某些动作,比如举起手和放下手。通常通过3DCNN来解决此问题, 3DCNN可以同时提取连续帧中的时间和空间信息。Tran等人基于VGG网络提出卷积3D网络(C3D),对网络结构以及卷积核尺寸进行了研究,结果表明3...

【技术保护点】

【技术特征摘要】
1.一种动态手势识别模型的搭建方法,其特征在于,包括以下步骤:步骤1,获取动态手势视频的数据集,所述数据集针对不同的应用场景拍摄或下载获取;步骤2,对步骤1中获取的数据集进行预处理;首先把视频处理为一帧一帧的图像,并且把每帧图像裁剪为固定大小,然后对数据集进行标注,标注的信息包括动作从开始到结束分别是第几帧以及动作所属的分类,最后对标注完成的数据集划分训练集、验证集和测试集;步骤3,基于ConvNeXt网络结构,把ConvNeXt res层以及下采样层中所有的2D卷积核替换为3D卷积核,得到3D

ConvNeXt,其次在3D

ConvNeXt的基础上每个卷积块中加入一条小感受野的分支卷积,构建为TS3C

Net网络模型;将步骤2中预处理后的训练集和验证集输入到所述TS3C

Net网络模型中,首先对TS3C

Net网络模型进行参数初始化,对输入的分解为图像的视频流进行下采样,获取T帧作为网络输入,将输入的T帧图像分辨率调整到224
×
224,然后用角部裁剪和尺度抖动进行数据增强,模型输入的最终图像大小为N
×
T
×3×
224
×
224,其中N是批次大小,T是片段的数量;对TS3C

Net网络模型进行训练;用指数移动平均法EMA来减少网络过拟合,并且把EMA模型作为最终的测试模型;步骤4,使用测试集对步骤3中训练完成的TS3C

Net网络模型进行测试,选取EMA模型中验证准确率最高模型作为最终模型。2.如权利要求1所述的一种动态手势识别模型的搭建方法,其特征在于:所述步骤3中TS3C

Net网络模型的具体结构为:所述TS3C

Net基于ConvNeXt网络进行改进,包括stem层、res层、下采样层以及head层;所述stem层由大小为3
×4×
4步长为1
×4×
4的卷积核以及一个层归一化组成,所述stem层用于减少输入的空间维度固有的冗余,减轻网络计算量,stem的输出作为res层的输入;所述res层包括res2、res3、res4、res5四层,分别有3、3、9、3个卷积块,每个卷积块由3
×3×
3卷积核、3
×7×
7卷积核、MLP层、层归一化以及GELU激活函数组成,所述卷积块可由如下公式表示:y = x + MLP(GELU(MLP(LN(conv3(x)+conv7(x)))))其中x指卷积块的输入,y指卷积块的输出;conv3和conv7分别指3
×3×
3卷积运算、3
×7×
7卷积运算;LN指层归一化;MLP指多层感知机;GELU指GELU激活函数;所述下采样层共四层,分别位于res2、res3、re...

【专利技术属性】
技术研发人员:付民郝思达刘雪峰孙梦楠郑冰
申请(专利权)人:中国海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1