当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于EfficientNet的手势识别方法及装置制造方法及图纸

技术编号:34997252 阅读:20 留言:0更新日期:2022-09-21 14:45
本公开提出一种基于EfficientNet的手势识别方法及装置,属于人机交互领域。所述方法包括:获取待识别动态手势的图像序列,对所述图像序列中的每张图像进行预处理;将预处理完毕的所述图像序列输入预设的手势识别网络,所述网络输出所述图像序列对应每类手势的概率,将所述概率的最大值对应的手势分类作为最终的手势分类结果;其中,所述手势识别网络包含EfficientNet。本公开实现了较高的动态手势识别准确率,非常适合应用于车内人机交互的场景。景。景。

【技术实现步骤摘要】
一种基于EfficientNet的手势识别方法及装置


[0001]本公开属于人机交互领域,具体涉及一种基于EfficientNet的手势识别方法及装置。

技术介绍

[0002]随着信息社会的高速发展以及对于人工智能研究的深入,人们对于人机交互的需求与日俱增,其应用场景也从生活家居扩展到了汽车系统。手势识别是其中一个研究热点。目前大多数手势识别技术是基于摄像头采集数据,但摄像头受光线影响大,对高像素图像处理的算力要求高,且涉及到隐私问题,若应用于车内人机交互系统则存在着诸多不便。同时,现有的手势识别采用的单一的卷积神经网络善于提取特征,识别静态手势拥有很大的优势,但是在处理序列化数据时存在局限,不利于动态手势的识别。

技术实现思路

[0003]本公开的目的是为克服已有技术的不足之处,提出一种基于EfficientNet的手势识别方法及装置。本公开应用简便,易于推广,实现了动态手势识别的高准确率。
[0004]本公开第一方面实施例提出一种基于EfficientNet的手势识别方法,包括:
[0005]获取待识别动态手势的图像序列,对所述图像序列中的每张图像进行预处理;
[0006]将预处理完毕的所述图像序列输入预设的手势识别网络,所述网络输出所述图像序列对应每类手势的概率,将所述概率的最大值对应的手势分类作为最终的手势分类结果;其中,所述手势识别网络包含EfficientNet。
[0007]在本公开的一个具体实施例中,所述图像序列通过摄像头或毫米波雷达采集获取。
[0008]在本公开的一个具体实施例中,所述预处理包括对所述图像序列中每张图像的像素进行归一化。
[0009]在本公开的一个具体实施例中,所述手势识别网络还包括:卷积注意力模块和长短期记忆网络;所述卷积注意力模块和长短期记忆网络依次插入所述EfficientNet的第八层和第九层之间。
[0010]在本公开的一个具体实施例中,所述EfficientNet采用EfficientNet

B0网络。
[0011]在本公开的一个具体实施例中,在所述将预处理完毕的所述图像序列输入预设的手势识别网络之前,还包括:
[0012]训练所述手势识别网络;
[0013]所述训练所述手势识别网络,包括:
[0014]获取动态手势的图像样本,所述样本为包含完整动态手势的图像序列;
[0015]对所述图像样本的每张图像分别归一化,利用归一化后的所述图像样本构建训练集;
[0016]构建所述手势识别网络;
[0017]利用所述训练集训练所述手势识别网络,以得到训练完毕的手势识别网络。
[0018]在本公开的一个具体实施例中,所述方法还包括:
[0019]在所述利用所述训练集训练所述手势识别网络之前,获取所述手势识别网络中所述EfficientNet第一层至第八层的权重;训练所述手势识别网络时,将所述权重固定不变。
[0020]本公开第二方面实施例提出一种基于EfficientNet的手势识别装置,包括:
[0021]图像序列采集模块,用于获取待识别动态手势的图像序列,对所述序列中的每张图像进行预处理;
[0022]手势识别模块,用于将预处理完毕的所述图像序列输入预设的手势识别网络,所述网络输出所述图像序列对应对应每类手势的概率,将所述概率的最大值对应的手势分类作为最终的手势分类结果;其中,所述手势识别网络包含EfficientNet。
[0023]本公开第三方面实施例提出一种电子设备,包括:
[0024]至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
[0025]其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种基于EfficientNet的手势识别方法。
[0026]本公开第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述一种基于EfficientNet的手势识别方法。
[0027]本公开的技术特点及有益效果:
[0028]1、本公开基于EfficientNet的手势识别网络特征提取能力强,且易于缩放,可用复合缩放的方式对网络参数进行综合调整,对于更复杂的输入,网络模型进行相应的缩放调整较为方便。基于此特点,车载手势识别可定义更多的手势。
[0029]2、本公开通过EfficientNet结合长短期记忆网络,将EfficientNet的优异特征提取能力和长短期记忆网络学习数据的长期依赖的能力相结合,提高了对序列化数据的处理能力,对于动态手势数据识别效率高。
[0030]3、本公开将EfficientNet结合卷积注意力模块,有助于网络内的信息流动,关注重要特征并抑制不必要的特征,使网络专注于更有用的特征,提高了分类准确率。通过基于预训练权重的迁移学习方法,提高了模型训练效率。
[0031]4、本公开应用简便,易于推广,可有效识别动态手势,非常适合应用于车内人机交互的场景。
附图说明
[0032]图1为本公开实施例的一种基于EfficientNet的手势识别方法的整体流程图;
[0033]图2为本公开一个具体实施例中EfficientNet

B0网络的结构图;
[0034]图3为本公开一个具体实施例中手势分类结果的混淆矩阵示意图。
具体实施方式
[0035]本公开提出一种基于EfficientNet的手势识别方法及装置,为使本公开的目的、技术方案和特点更加清楚明确,下面结合附图和具体实施例对本公开进行详细说明与描述。显然,所述的具体实施例是本公开的一部分实施例,而不是全部的实施例。
[0036]本公开第一方面实施例提出的一种基于EfficientNet的手势识别方法,包括:
[0037]获取待识别动态手势的图像序列,对所述序列中的每张图像进行预处理;
[0038]将预处理完毕的所述图像序列输入预设的手势识别网络,所述网络输出输出所述图像序列对应对应每类手势的概率,将所述概率的最大值对应的手势分类作为最终的手势分类结果;其中,所述手势识别网络包含EfficientNet。
[0039]本公开的一个具体实施例中,所述方法整体流程如图1所示,包括以下步骤:
[0040]1)获取动态手势的图像样本以构建训练集。具体步骤如下:
[0041]1‑
1)获取动态手势的图像样本,每个样本为包含构成完整动态手势的图像序列,可通过摄像头或毫米波雷达采集获取。根据EfficientNet网络结构要求,样本中每一帧图像应为二维图像,尺寸应为偶数。训练集大小无特殊要求。
[0042]在本公开的一个具体实施例中,通过毫米波雷达采集动态手势的图像样本,其中每一帧雷达图像为一张二维图像,大小为64
×
64。本实施例中要求手势需在1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于EfficientNet的手势识别方法,其特征在于,包括:获取待识别动态手势的图像序列,对所述图像序列中的每张图像进行预处理;将预处理完毕的所述图像序列输入预设的手势识别网络,所述网络输出所述图像序列对应每类手势的概率,将所述概率的最大值对应的手势分类作为最终的手势分类结果;其中,所述手势识别网络包含EfficientNet。2.根据权利要求1所述的方法,其特征在于,所述图像序列通过摄像头或毫米波雷达采集获取。3.根据权利要求1所述的方法,其特征在于,所述预处理包括对所述图像序列中每张图像的像素进行归一化。4.根据权利要求1所述的方法,其特征在于,所述手势识别网络还包括:卷积注意力模块和长短期记忆网络;所述卷积注意力模块和长短期记忆网络依次插入所述EfficientNet的第八层和第九层之间。5.根据权利要求1所述的方法,其特征在于,所述EfficientNet采用EfficientNet

B0网络。6.根据权利要求4所述的方法,其特征在于,在所述将预处理完毕的所述图像序列输入预设的手势识别网络之前,还包括:训练所述手势识别网络;所述训练所述手势识别网络,包括:获取动态手势的图像样本,所述样本为包含完整动态手势的图像序列;对所述图像样本的每张图像分别归一化,利用归一化后的所述图...

【专利技术属性】
技术研发人员:张雷潘昱锦
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1