System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于知识蒸馏的动静态手势识别方法技术_技高网

一种基于知识蒸馏的动静态手势识别方法技术

技术编号:40528345 阅读:6 留言:0更新日期:2024-03-01 13:48
本发明专利技术提供一种基于知识蒸馏的动静态手势识别方法,涉及图像识别技术领域,该方法通过对动态手势进行关键帧提取、通过三维卷积网络和二维卷积网络分别对动态手势和静态手势特征进行提取,最后,通过以教师网络和学生网络组成的知识蒸馏学习框架进行蒸馏学习。本发明专利技术利用关键帧的提取,能够有效克服关键帧间的距离大、关键信息严重不足、提取精度差等问题,从而提升识别的准确性与稳定性;利用分别对动态手势与静态手势的特征提取,确保动、静态手势的相同维度,避免出现不匹配、提取精度差以及计算量庞大等问题;通过教师网络与学生网络知识蒸馏学习框架的构建,实现轻量级的同时、完成训练模型的指导与校正,实现不断优化。

【技术实现步骤摘要】

本专利技术涉及图像识别,具体涉及一种基于知识蒸馏的动静态手势识别方法


技术介绍

1、手势识别技术一直是人工智能领域的重要研究方向,其旨在从图像或视频中提取人的手部特征来理解人的身体运动或“手势”,然后将每个样本进行归类或标记为特定的标签。随着人工智能和深度学习的发展,手势识别技术在智能家居、汽车交互、虚拟现实等领域有着广泛的应用前景。

2、现有的手势识别方法主要分为动态手势识别和静态手势识别。其中,动态手势识别的方法主要有基于手工提取特征的方法和基于深度学习神经网络的方法:基于手工特征提取的动态手势识别方法包括利用hog描述符、lbp描述符等描述子对动态手势进行逐帧特征提取,再对提取到的手势特征序列进行直接对比或二次处理、得到表征动作时空信息的特征,最后利用分类器对特征进行分类输出;然而,上述方法均受动态手势的背景影响大,且需要人为提取手势图像特征、耗时长;基于深度学习神经网络的动态手势识别方法包括循环神经网络(recurrent neural network,rnn)、长短期记忆递归神经网络(long short-term memory,lstm)及三维卷积神经网络(3dcnns)等,其中,循环神经网络和长短期记忆递归神经网络通过将动态手势处理为序列数据,同时对动态手势的时空特征进行编码,从而学习动态手势长短期的时空关系,三维卷积神经网络通过在二维卷积核的基础上引入时间维度,从而可以同时提取动态手势的空间特征和时间特征。与基于手工提取特征的方法相比,基于深度学习神经网络的方法能够直接从动态手势数据中学习手势特征,避免了人工提取特征的过程,然而,现有的深度学习神经网络结构过于复杂、识别的实时性低,且网络参数量庞大、需要占用较多内存以及较大计算量的设备,严重制约深度学习神经网络在手势识别中的应用。同时,由于动态手势数据采取视频方式进行保存,手势采集时没有开始与结束标志,导致动态手势视频数据存在部分冗余帧和静止帧,且同一个手势动作的多段数据包含的特征信息有所不同,因而手势采集数据更为庞大,易出现采集的特征信息不完全、手势识别不准确、误差大等问题。

3、静态手势识别的方法也主要有基于手工提取特征的方法和基于深度学习神经网络的方法:基于手工提取特征静态手势识别方法包括sift(scale-invariant featuretransform)和surf(speeded up robust features)等,这些方法均是针对某一系列特定的静态手势而设计,不一定适用于其它的手势系统、适用性差,且手工特征选取的过程非常依赖领域内专家自身的经验,人为影响因素高、不确定性大,局限性较高;基于深度学习神经网络的静态手势识别方法不受特定手势和经验的影响,能够提取到更深层的信息。但与动态手势识别方法一致,随着网络不断加深,基于深度学习神经网络的静态手势识别方法的参数量愈加庞大,加之特征的感受野明显不足,会丢失一些层级的手势特征,致使网络不同层级的特征信息无法被复用。

4、综上所述,现有基于深度学习神经网络用于动态手势识别与静态手势识别均存在计算量庞大、耗时长、易丢失采集的数据特征、手势识别误差大、受环境影响因素大、稳定性差等问题。


技术实现思路

1、针对以上现有技术存在的问题,本专利技术的目的在于提供一种基于知识蒸馏的动静态手势识别方法,该方法通过对动态手势进行关键帧提取、关键帧引用注意力机制进行动态手势预处理,利用三维卷积网络和二维卷积网络分别对动态手势和静态手势特征进行提取,然后经过lstm与注意力机制学习全局时空,并通过联合教师网络和学生网络使用蒸馏学习生成轻量化网络对动静态手势进行训练与识别,从而有效解决上述现有技术中应用基于深度学习神经网络对动态手势与静态手势识别存在的问题。

2、本专利技术的目的通过以下技术方案实现:

3、一种基于知识蒸馏的动静态手势识别方法,包括:

4、步骤a、动态手势关键帧提取:首先利用原始动态手势生成光流视频,并将原始动态手势与其生成的光流视频的每一帧图像作为一个小块,分别计算每段视频图像的注意力分数;然后,将获得的注意力分数进行相加操作,并分别对比每段图像中的注意力分数,将注意力分数较小所对应的动态手势图像去除、保留余下动态手势,获得动态手势关键帧、并将其作为输入;

5、步骤b、动态手势与静态手势特征提取:针对动态手势与静态手势不同特点,分别采用三维卷积网络与二维卷积网络对动态手势与静态手势进行特征提取;

6、步骤c、动态手势与静态手势训练识别:采用特征提取模型mglstm作为教师网络、采用轻量化模型mobilenet作为学生网络,通过知识蒸馏学习框架分别对步骤b中的动态手势特征与静态手势特征进行蒸馏学习,利用不断优化的教师网络目标函数实现更多动态手势特征与静态手势特征的学习、并对学生网络目标函数指导优化。

7、基于上述方案的进一步优化,所述步骤a具体为:

8、步骤a1、首先,获取每个动态手势的原始数据li(i=1,2,…,n)、并将其生成对应的光流视频ii,然后将原始数据li与光流视频ii转换为连续帧图像;

9、步骤a2、对步骤a1中原始数据li与光流视频ii转换后的连续帧图像进行划分、将其每帧划分为k个patch;

10、步骤a3、对动态手势的原始数据li与光流视频ii中每一个patch,采用卷积层生成特征向量的方式提取每帧图像的抽象特征:

11、f(patchi)=conv(patchi);

12、式中:f(patchi)表示特征向量;patchi表示原始数据li或光流视频ii中第i个patch;conv(patchi)表示对第i个patch进行卷积;

13、步骤a4、将步骤a3中生成的特征向量应用到全连接层,获取每个patch的查询值与键值:

14、qi=fcq(f(patchi));

15、ki=fck(f(patchi));

16、式中:qi表示查询值;ki表示键值;fcq表示获得的每个patch查询值的全连接层;fck表示获得的每个patch键值的全连接层;

17、步骤a5、分别通过查询值与键值计算原始数据li或光流视频ii每个patch的注意力得分,具体为:

18、

19、式中:表示原始数据li的注意力得分;表示光流视频ii的注意力得分;表示动态手势原始数据中第i个patch的查询值;表示动态手势原始数据中第i个patch的键值;表示动态手势光流视频中第i个patch的查询值;表示动态手势光流视频中第i个patch的键值;

20、步骤a6、分别对每帧动态手势原始数据li与光流视频ii的k个patch进行注意力得分的计算,然后分别对每帧动态手势原始数据li的注意力得分、光流视频ii的注意力得分进行求和与求均值;之后,将每帧动态手势原始数据li与其对应的光流视频li的注意力得分进行相加、获得该帧对应的最终注意力分数si;将最终注意力本文档来自技高网...

【技术保护点】

1.一种基于知识蒸馏的动静态手势识别方法,其特征在于:包括:

2.根据权利要求1所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:所述步骤A具体为:

3.根据权利要求1或2所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:所述步骤A2中,若连续帧中一个帧的尺寸为H·W·C,将该帧划分为sqrt(m)·sqrt(m)个patch,每个patch的尺寸为:

4.根据权利要求1或2所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:所述步骤B具体为:

5.根据权利要求4所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:所述步骤B4中BiLSTM结构由两组LSTM层组成:一组用于前向处理,一组用于后向处理;其中,LSTM结构包括遗忘门、输入门和输出门;

6.根据权利要求1或5所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:所述步骤C具体为:为了兼顾大模型的计算量和小模型的轻量实时特点,将特征提取模型MGLSTM作为教师网络,用轻量化模型Mobilenet作为学生网络;

【技术特征摘要】

1.一种基于知识蒸馏的动静态手势识别方法,其特征在于:包括:

2.根据权利要求1所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:所述步骤a具体为:

3.根据权利要求1或2所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:所述步骤a2中,若连续帧中一个帧的尺寸为h·w·c,将该帧划分为sqrt(m)·sqrt(m)个patch,每个patch的尺寸为:

4.根据权利要求1或2所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:...

【专利技术属性】
技术研发人员:朱智勤徐国峰周中奎周锋帅林宏曹龙汉李银国
申请(专利权)人:重庆利龙中宝智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1