一种低分辨率的实时手势识别方法技术

技术编号:36859336 阅读:15 留言:0更新日期:2023-03-15 18:17
本发明专利技术公开了一种低分辨率的实时手势识别方法,添加特征融合模块对高分辨率教师模型和低分辨率教师模型进行特征融合,使高分辨教师模型的颈部网络内的特征层尺度与低分辨率教师模型的颈部网络内的特征层尺度匹配,本发明专利技术为面向于移动端、嵌入式设备的一种低分辨率的实时手势识别方法。通过将两个模型特征图对齐的方式,解决高分辨率模型和低分辨率模型之间的特征图不匹配的问题,训练一个高精度的多分辨率模型,以高精度的多分辨率模型作为教师模型,低分辨率模型作为学生模型,结合知识蒸馏的方法,使用教师模型对学生模型进行特征指导,实现学生模型与教师模型的性能一致,并结合轻量级主干网络,对模型进一步的加速。对模型进一步的加速。对模型进一步的加速。

【技术实现步骤摘要】
一种低分辨率的实时手势识别方法


[0001]本专利技术涉及计算机人机交互
,尤其涉及一种低分辨率的实时手势识别方法。

技术介绍

[0002]手势识别技术作为人机交互的重要组成部分,在手语翻译、体感游戏等领域有着广阔的应用前景。随着人机交互技术的快速发展,人们对于沉浸交互式的体验需求也越发的变大,手势识别技术作为交互式技术中最重要的技术。尤其目前所处的大背景下,虚拟现实目前作为一种非常有前途的技术,可以应用于教育和娱乐。结合手势检测技术,手部2D/3D骨骼关键点识别,可以进一步获得人与虚拟现实世界的关系,增强交互体验。
[0003]在实际的落地产品中,为了更好的开阔市场,手势检测技术往往需要部署在计算资源有限的嵌入式设备中到达实时、精准的效果。
[0004]因此在实际运用过程会对手势识别的推理速度要求高,而且手部在实际拍摄过程中往往是一种小目标对象,因此也要求的小目标对象检测精度有一定的要求。为了提高检测的精度,使用输入高分辨率图形对模型预测的准确度会有很大的提高,但是这种方法需要巨大的运算量,更不用说要在嵌入式设备中实现实时的效果。降低输入模型的分辨率也可以大大提高模型的推理速度并嵌入式中实现实时的效果,但是降低输入模型的分辨率会导致模型的性能会出现大幅度的下降,尤其手势检测的检测对象手,在实际的摄像机拍照的图像中相对于行人是一种小目标对象,对于低分辨率输入的模型的检测效果将会下降。

技术实现思路

[0005]现有的压缩模型的方法,如剪枝、量化、知识蒸馏等对于模型推理速度的优化都有明显的提升效果,本专利技术使用知识蒸馏的方式提升低分辨率模型的性能,本专利技术将高分辨率模型作为教师模型,低分辨率模型作为学生模型,通过知识蒸馏的方式,提高低学生模型的性能达到与教师模型的性能一致,这种方法可使手势识别模型既实现推理速度快,又能使模型的性能和精度达到高分辨率模型的性能和精度,并能很好的检测出作为小目标对象的手。
[0006]但是高分辨率模型对低分辨率模型进行知识蒸馏,由于输入的分辨率不同,模型的颈部网络会存在特征层尺度不匹配的问题,一般方法对高分辨率模型的输出特征层进行降采样,但是这会破坏高分辨模型预测的特征,因此不能很好的反映学生模型所学的东西,因此本专利技术进一步通过多尺度融合模块,使高分辨教师模型的颈部网络内的特征层尺度与低分辨率教师模型的颈部网络内的特征层尺度匹配。对于知识蒸馏的方法,学生模型的性能能达到多好得到效果,与教师模型有直接关系,因此配合本专利技术设定的训练策略,可以训练并获得一个高精度的多分辨率教师模型,该模型含有高分辨率的特征信息,并用于对低分率学生模型进行知识蒸馏,提高低分率学生模型的性能。
[0007]基于上述的问题,本专利技术主要面向于移动端、嵌入式设备的一种低分辨率的实时
手势识别方法。通过将两个模型特征图对齐的方式,解决高分辨率模型和低分辨率模型之间的特征图不匹配的问题,训练一个高精度的多分辨率模型,以高精度的多分辨率模型作为教师模型,低分辨率模型作为学生模型,结合知识蒸馏的方法,使用教师模型对学生模型进行特征指导,实现学生模型与教师模型的性能一致,并结合轻量级主干网络,对模型进一步的加速。
[0008]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术公开了一种低分辨率的实时手势识别方法,所述识别方法包括如下步骤:步骤1,采用的MobileNetV3_Large作为轻量级骨干模型实时提取待识别的手势特征,使用多组深度可分离卷积组成,加速推理速度的同时提取准确的特征;步骤2,通过知识蒸馏方法使高分辨率模型作为教师模型能指导作为学生模型的低分率模型,通过预设的策略使得教师模型将知识传输给学生模型,其中,所述的高分辨率模型和低分率模型具体为采用两种基本分辨率和,其中其中k为任意偶数值;步骤3,添加特征融合模块ABF对高分辨率教师模型和低分辨率教师模型进行特征融合, 使高分辨教师模型的颈部网络内的特征层尺度与低分辨率教师模型的颈部网络内的特征层尺度匹配,以此加速实时手势识别的速度。
[0009]在本专利技术的一个实施例中,根据下采样[2,4,8,16,32]的倍数获得5个Stage特征模块,使用SPPF模块,通过不同池化核大小的最大池化进行特征提取,扩大网络的感受野,通过一个卷积层Conv作为输入,再通过三个5x5的最大池化层(MaxPool2D)并与输入进行拼接(Concat)。
[0010]在本专利技术的一个实施例中,所述颈部网络采用FPN与PAN组合,在主干网络中获得3个有效特征层并被用于继续提取特征,使用PAN模块可以对特征进行上采样实现特征融合还可以对特征再次进行下采样,还会对特征再次进行下采样实现特征融合,使模型获取更加丰富的特征信息。检测网络由四个检测层组成,检测层(Head)输出一个向量,该向量具有目标对象的类别概率、对象得分和对象边界框的位置。
[0011]在本专利技术的一个实施例中,颈部网络输出的特征图经过检测网络进行对象的分类和边界框的回归,对于输入图像的分辨率为(H,W)的训练损失定义如下:其中为分类损失,为物体置信度损失,为预测框与标定框的误差损失。
[0012]在本专利技术的一个实施例中,所述通过预设的策略使得教师模型将知识传输给学生模型进一步包括:在颈部网络结构中,第n+1阶段的特征层大小比第n阶段的特征层大m倍,并且高分辨率模型比低分辨率大模型的分辨率大m倍,其高分辨率模型的第n阶段的特征层大小与低分辨模型的第n

1阶段的特征层大小一致,由于相差一个阶段的特征图提供了两个输入分辨率之间的特征尺度是一致的,使得高分辨率模型与低分辨率大模型的特征层尺寸匹配。
[0013]在本专利技术的一个实施例中,选择640x640作为高分辨率模型,320x320作为低分辨率模型,轻量级神经网络由于进行了2、4、8、16、32倍数的5次下采样,高分辨率模型
(640x640)将获得(320x320)、(160x160)、(80x80)、(40x40)、(20x20)5个特征层,通过颈部网络可获得特征层。低分辨率模型(320x320)将获得(320x320)、(160x160)、(80x80)、(40x40)、(20x20)5个特征层,通过颈部网络可获得特征层其中与特征层共享相同的空间尺度,与特征层共享相同的空间尺度,两组特征图再进行知识蒸馏的损失计算,通过对齐高分辨率模型的特征层与低分辨率模型的特征层的方式,其对齐方式的训练损失如下:在本专利技术的一个实施例中,所述特征融合模块ABF输入为两个大小一致的特征图和,对两个特征图进行拼接(Concat),通过一个1x1卷积核的卷积层(Conv1),提取综合空间注意力特征图,通过Sigmoid归一化计算加权分数,通过切分(Split)获得两条分支的权重值与和分别乘以其对应得权重并相加,最后通过一个3x3卷积核的卷积层(Conv2),将获得一个新的特征图,获新的特征图将输入到检测层进行处理。
[0014]在本专利技术的一个实施例中,新特征图的损失公式如下:其中,为损失函数的权本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种低分辨率的实时手势识别方法,其特征在于,所述识别方法包括如下步骤:步骤1,采用的MobileNetV3_Large作为轻量级骨干模型实时提取待识别的手势特征,使用多组深度可分离卷积组成,加速推理速度的同时提取准确的特征;步骤2,通过知识蒸馏方法使高分辨率模型作为教师模型能指导作为学生模型的低分率模型,通过预设的策略使得教师模型将知识传输给学生模型,其中,所述的高分辨率模型和低分率模型具体为采用两种基本分辨率,其中,其中k为任意偶数值;步骤3,添加特征融合模块ABF对高分辨率教师模型和低分辨率教师模型进行特征融合, 使高分辨教师模型的颈部网络内的特征层尺度与低分辨率教师模型的颈部网络内的特征层尺度匹配,以此加速实时手势识别的速度。2.如权利要求1所述的一种低分辨率的实时手势识别方法,其特征在于,根据下采样[2,4,8,16,32]的倍数获得5个Stage特征模块,使用SPPF模块,通过不同池化核大小的最大池化进行特征提取,扩大网络的感受野,通过一个卷积层Conv作为输入,再通过三个5x5的最大池化层(MaxPool2D)并与输入进行拼接(Concat)。3.如权利要求2所述的一种低分辨率的实时手势识别方法,其特征在于,所述颈部网络采用FPN与PAN组合,在主干网络中获得3个有效特征层并被用于继续提取特征,使用PAN模块可以对特征进行上采样实现特征融合还可以对特征再次进行下采样,还会对特征再次进行下采样实现特征融合,使模型获取更加丰富的特征信息,检测网络由四个检测层组成,检测层(Head)输出一个向量,该向量具有目标对象的类别概率、对象得分和对象边界框的位置。4.如权利要求3所述的一种低分辨率的实时手势识别方法,其特征在于,颈部网络输出的特征图经过检测网络进行对象的分类和边界框的回归,对于输入图像的分辨率为(H,W)的训练损失定义如下: 其中为分类损失,为物体置信度损失,为预测框与标定框的误差损失。5.如权利要求4所述的一种低分辨率的实时手势识别方法,其特征在于,所述通过预设的策略使得教师模型将知识传输给学生模型进一步包括:在颈部网络结构中,第n+1阶段的特征层大小比第n阶段的特征层大m倍,并且高分辨率模型比低分辨率大模型的分辨率大m倍,其高分辨率模型的第n阶段的特征层大小与低分辨模型的第n

1阶段的特征层大小一致,由于相差一个阶段的特征图提供了两个输入分辨率之间的特征尺度是...

【专利技术属性】
技术研发人员:李观喜张磊苏鹏
申请(专利权)人:广州紫为云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1