基于Attention和SqueezeNet的多任务实时手势检测和识别方法技术

技术编号:26924410 阅读:73 留言:0更新日期:2021-01-01 22:49
本发明专利技术公开了一种基于Attention和SqueezeNet的多任务实时手势检测和识别方法。所述方法采用数据增强技术扩增数据集以达到较好的识别效果,并通过人工标注制作新的手势数据集;将Attention融合到全卷积网络BlitzNet的ResSkip残差结构和分割分支中,使模型更关注目标手势,降低背景的干扰,识别效果更好,并用SqueezeNet网络中的前15层代替BlitzNet的ResNet‑50作为手势特征提取器,设计出新的手势检测和识别模型。新模型将多个视觉任务(如手势识别和手势分割)联合训练,并通过两个不同的子网络分别进行手势识别与手势分割,使得通过单一网络就可以同时解决手势识别和分割两个问题,检测速度较快且准确率较高。本发明专利技术的模型是一种参数少、准确率高、检测速度快等综合性能突出的手势检测和识别模型。

【技术实现步骤摘要】
基于Attention和SqueezeNet的多任务实时手势检测和识别方法
本专利技术涉及深度学习TensorFlow框架
和手势识别领域,具体涉及一种基于Attention(注意力机制)和SqueezeNet(卷积神经网络模型)的多任务实时手势检测和识别方法。
技术介绍
手势是人类之间交流和沟通必不可少的一部分,可以让我们的观点更好地被其他人理解。随着科技的进步,手势识别逐渐在各行各业发挥重要作用,例如临床医学、人机交互、安全驾驶和手语认知,在这些行业中,手势识别的准确性和实时性显得尤为重要。手势识别的一般流程分为图像采集、手势检测与分割、手势识别,其中手势检测与分割是关键的技术,手势分割的效果直接影响后续的手势识别。BlitzNet(目标检测模型)利用单一的网络同时解决检测和分割两个任务,且检测效果较好,速度也可以达到实时,不足之处就是模型参数较多。其它的模型也是多多少少存在一些不足,目前还缺乏一种模型参数少、准确率高、检测速度快等综合性能突出的手势检测和识别模型。
技术实现思路
基于上述背景,本专利技术提供一种基于Attention和SqueezeNet的多任务实时手势检测和识别方法。在模型训练时,Attention可以模仿人类的注意力机制,对目标有更多“关注”,快速找出有用的信息,赋予更高的权重,在残差网络中加入Attention可以让模型的性能得到提升;而SqueezeNet则是一种轻量级的网络模型,具有识别精度高且模型参数少的优势。本专利技术通过将手势数据集应用到目标检测模型BlitzNet当中,并将Attention和SqueezeNet融合到模型中,设计一种新的手势检测和识别模型,进一步提高手势检测和识别的准确率和检测速度,获得一种模型参数少、准确率高、检测速度快等综合性能突出的手势检测和识别模型。具体内容为:首先采用数据增强技术扩增数据集以达到较好的识别效果,并通过人工标注制作新的手势数据集;然后将Attention融合到全卷积网络BlitzNet的ResSkip残差结构和分割分支中,使模型更关注目标手势,降低背景的干扰,识别效果更好,并用SqueezeNet网络中的前15层代替BlitzNet的ResNet-50作为手势特征提取器,设计出新的手势检测和识别模型。新模型将多个视觉任务(如手势识别和手势分割)联合训练,并通过两个不同的子网络分别进行手势识别与手势分割,使得通过单一网络就可以同时解决手势识别和分割两个问题,检测速度较快且准确率较高。最后,添加摄像头监控设备,实时检测或识别视频中出现的手势类型,将手势检测和识别模型在OxfordHandDataSet和NUS-I+NUS-II手势数据集上进行训练和验证,从而评估模型的准确率和检测速度。为了获得较好的检测效果,本专利技术将数据集进行了数据增强,利用卷积神经网络从NUS-I+NUS-II数据集中提取手势纹理特征,将纹理特征与其它图像相叠加产生新的手势图像,共得到14950张图片作为数据集。为了提高手势识别的准确率和检测速度,设计的手势检测和识别模型具体如下,首先设计Attention,在Attention中将Channelattention与Spatialattention并联起来,将两者生成的通道注意力特征图和空间注意力特征图做矩阵乘法,得到共同关注手势和位置信息的注意力特征图作为Attention的输出。接着将BlitzNet中所有ResSkip块内最后一层卷积层替换为Attention,ResSkip中第二层卷积层的输出作为Attention的输入,Attention的输出与上采样输入的求和又作为下一个上采样的输入。然后在BlitzNet分割分支的最后一层添加Channelattention和Maxpool,使用Channelattention生成对应的通道注意力特征图,使用最大池化操作提高手势边缘关键点特征的显著程度,Maxpool层的输出作为最终的手势分割图。最后把BlitzNet网络提取特征的ResNet-50删去,用SqueezeNet网络中的前15层代替作为手势特征提取器,SqueezeNet网络中的前15层包括一个Conv(卷积层)和7个FireModule(SqueezeNet模型的核心构件)以及2个Maxpool(最大池化),把最后一个FireModule的输出作为第一个下采样层的输入,将整个网络模型连接起来。新模型中ResSkip内的Attention在整个ResSkip残差结构中被视为恒等映射的一部分,在提高模型性能的基础上不会给模型带来内部特征消减,而在分割分支中加入Channelattention,会让分割任务更容易关注目标手势。用SqueezeNet代替ResNet-50,可以使模型在保证识别精度的情况下大大减少模型参数,检测速度更容易达到实时,改进后的新模型会有更高的准确率,检测速度也会提高。为了实现实时手势检测和识别功能,本专利技术添加了摄像头实时监控设备,利用训练好的模型在监控视频中直接进行手势检测或识别,并将检测或识别结果实时显示在视频中。附图说明图1为本专利技术的整体流程图;图2为本专利技术的模型训练原理图。具体实施方式基于Attention和SqueezeNet的多任务实时手势检测和识别方法的网络模型结构设计如下:(1)保留BlitzNet网络中下采样和上采样层以及检测和分割部分,将ResNet-50结构删去。(2)设计Attention,将Channelattention与Spatialattention并联起来,将两者生成的通道注意力特征图和空间注意力特征图做矩阵乘法,得到共同关注手势和位置信息的注意力特征图作为Attention的输出。(3)将网络中所有ResSkip块内最后一层卷积替换为Attention,ResSkip中第二层卷积的输出作为Attention的输入,Attention的输出与上采样输入的求和又作为下一个上采样的输入。(4)在网络的分割分支后添加Channelattention和Maxpool,将分割分支的卷积层输出作为Channelattention的输入,再经过Maxpool后的输出作为最终手势分割图。(5)将SqueezeNet网络中的前15层(1个conv、7个FireModule、2个Maxpool)作为网络开始部分的手势特征提取器,把最后一个FireModule的输出作为第一个下采样的输入,将整个手势检测和识别网络连接起来。参照图1,基于Attention和SqueezeNet的多任务实时手势检测和识别方法的整体实施流程如下:(1)手势数据扩增:选择公共手势数据集OxfordHandDataSet和NUS-I、NUS-II,将NUS-I、NUS-II进行数据扩增,利用卷积神经网络从NUS-I+NUS-II数据集中提取手势纹理特征,将纹理特征与其它手势图片相叠加产生新的手势图片.(2)数据集标注:利用LabelI本文档来自技高网...

【技术保护点】
1.基于Attention和SqueezeNet的多任务实时手势检测和识别方法,所述方法包括:/n(1)保留BlitzNet网络中下采样和上采样层以及检测和分割部分,将ResNet-50结构删去;/n(2)设计Attention,将Channel attention与Spatial attention并联起来,将两者生成的通道注意力特征图和空间注意力特征图做矩阵乘法,得到共同关注手势和位置信息的注意力特征图;/n(3)将BlitzNet中所有ResSkip块内最后一层卷积替换为Attention,ResSkip中第二层卷积的输出作为Attention的输入,而Attention的输出与上采样输入的求和又作为下一个上采样的输入;/n(4)在BlitzNet的分割分支后面添加Channel attention和Maxpool,将分割分支的卷积层输出作为Channel attention的输入,再经过Maxpool后的输出作为最终手势分割图;/n(5)将SqueezeNet网络中的前15层包括1个Conv、7个Fire Module、2个Maxpool作为网络开始部分的手势特征提取器,把最后一个Fire Module的输出作为第一个下采样层的输入,将整个手势检测和识别网络连接起来;/n其中:Attention表示注意力机制;SqueezeNet表示卷积神经网络模型;BlitzNet表示目标检测模型;Channel attention表示通道注意力;Spatial attention表示空间注意力;ResSkip表示BlitzNet的模型构件;Conv表示卷积层;Maxpool表示最大池化;Fire Module表示SqueezeNet模型的核心构件,由一系列卷积层和激活函数组成。/n...

【技术特征摘要】
1.基于Attention和SqueezeNet的多任务实时手势检测和识别方法,所述方法包括:
(1)保留BlitzNet网络中下采样和上采样层以及检测和分割部分,将ResNet-50结构删去;
(2)设计Attention,将Channelattention与Spatialattention并联起来,将两者生成的通道注意力特征图和空间注意力特征图做矩阵乘法,得到共同关注手势和位置信息的注意力特征图;
(3)将BlitzNet中所有ResSkip块内最后一层卷积替换为Attention,ResSkip中第二层卷积的输出作为Attention的输入,而Attention的输出与上采样输入的求和又作为下一个上采样的输入;
(4)在BlitzNet的分割分支后面添加Channelattention和Maxpool,将分割分支...

【专利技术属性】
技术研发人员:强保华翟艺杰王玉峰彭博李宝莲陈锐东庞远超
申请(专利权)人:桂林电子科技大学中国电子科技集团公司第五十四研究所
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1