一种基于深度学习的动态手势识别方法及相关设备技术

技术编号:36850890 阅读:11 留言:0更新日期:2023-03-15 17:15
本申请公开一种基于深度学习的动态手势识别方法及相关设备,属于行为动作识别技术领域。本申请通过实时获取视频流,通过手部检测模型从视频流中提取手势图像序列,将手势图像序列输入预先训练好的手势识别模型,输出手势识别结果,其中,手势识别模型包括卷积单元、预测单元和整合单元,通过卷积单元对手势图像序列进行通道分离卷积运算,得到图像卷积序列特征,通过预测单元预测手势图像序列中每一帧图像的前后相邻图像的手势特征,得到帧间手势动作特征,通过整合单元对帧间手势动作特征进行整合,输出手势识别结果。本申请提供了一套完整的动态手势触发采集、检查和识别的解决方案。案。案。

【技术实现步骤摘要】
一种基于深度学习的动态手势识别方法及相关设备


[0001]本申请属于行为动作识别
,具体涉及一种基于深度学习的动态手势识别方法及相关设备。

技术介绍

[0002]手势作为一种日常沟通方式,与表情、动作和其他沟通方式相比具有直观、自然和舒适的优点,因此,手势也是除语言外最常用的交流手段,是人机交互的重要组成。手势识别技术在物联网、无人机、智能驾驶、医疗救助、虚拟现实和增强现实等领域均有广泛应用,极具价值。在自动驾驶和无人机中,智能控制系统采集手势信息并对其进行分析,根据结果发出指令,实现对车辆或无人机的导航和交互控制;在虚拟现实和增强现实中,微软的Ho l oLens已经实现了通过双手在虚拟环境中为用户提供娱乐;而在医疗救助中,手势识别可以为听障人群提供帮助,实现聋哑人与聋哑人或聋哑人与正常人之间的交流。
[0003]手势根据状态可以分为动态手势和静态手势,而根据识别对象又可以分为二维平面手型手势和三维立体手势,通过对两种手势类型的重组,可以获得手势识别的三种主要分类:二维静态手型识别、二维动态手势识别和三维动态手势识别,其中,三维动态手势因具有较好的信息表达能力而成为近年来该领域的研究热点,而二维动态手势识别因数据规模较小且采集便利,成为众多实际应用场景的首选。
[0004]目前,针对于动态手势识别,基于深度学习的手势识别方法要么聚焦于提升识别准确率,例如文章“Cont i nuous gesture segmentat i on and recogn it i on us i ng 3DCNN and convo l ut i ona l LSTM”中通过组合resnet34+LSTM+mob i l enet网络的方式,将手势识别的准确率提升到95%左右(jester数据集上),但这种组合式网络导致模型规模巨大,建模难度很大,网络参数超过6000万;另一类是C3D和mobi l enet为代表的单一网络和轻量化网络,这些网络的参数仅仅只有上述组合网络的一半(C3D)甚至十分之一(mobi l net2V),但这些轻量化网络导致的结果是准确率基本都在80%左右,与上述组合式网络相差甚远。另一方面,目前的手势识别方案主要关手势注识别过程,对于手势的开始阶段和结束阶段关注较少,导致模型运算量较大,影响识别效率。

技术实现思路

[0005]本申请实施例的目的在于提出一种基于深度学习的动态手势识别方法、装置、计算机设备及存储介质,以解决现有手势识别方案中存在的模型规模大、建模难度大、识别准确率低以及模型运算量较大,影响识别效率的技术问题。
[0006]为了解决上述技术问题,本申请实施例提供一种基于深度学习的动态手势识别方法,采用了如下所述的技术方案:
[0007]一种基于深度学习的动态手势识别方法,包括:
[0008]响应手势识别指令,实时获取客户端上传的视频流;
[0009]将视频流导入预先训练好的手部检测模型,通过手部检测模型从视频流中提取手
势图像序列;
[0010]将手势图像序列以张量的形式输入预先训练好的手势识别模型,输出手势识别结果,其中,手势识别模型包括卷积单元、预测单元和整合单元,卷积单元基于通道分离卷积的C3D网络训练得到,预测单元基于Bi

LSTM网络训练得到,整合单元基于mobi l enetV2网络训练得到;
[0011]通过卷积单元对手势图像序列进行通道分离卷积运算,得到图像卷积序列特征;
[0012]通过预测单元预测手势图像序列中每一帧图像的前后相邻图像的手势特征,得到帧间手势动作特征;
[0013]通过整合单元对帧间手势动作特征进行整合,输出手势识别结果。
[0014]进一步地,其中,预先训练好的手部检测模型基于yo l ov5网络进行训练得到,将视频流导入预先训练好的手部检测模型,通过手部检测模型从视频流中提取手势图像序列,具体包括:
[0015]解析视频流,获取视频流中的关键帧图像;
[0016]将关键帧图像导入预先训练好的手部检测模型,以识别关键帧图像中的手部特征图像;
[0017]组合手部特征图像以构建手势图像序列。
[0018]进一步地,组合手部特征图像以构建手势图像序列,具体包括:
[0019]识别关键帧图像的手部特征图像,并手部特征图像存储到内存中;
[0020]当识别到的手部特征图像的数量满足预设的第一数值阈值N1时,清空当前存储的手部特征图像,其中,第一数值阈值N1为正整数;
[0021]持续识别剩余的手部特征图像,直至关键帧图像中所有的手部特征图像识别完成为止;
[0022]组合当前内存中的手部特征图像以构建手势图像序列。
[0023]进一步地,组合当前内存中的手部特征图像以构建手势图像序列,具体包括:
[0024]计算当前内存中的手部特征图像的数量,得到手部图像数量;
[0025]分别将手部图像数量与预设的第二数值阈值N2以及预设的第三数值阈值N3进行比对,其中,第二数值阈值N2和第三数值阈值N3均为正整数;
[0026]当手部图像数量等于第二数值阈值N2时,组合当前内存中的图像以构建手势图像序列;
[0027]当手部图像数量小于第二数值阈值N2时,向内存中添加预设的空白图像,直到当前内存中的图像数量等于第二数值阈值N2为止,组合当前内存中的图像以构建手势图像序列;
[0028]当手部图像数量大于第二数值阈值N2且手部图像数量小于或等于第三数值阈值N3时,采用预设的第一筛选规则对当前内存中的图像进行筛选,并组合筛选后的图像以构建手势图像序列;
[0029]当手部图像数量大于第三数值阈值N3时,采用预设的第二筛选规则对当前内存中的图像进行筛选,并组合筛选后的图像以构建手势图像序列。
[0030]进一步地,第一数值阈值N1、第二数值阈值N2和第三数值阈值N3之间的关系为:N3=2N2,N1=3N2。
[0031]进一步地,采用预设的第一筛选规则对当前内存中的图像进行筛选,并组合筛选后的图像以构建手势图像序列,具体包括:
[0032]获取第一筛选规则对应的筛选频率,得到第一筛选频率;
[0033]以第一筛选频率对当前内存中的图像进行筛选,得到第一筛选图像,并统计第一筛选图像的数量;
[0034]比对第一筛选图像的数量与第二数值阈值N2;
[0035]当第一筛选图像的数量等于第二数值阈值N2时,组合当前内存中的图像以构建手势图像序列;
[0036]当第一筛选图像的数量小于第二数值阈值N2时,向内存中添加空白图像,直到当前内存中的图像数量等于第二数值阈值N2为止,组合当前内存中的图像以构建手势图像序列。
[0037]进一步地,采用预设的第二筛选规则对当前内存中的图像进行筛选,并组合筛选后的图像以构建手势图像序列,具体包括:
[0038]获取第二筛选规则对应的筛选频率,得到第二筛选频率;...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的动态手势识别方法,其特征在于,包括:响应手势识别指令,实时获取客户端上传的视频流;将所述视频流导入预先训练好的手部检测模型,通过所述手部检测模型从所述视频流中提取手势图像序列;将所述手势图像序列以张量的形式输入预先训练好的手势识别模型,输出手势识别结果,其中,所述手势识别模型包括卷积单元、预测单元和整合单元,所述卷积单元基于通道分离卷积的C3D网络训练得到,所述预测单元基于Bi

LSTM网络训练得到,所述整合单元基于mobilenetV2网络训练得到;通过所述卷积单元对所述手势图像序列进行通道分离卷积运算,得到图像卷积序列特征;通过所述预测单元预测所述手势图像序列中每一帧图像的前后相邻图像的手势特征,得到帧间手势动作特征;通过所述整合单元对所述帧间手势动作特征进行整合,输出所述手势识别结果。2.如权利要求1所述的基于深度学习的动态手势识别方法,其特征在于,其中,预先训练好的所述手部检测模型基于yolov5网络进行训练得到,所述将所述视频流导入预先训练好的手部检测模型,通过所述手部检测模型从所述视频流中提取手势图像序列,具体包括:解析所述视频流,获取所述视频流中的关键帧图像;将所述关键帧图像导入预先训练好的所述手部检测模型,以识别所述关键帧图像中的手部特征图像;组合所述手部特征图像以构建所述手势图像序列。3.如权利要求2所述的基于深度学习的动态手势识别方法,其特征在于,所述组合所述手部特征图像以构建所述手势图像序列,具体包括:识别所述关键帧图像的手部特征图像,并所述手部特征图像存储到内存中;当识别到的所述手部特征图像的数量满足预设的第一数值阈值N1时,清空当前存储的所述手部特征图像,其中,所述第一数值阈值N1为正整数;持续识别剩余的手部特征图像,直至所述关键帧图像中所有的手部特征图像识别完成为止;组合当前内存中的手部特征图像以构建所述手势图像序列。4.如权利要求3所述的基于深度学习的动态手势识别方法,其特征在于,组合当前内存中的手部特征图像以构建所述手势图像序列,具体包括:计算当前内存中的手部特征图像的数量,得到手部图像数量;分别将所述手部图像数量与预设的第二数值阈值N2以及预设的第三数值阈值N3进行比对,其中,所述第二数值阈值N2和所述第三数值阈值N3均为正整数;当所述手部图像数量等于所述第二数值阈值N2时,组合当前内存中的图像以构建所述手势图像序列;当所述手部图像数量小于所述第二数值阈值N2时,向内存中添加预设的空白图像,直到当前内存中的图像数量等于所述第二数值阈值N2为止,组合当前内存中的图像以构建所述手势图像序列;当所述手部图像数量大于所述第二数值阈值N2且所述手部图像数量小于或等于所述
第三数值阈值N3时,采用预设的第一筛选规则对当前内存中的图像进行筛选,并组合筛选后的图像以构建所述手势图像序列;当所述手部图像数量大于所述第三数值阈值N3时,采用预设的第二筛选规则对当前内存中的图像进行筛选,并组合筛选后的图像以构建所述手势图像序列。5.如...

【专利技术属性】
技术研发人员:王瑞平吴士泓吴勇涛王志刚
申请(专利权)人:远光软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1