基于深度学习的视频手势识别方法、装置及电子设备制造方法及图纸

技术编号:37723034 阅读:11 留言:0更新日期:2023-06-02 00:24
本申请公开了一种基于深度学习的视频手势识别方法、装置及电子设备,该方法应用于信息安全领域,该方法包括:从目标对象预录制的手势视频中,确定第一图像帧集合和目标图像帧;从目标视频中确定第二图像帧集合和第三图像帧集合;对第二图像帧集合中的图像帧以及目标图像帧进行处理;依据处理后的第二图像帧集合和处理后的目标图像帧,确定第四图像帧集合;获取第三图像帧集合中的图像帧和第一图像帧集合中的图像帧输入循环神经网络经过计算得到第二相似度集合;依据第四图像帧集合和第一相似度集合,确定对目标视频的手势识别结果。通过本申请,解决了相关技术中从视频中识别手势时,因背景干扰而导致手势识别结果的准确性较低的问题。确性较低的问题。确性较低的问题。

【技术实现步骤摘要】
基于深度学习的视频手势识别方法、装置及电子设备


[0001]本申请涉及视频识别
,具体而言,涉及一种基于深度学习的视频手势识别方法、装置及电子设备。

技术介绍

[0002]目前,在识别视频中的手势识别时,常常将视频分解为若干张图像帧,然后对每一张图像帧进行处理和分析,但由于视频中除了需要进行对比的手势之外,还包含不同的背景,复杂的背景导致识别视频手势无法得到一个准确的识别结果。
[0003]现有技术的一种处理方法是使用openCV函数计算待识别视频的每张图像帧与原视频的每张图像帧之间的多个相似度,加权计算后得到识别结果,除此之外,还有一种方法是通过神经网络对待识别视频的每张图像帧分别和原视频的预设手势图像帧进行计算,再对多个相似度进行加权计算得到识别结果。但上述方法均没有考虑到两次拍摄视频时,手势的背景很难完全相同,所以在计算图像帧之间的相似度时会因为背景带来的干扰而出现较大误差。
[0004]针对相关技术中从视频中识别手势时,因背景干扰而导致手势识别结果的准确性较低的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请的主要目的在于提供一种基于深度学习的视频手势识别方法、装置及电子设备,以解决相关技术中从视频中识别手势时,因背景干扰而导致手势识别结果的准确性较低的问题。
[0006]为了实现上述目的,根据本申请的一个方面,提供了一种基于深度学习的视频手势识别方法,该方法包括:从目标对象预录制的手势视频中,确定第一图像帧集合和目标图像帧,其中,第一图像帧集合中的每帧图像是均有手势的图像,目标图像帧是目标对象确定的代表手势的图像帧;获取目标视频,并从目标视频中确定第二图像帧集合和第三图像帧集合,其中,第二图像帧集合中的图像帧与目标图像帧的相似度高于第三图像帧集合中的图像帧与目标图像帧的相似度,其中,目标视频是待进行手势识别的视频;对第二图像帧集合中的图像帧以及目标图像帧进行处理,得到处理后的第二图像帧集合和处理后的目标图像帧;依据处理后的第二图像帧集合和处理后的目标图像帧,确定第四图像帧集合;将第三图像帧集合中的图像帧和第一图像帧集合中的图像帧输入循环神经网络进行相似度比较,输出第三图像帧集合中的图像帧和第一图像帧集合中的图像帧的相似度,得到第一相似度集合;依据第四图像帧集合和第一相似度集合,确定对目标视频的手势识别结果。
[0007]进一步地,从目标对象预录制的手势视频中,确定第一图像帧集合和目标图像帧包括:获取目标对象为预录制的手势视频设置的目标图像帧;提取目标对象的预录制的手势视频中的每一个图像帧,得到第五图像帧集合;利用聚类算法对第五图像帧集合进行处理,获取第六图像帧集合和第七图像帧集合,其中,第六图像帧集合中的图像帧与目标图像
帧之间的相似度高于第七图像帧集合中的图像帧与目标图像帧之间的相似度;通过预先训练好的人手检测模型,从第七图像帧集合中筛选出包含手部的图像帧,将第七图像帧集合中包含手部的图像帧添加到第六图像帧集合中,将添加后的第六图像帧集合作为第一图像帧集合。
[0008]进一步地,获取目标视频,并从目标视频中确定第二图像帧集合和第三图像帧集合包括:提取目标视频中的每一个图像帧,得到第八图像帧集合;通过预训练好的第一卷积神经网络,计算第八图像帧集合中每一个图像帧和目标图像帧的第二相似度,得到第二相似度集合;获取第二相似度大于或等于第一阈值的图片,得到第二图像帧集合;获取第二相似度小于第一阈值的图片,得到第三图像帧集合。
[0009]进一步地,对第二图像帧集合中的图像帧以及目标图像帧进行处理,得到处理后的第二图像帧集合和处理后的目标图像帧包括:通过预训练好的第二卷积神经网络,识别目标对象的手部在第二图像帧集合的图像帧中所占据的第一区域范围和目标对象的手部在目标图像帧中所占据的第二区域范围;使用第一颜色覆盖第一区域范围和第二区域范围,使用第二颜色覆盖第二图像帧集合的图像帧中除第一区域范围之外的其余区域范围和目标图像帧中除第二区域范围之外的其余区域范围,得到处理后的第二图像帧集合和处理后的目标图像帧。
[0010]进一步地,依据第四图像帧集合和第一相似度集合,确定对目标视频的手势识别结果包括:对第一相似度集合中的数值进行处理,得到第二相似度;计算第二图像帧集合中图像帧的数量与第三图像帧集合中图像帧的数量之和,得到总图像帧数量;计算第四图像帧集合中图像帧的数量与总图像帧数量的比值;若确定比值大于或等于第二阈值,且确定第二相似度大于或等于第三阈值,则确定对目标视频的手势识别结果为目标视频中的手势为目标对象预录制的手势视频中的手势。
[0011]进一步地,依据处理后的第二图像帧集合和处理后的目标图像帧,确定第四图像帧集合包括:将处理后的第二图像帧集合和处理后的目标图像帧输入第一卷积神经网络,输出处理后的第二图像帧集合中的图像帧和处理后的目标图像帧之间的第三相似度;从处理后的第二图像帧集合中筛选出与处理后的目标图像帧之间的第三相似度大于第四阈值的图像帧,得到第四图像帧集合
[0012]进一步地,利用聚类算法对第五图像帧集合进行处理,获取第六图像帧集合和第七图像帧集合括:使用聚类算法将第五图像帧集合进行聚类处理,得到第九图像帧集合和第十图像帧集合,其中,所述第九图像帧集合和所述第十图像帧集合包含的不同的图片;对第九图像帧集合、第十图像帧集合和目标图像帧进行直方图分析,确定第九图像帧集合中的图像帧与目标图像帧之间的相似度均值,和第十图像帧集合中的图像帧与目标图像帧之间的相似度均值;若第九图像帧集合中的图像帧与目标图像帧之间的相似度均值高于第十图像帧集合中的图像帧与目标图像帧之间的相似度均值,则将第九图像帧集合作为第六图像帧集合,将第十图像帧集合作为第七图像帧集合;若第九图像帧集合中的图像帧与目标图像帧之间的相似度均值低于第十图像帧集合中的图像帧与目标图像帧之间的相似度均值,则将第十图像帧集合作为第六图像帧集合,将第九图像帧集合作为第七图像帧集合。
[0013]为了实现上述目的,根据本申请的另一方面,提供了一种基于深度学习的视频手势识别装置,该装置包括:第一确定单元,用于从目标对象预录制的手势视频中,确定第一
图像帧集合和目标图像帧,其中,第一图像帧集合中的每帧图像是均有手势的图像,目标图像帧是目标对象确定的代表手势的图像帧;第二确定单元,用于获取目标视频,并从目标视频中确定第二图像帧集合和第三图像帧集合,其中,第二图像帧集合中的图像帧与目标图像帧的相似度高于第三图像帧集合中的图像帧与目标图像帧的相似度,其中,目标视频是待进行手势识别的视频;第一处理单元,用于对第二图像帧集合中的图像帧以及目标图像帧进行处理,得到处理后的第二图像帧集合和处理后的目标图像帧;第三确定单元,用于依据处理后的第二图像帧集合和处理后的目标图像帧,确定第四图像帧集合;第一获取单元,用于将第三图像帧集合中的图像帧和第一图像帧集合中的图像帧输入循环神经网络进行相似度比较,输出第三图像帧集合中的图像帧和第一图像帧集合中的图像帧的相似度,得到第一相似度集合;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的视频手势识别方法,其特征在于,包括:从目标对象预录制的手势视频中,确定第一图像帧集合和目标图像帧,其中,所述第一图像帧集合中的每帧图像是均有手势的图像,所述目标图像帧是所述目标对象确定的代表手势的图像帧;获取目标视频,并从所述目标视频中确定第二图像帧集合和第三图像帧集合,其中,所述第二图像帧集合中的图像帧与所述目标图像帧的相似度高于所述第三图像帧集合中的图像帧与所述目标图像帧的相似度,其中,所述目标视频是待进行手势识别的视频;对所述第二图像帧集合中的图像帧以及所述目标图像帧进行处理,得到处理后的第二图像帧集合和处理后的目标图像帧;依据处理后的第二图像帧集合和处理后的目标图像帧,确定第四图像帧集合;将第三图像帧集合中的图像帧和所述第一图像帧集合中的图像帧输入循环神经网络进行相似度比较,输出所述第三图像帧集合中的图像帧和所述第一图像帧集合中的图像帧的相似度,得到第一相似度集合;依据所述第四图像帧集合和所述第一相似度集合,确定对所述目标视频的手势识别结果。2.根据权利要求1所述的方法,其特征在于,从目标对象预录制的手势视频中,确定第一图像帧集合和目标图像帧包括:获取所述目标对象为所述预录制的手势视频设置的目标图像帧;提取所述目标对象的所述预录制的手势视频中的每一个图像帧,得到第五图像帧集合;利用聚类算法对所述第五图像帧集合进行处理,获取第六图像帧集合和第七图像帧集合,其中,所述第六图像帧集合中的图像帧与所述目标图像帧之间的相似度高于所述第七图像帧集合中的图像帧与所述目标图像帧之间的相似度;通过预先训练好的人手检测模型,从所述第七图像帧集合中筛选出包含手部的图像帧,将所述第七图像帧集合中包含手部的图像帧添加到所述第六图像帧集合中,将添加后的所述第六图像帧集合作为所述第一图像帧集合。3.根据权利要求1所述的方法,其特征在于,获取目标视频,并从所述目标视频中确定第二图像帧集合和第三图像帧集合包括:提取所述目标视频中的每一个图像帧,得到第八图像帧集合;通过预训练好的第一卷积神经网络,计算所述第八图像帧集合中每一个图像帧和所述目标图像帧的第二相似度,得到第二相似度集合;获取所述第二相似度大于或等于第一阈值的图片,得到所述第二图像帧集合;获取所述第二相似度小于第一阈值的图片,得到所述第三图像帧集合。4.根据权利要求1所述的方法,其特征在于,对所述第二图像帧集合中的图像帧以及所述目标图像帧进行处理,得到处理后的第二图像帧集合和处理后的目标图像帧包括:通过预训练好的第二卷积神经网络,识别所述目标对象的手部在所述第二图像帧集合的图像帧中所占据的第一区域范围和所述目标对象的手部在所述目标图像帧中所占据的第二区域范围;使用第一颜色覆盖所述第一区域范围和所述第二区域范围,使用第二颜色覆盖所述第
二图像帧集合的图像帧中除第一区域范围之外的其余区域范围和所述目标图像帧中除第二区域范围之外的其余区域范围,得到处理后的第二图像帧集合和处理后的目标图像帧。5.根据权利要求1所述的方法,其特征在于,依据所述第四图像帧集合和所述第一相似度集合,确定对所述目标视频的手势识别结果包括:对所述第一相似度集合中的数值进行处理,得到第二相似度;计算所述第二图像帧集合中图像帧的数量与所述第三图像帧集合中图像帧的数量之和,得到总图像帧数量;计算所述第四图像帧集合中图像帧的数量与所述总图像帧数量的比值;若确定所...

【专利技术属性】
技术研发人员:许政伟张宏韬杨晓诚李铁岭
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1