The present disclosure discloses a dynamic gesture recognition method and system based on multi-mode 3D convolution neural network, which includes: sub-frame processing of acquired actual video data and dividing it into several frame images; extracting several key frame images from the said several frame images; gray-scale image obtained from gray-scale processing of each key frame image, and Gabor gray-scale image of each key frame image. Gabor image is transformed and edge image is extracted from gray image of each key frame image. The gray image corresponding to each key frame image is input into the pre-trained first, second and third 3D convolution neural networks, and the first, second and third class results are output respectively. The output terminals of the first, second and third 3D convolution neural networks are connected at the same time. An output layer fuses the first, second and third classification results to output the final classification results.
【技术实现步骤摘要】
基于多模态3D卷积神经网络的动态手势识别方法及系统
本公开涉及一种基于多模态3D卷积神经网络的动态手势识别方法及系统。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
,并不必然构成现有技术。随着近年来深度学习,人工智能的高速发展,也带动了人机交互向更智能,更方便,更人性化的方向发展,比如智能手机中的指纹解锁,指纹支付,人脸识别解锁和人脸支付等。手势相比其他人机交互方式,其表现方式更加自然多变,因此携带信息量也更加多元。目前基于手势识别的人机交互已经广泛应用于智能电视,VR,车载智能交互等。手势识别分为静态手势识别和动态手势识别,静态手势识别强调手在空间中的表现形式,所以识别相对简单。而动态手势识别不仅要关注手势在空间中的变化,更重要的是要手势在时间上的轨迹与变化。
技术实现思路
为了解决现有技术的不足,本公开提供了基于多模态3D卷积神经网络的动态手势识别方法及系统,其使用光流法提取视频关键帧;将关键帧生成后的视频图像做gabor变换和边缘提取;防止训练过拟合的数据时域增扩以及最主要的多模态3D卷积神经网络的融合。第一方面,本公开提供了基于多模态3D卷积神经网 ...
【技术保护点】
1.基于多模态3D卷积神经网络的动态手势识别方法,其特征是,包括:对获取的实际视频数据进行分帧处理,分为若干帧图像;从所述若干帧图像中提取若干关键帧图像;对每个关键帧图像进行灰度化处理得到灰度图像,对每个关键帧图像的灰度图像进行Gabor变换得到gabor图像,对每个关键帧图像的灰度图像进行边缘提取得到边缘图像;将每个关键帧图像所对应的灰度图像输入到预先训练好的第一3D卷积神经网络,输出第一分类结果;将每个关键帧图像所对应的gabor图像输入到预先训练好的第二3D卷积神经网络,输出第二分类结果;将每个关键帧图像所对应的边缘图像输入到预先训练好的第三3D卷积神经网络,输出第三 ...
【技术特征摘要】
1.基于多模态3D卷积神经网络的动态手势识别方法,其特征是,包括:对获取的实际视频数据进行分帧处理,分为若干帧图像;从所述若干帧图像中提取若干关键帧图像;对每个关键帧图像进行灰度化处理得到灰度图像,对每个关键帧图像的灰度图像进行Gabor变换得到gabor图像,对每个关键帧图像的灰度图像进行边缘提取得到边缘图像;将每个关键帧图像所对应的灰度图像输入到预先训练好的第一3D卷积神经网络,输出第一分类结果;将每个关键帧图像所对应的gabor图像输入到预先训练好的第二3D卷积神经网络,输出第二分类结果;将每个关键帧图像所对应的边缘图像输入到预先训练好的第三3D卷积神经网络,输出第三分类结果;第一、第二和第三3D卷积神经网络的输出端同时连接到一个输出层,所述输出层对第一、第二和第三分类结果进行融合,输出最终的分类结果。2.如权利要求1所述的方法,其特征是,从所述若干帧图像中提取若干关键帧图像的具体方式为:对视频进行分帧处理后,得到若干帧图像;按照时间顺序,将所述若干帧图像划分为K个视频段,每个视频段中均包括N帧图像;然后,对每个视频段均采用Horn-Schunck光流法提取视频的关键帧图像;最后得到关键帧图像序列。3.如权利要求2所述的方法,其特征是,对每个视频段均采用Horn-Schunck光流法提取视频的关键帧图像的具体步骤为:提取每个视频段中每一帧图像的手势运动信息量,根据每一帧图像中手势运动信息量从大到小进行排序,选择排序靠前的P帧图像作为关键帧图像;所述手势运动信息量,是由图像中每一个像素点光流的水平分量和垂直分量累加而得到。4.如权利要求1所述的方法,其特征是,对每个关键帧图像的灰度图像进行Gabor变换得到gabor图像的具体步骤为:设置m个波长,设置n个角度,对不同的波长和不同的角度进行排列组合,假设得到m*n种组合形式,使用所有的m*n种组合对每个关键帧图像的灰度图像进行Gabor滤波,生成m*n个滤波后的图像,最后对m*n个滤波后的图像像素进行加和,求平均,生成gabor图像。5.如权利要求1所述的方法,其特征是,对每个关键帧图像的灰度图像进行边缘提取得到边缘图像的具体步骤为:使用canny边缘检测算法对每个关键帧图像的灰度图像进行边缘提取,生成边缘图像;对每个关键帧图像的灰度图像进行边缘提取得到边缘图像的具体步骤为:首先用3*3的高斯核对每个关键帧图像的灰度图像进行滤波消除噪声的影响,然后用3*3的canny算子对消除噪声影响的的灰度图像做边缘提取生成最终边缘图像C。6.如权利要求1所述的方法,其特征是,预先训练好的第一3D卷积神经网络的具体训练步骤为:对获取的训练视频数据进行分帧处理,分为若干帧训练图像;...
【专利技术属性】
技术研发人员:杨明强,李杰,王德强,刘玉鹏,程琦,
申请(专利权)人:山东大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。