一种基于对数路径积分特征和卷积神经网络的手势识别方法技术

技术编号：18497879 阅读：34 留言：0更新日期：2018-07-21 20:33

本发明专利技术公开了一种基于对数路径积分特征和卷积神经网络的手势识别方法，步骤包括：对视频数据进行标注，训练一个基于Faster‑RCNN的手部检测器；利用手部检测器对视频样本逐帧进行检测，获得每一帧的手部位置；基于每一帧的手部位置，结合时间和深度构建出二维、三维和四维的手部轨迹；对手部轨迹进行数据增强；对增强后的轨迹样本提取相应的对数路径积分特征；将对数路径积分特征按照空间位置信息进行排列，构建出对应的特征立方体；将特征立方体作为卷积神经网络的输入，并最终输出识别结果。本发明专利技术将鲁棒的对数路径积分特征应用于手势识别领域，并提出新的数据增强方法随机弃帧，在不同的背景和光照条件下，都能准确识别手势种类。

A gesture recognition method based on logarithmic path integral feature and convolution neural network

The invention discloses a gesture recognition method based on the logarithmic path integral feature and the convolution neural network. The steps include: marking video data and training a hand detector based on Faster RCNN; using a hand detector to detect the video sample by frame by frame; based on each of each frame, the hand position of each frame is obtained. The hand position of the frame is combined with time and depth to build a two-dimensional, three-dimensional and four-dimensional hand trajectory; the opponent trajectory is enhanced by the data; the corresponding logarithmic path integral features are extracted from the enhanced trajectory sample; the corresponding characteristic cube is constructed by arranging the logarithmic path integral characteristics according to the spatial position information. The characteristic cube is used as the input of the convolution neural network, and the output result is finally identified. The present invention applies the robust logarithmic path integral feature to the field of gesture recognition, and proposes a new data enhancement method to randomly discard the frame, and can accurately identify the type of gestures in different background and illumination conditions.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对数路径积分特征和卷积神经网络的手势识别方法
本专利技术涉及计算机视觉和机器学习
，具体涉及一种基于对数路径积分特征和卷积神经网络的手势识别方法。
技术介绍
目前，计算机已经得到广泛的应用，人机交互也已经成为人们生活的一个部分。从人机交互的发展上来看，人机交互的方式包括现有的鼠标，键盘以及更加先进的触摸屏，但是上面提到的方法都无法脱离“接触式”的交互方式。因此，更加贴近人类表达本能的手势交互方式得到更多的重视。手势交互利用计算机视觉，计算机图形学等技术识别人体的手势动作，并将手势的含义转化为设备的操作指令。在对话的过程中，手势除了能够传递语义信息，还可以传递说话人的性格、文化背景、感情色彩、说话的动机以及对听众的态度。许多心理学的研究表明，肢体运动不仅仅能于传递语义信息、方法自己的感情色彩和弥补言语无法表达的场景，还能够让说话人做出更加复杂而生动的表达。因而，识别和理解肢体语言是理解和模拟人体行为的必要条件。基于计算机视觉的手势识别任务作为计算机视觉领域中一个重要的任务，从19世纪70年代开始就受到学术界广泛的关注。识别主要可以分为基于传统机器学习的方法和基于深度学习的方法。基于传统方法进行手势识别，主要是提取特征描述子训练分类器进行手势识别。所以，特征是否有用将直接影响分类器的训练效果。近几年，深度卷积神经网络出现，基于深度学习的手势识别主要可以分为：单纯使用卷积神经网络和卷积神经网络结合循环神经网络两种，其中使用的比较多的是卷积神经网络结合循环神经网络的方法。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷，提供一种基于对数路径...

【技术保护点】
1.一种基于对数路径积分特征和卷积神经网络的手势识别方法，其特征在于，包括步骤：S1、对视频数据进行标注，训练一个基于Faster‑RCNN的手部检测器；S2、利用训练好的手部检测器对训练集和测试集的视频样本逐帧进行检测，获得每一帧的手部位置；S3、基于每一帧的手部位置，结合时间信息和深度信息，构建出二维、三维和四维三种形式的手部轨迹；S4、对所获得的手部轨迹进行数据增强，包括随机弃帧以及常规操作，其中，常规操作包括旋转、变形和平移；S5、对增强后的轨迹样本提取相应的对数路径积分特征，计算出每一个轨迹点对应的对数路径积分特征；S6、将对数路径积分特征按照空间位置信息进行排列，从而构建出对应的特征立方体；S7、将训练集的特征立方体作为卷积神经网络的输入，训练卷积神经网络，并将测试集作为训练好的卷积神经网络的输入，输出最终的识别结果。

【技术特征摘要】
1.一种基于对数路径积分特征和卷积神经网络的手势识别方法，其特征在于，包括步骤：S1、对视频数据进行标注，训练一个基于Faster-RCNN的手部检测器；S2、利用训练好的手部检测器对训练集和测试集的视频样本逐帧进行检测，获得每一帧的手部位置；S3、基于每一帧的手部位置，结合时间信息和深度信息，构建出二维、三维和四维三种形式的手部轨迹；S4、对所获得的手部轨迹进行数据增强，包括随机弃帧以及常规操作，其中，常规操作包括旋转、变形和平移；S5、对增强后的轨迹样本提取相应的对数路径积分特征，计算出每一个轨迹点对应的对数路径积分特征；S6、将对数路径积分特征按照空间位置信息进行排列，从而构建出对应的特征立方体；S7、将训练集的特征立方体作为卷积神经网络的输入，训练卷积神经网络，并将测试集作为训练好的卷积神经网络的输入，输出最终的识别结果。2.根据权利要求1所述的一种基于对数路径积分特征和卷积神经网络的手势识别方法，其特征在于，所述的步骤S1包括：S11、将待识别的数据库的训练集视频分解成帧；S12、利用标注工具，标注出每一帧手的位置的外接矩形，并将外接矩形的左上角和右下角坐标记录于xml文件中；S13、用标注好的图片训练Faster-RCNN网络，所述的Faster-RCNN网络是一个端到端的物体检测神经网络，利用卷积神经网络提取图片特征，同时产生一定数目的建议框，并使用非极大值抑制方法得到最终的检测结果，将Faster-RCNN网络作为手部检测器，排除无关背景的干扰。3.根据权利要求1所述的一种基于对数路径积分特征和卷积神经网络的手势识别方法，其特征在于，所述的步骤S2包括：S21、将数据库的训练集和测试集视频逐帧分解；S22、将分解出的视频帧作为手部检测器的输入，得到每一帧的手部位置坐标，存储在相应的txt文件中。4.根据权利要求1所述的一种基于对数路径积分特征和卷积神经网络的手势识别方法，其特征在于，所述的步骤S3包括：S31、直接将手部检测器输出的二维轨迹点坐标拼接起来，作为样本的二维形式轨迹(x,y)...

【专利技术属性】
技术研发人员：张鑫，李晨阳，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人