一种基于对数路径积分特征和卷积神经网络的手势识别方法技术

技术编号:18497879 阅读:34 留言:0更新日期:2018-07-21 20:33
本发明专利技术公开了一种基于对数路径积分特征和卷积神经网络的手势识别方法,步骤包括:对视频数据进行标注,训练一个基于Faster‑RCNN的手部检测器;利用手部检测器对视频样本逐帧进行检测,获得每一帧的手部位置;基于每一帧的手部位置,结合时间和深度构建出二维、三维和四维的手部轨迹;对手部轨迹进行数据增强;对增强后的轨迹样本提取相应的对数路径积分特征;将对数路径积分特征按照空间位置信息进行排列,构建出对应的特征立方体;将特征立方体作为卷积神经网络的输入,并最终输出识别结果。本发明专利技术将鲁棒的对数路径积分特征应用于手势识别领域,并提出新的数据增强方法随机弃帧,在不同的背景和光照条件下,都能准确识别手势种类。

A gesture recognition method based on logarithmic path integral feature and convolution neural network

The invention discloses a gesture recognition method based on the logarithmic path integral feature and the convolution neural network. The steps include: marking video data and training a hand detector based on Faster RCNN; using a hand detector to detect the video sample by frame by frame; based on each of each frame, the hand position of each frame is obtained. The hand position of the frame is combined with time and depth to build a two-dimensional, three-dimensional and four-dimensional hand trajectory; the opponent trajectory is enhanced by the data; the corresponding logarithmic path integral features are extracted from the enhanced trajectory sample; the corresponding characteristic cube is constructed by arranging the logarithmic path integral characteristics according to the spatial position information. The characteristic cube is used as the input of the convolution neural network, and the output result is finally identified. The present invention applies the robust logarithmic path integral feature to the field of gesture recognition, and proposes a new data enhancement method to randomly discard the frame, and can accurately identify the type of gestures in different background and illumination conditions.

【技术实现步骤摘要】
一种基于对数路径积分特征和卷积神经网络的手势识别方法
本专利技术涉及计算机视觉和机器学习
,具体涉及一种基于对数路径积分特征和卷积神经网络的手势识别方法。
技术介绍
目前,计算机已经得到广泛的应用,人机交互也已经成为人们生活的一个部分。从人机交互的发展上来看,人机交互的方式包括现有的鼠标,键盘以及更加先进的触摸屏,但是上面提到的方法都无法脱离“接触式”的交互方式。因此,更加贴近人类表达本能的手势交互方式得到更多的重视。手势交互利用计算机视觉,计算机图形学等技术识别人体的手势动作,并将手势的含义转化为设备的操作指令。在对话的过程中,手势除了能够传递语义信息,还可以传递说话人的性格、文化背景、感情色彩、说话的动机以及对听众的态度。许多心理学的研究表明,肢体运动不仅仅能于传递语义信息、方法自己的感情色彩和弥补言语无法表达的场景,还能够让说话人做出更加复杂而生动的表达。因而,识别和理解肢体语言是理解和模拟人体行为的必要条件。基于计算机视觉的手势识别任务作为计算机视觉领域中一个重要的任务,从19世纪70年代开始就受到学术界广泛的关注。识别主要可以分为基于传统机器学习的方法和基于深度学习的方法。基于传统方法进行手势识别,主要是提取特征描述子训练分类器进行手势识别。所以,特征是否有用将直接影响分类器的训练效果。近几年,深度卷积神经网络出现,基于深度学习的手势识别主要可以分为:单纯使用卷积神经网络和卷积神经网络结合循环神经网络两种,其中使用的比较多的是卷积神经网络结合循环神经网络的方法。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于对数路径积分特征和卷积神经网络的手势识别方法,以弥补现有特征适用场景单一的局限性,进一步提高手势识别的精度。本专利技术的目的可以通过采取如下技术方案达到:一种基于对数路径积分特征和卷积神经网络的手势识别方法,包括步骤:S1、对视频数据进行标注,训练一个基于Faster-RCNN的手部检测器;S2、利用训练好的手部检测器对训练集和测试集的视频样本逐帧进行检测,获得每一帧的手部位置;S3、基于每一帧的手部位置,结合时间信息和深度信息,构建出二维、三维和四维三种形式的手部轨迹;S4、对所获得的手部轨迹进行数据增强,包括随机弃帧以及常规操作,其中,常规操作包括旋转、变形和平移;S5、对增强后的轨迹样本提取相应的对数路径积分特征,计算出每一个轨迹点对应的对数路径积分特征;S6、将对数路径积分特征按照空间位置信息进行排列,从而构建出对应的特征立方体;S7、将训练集的特征立方体作为卷积神经网络的输入,训练卷积神经网络,并将测试集作为训练好的卷积神经网络的输入,输出最终的识别结果。进一步地,所述的步骤S1包括:S11、将待识别的数据库的训练集视频分解成帧;S12、利用标注工具,标注出每一帧手的位置的外接矩形,并将外接矩形的左上角和右下角坐标记录于xml文件中;S13、用标注好的图片训练Faster-RCNN网络,所述的Faster-RCNN网络是一个端到端的物体检测神经网络,利用卷积神经网络提取图片特征,同时产生一定数目的建议框,并使用非极大值抑制方法得到最终的检测结果,将Faster-RCNN网络作为手部检测器,排除无关背景的干扰。进一步地,所述的步骤S2包括:S21、将数据库的训练集和测试集视频逐帧分解;S22、将分解出的视频帧作为手部检测器的输入,得到每一帧的手部位置坐标,存储在相应的txt文件中。进一步地,所述的步骤S3包括:S31、直接将手部检测器输出的二维轨迹点坐标拼接起来,作为样本的二维形式轨迹(x,y),二维轨迹点只包含图像平面的空间位置信息;S32、加入时间维度,构建出三维轨迹点(x,y,t);S33、加上深度维度,构建出四维轨迹点(x,y,d,t)。进一步地,所述的步骤S4包括:S41、对步骤S3输出的手部轨迹进行随机弃帧操作,对一个具有N帧的样本,n是随机丢弃的帧的数量,则最终得到的新样本的数量为:随机弃帧在增加样本的同时能够模拟不同速度下的手势,增加样本的多样性;S42、对步骤S41得到的轨迹进行正负θ角度的旋转,模拟不同个体的手势习惯;S43、对步骤S42得到的轨迹进行变形,进一步增加样本数量;S44、对步骤S43得到的轨迹进行平移,模拟不同位置下的相同手势。进一步地,所述的步骤S5包括:S51、对步骤S4得到的轨迹进行上采样或者下采样,以统一样本的轨迹的轨迹点数;S52、根据对数路径积分的定义公式,求每一个轨迹点对应的路径积分特征,所用的公式如下:其中,时间区间[t1,t2]上路径P定义为为实数集,d为坐标点的维度,n为大于等于1的整数,表示张量积,是路径P的路径积分。进一步地,所述的步骤S6包括:S61、初始化一个N×N×M的数组,用于存放提取出来的对数路径积分特征,N×N代表每一帧图片的高和宽,M代表对数路径积分特征的维度;S62、将步骤S5提取出来的每一个轨迹点的对数路径积分特征,存放到相应的轨迹点对应的位置上,在存储对数路径积分特征的同时,保留特征的空间相关性。进一步地,所述的步骤S7包括:S71、将步骤S6的得到的训练集特征立方体作为卷积神经网络的输入,训练卷积神经网络;S72、将步骤S6的得到的测试集特征立方体作为训练好的卷积神经网络的输入,最终得到手势类别。本专利技术相对于现有技术具有如下的优点及效果:1、本专利技术首次将路径积分特征应用于手势识别领域,路径积分特征相对于传统的特征描述子更加鲁棒,具有更高的泛化能力;2、本专利技术进一步使用对数路径积分特征,该特征是路径积分特征的精炼,在降低特征维度,加快网络速度的同时不影响网络的识别准确率;3、本专利技术提出一种随机弃帧的数据增强方法,随机丢弃一定数量的视频帧,在增大训练样本数量的同时,还能模拟不同运动速度的手势,增加样本的多样性;4、本专利技术将时间信息和深度信息与空间坐标进行融合,提出二维、三维和四维的轨迹表征方式,进一步增加轨迹所携带的信息量,使分类准确率进一步提高;5、本专利技术提出一种对数路径积分特征的空间组织方式,将对数路径积分特征按照空间位置关系存储为一个空间立方体,而不是单纯的级联成一维向量,进而保留了轨迹点的空间位置关系,使得准确率得到进一步提升;6、本专利技术使用预先训练好的手部检测器进行手部检测,以得到手部运动轨迹,从而排除复杂的背景干扰;7、本专利技术的手势识别算法在SheffieldKinectGesture(SKIG)手势数据库上进行测试,在单纯使用彩色视频的时候获得了96.7%的识别准确率,在同时使用彩色视频和深度视频的时候,准确率达到了98.7%。附图说明图1是本专利技术中公开的基于对数路径积分特征和卷积神经网络的手势识别方法流程图;图2是SKIG数据库的部分手势样本图片示意图;图3(a)是彩色图片经过检测器的检测结果示意图;图3(b)是与彩色图片对应的深度图片的检测结果示意图;图4(a)是SKIG数据库上十个样本的对数路径积分特征可视化结果示意图一;图4(b)是SKIG数据库上十个样本的对数路径积分特征可视化结果示意图二。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本文档来自技高网...

【技术保护点】
1.一种基于对数路径积分特征和卷积神经网络的手势识别方法,其特征在于,包括步骤:S1、对视频数据进行标注,训练一个基于Faster‑RCNN的手部检测器;S2、利用训练好的手部检测器对训练集和测试集的视频样本逐帧进行检测,获得每一帧的手部位置;S3、基于每一帧的手部位置,结合时间信息和深度信息,构建出二维、三维和四维三种形式的手部轨迹;S4、对所获得的手部轨迹进行数据增强,包括随机弃帧以及常规操作,其中,常规操作包括旋转、变形和平移;S5、对增强后的轨迹样本提取相应的对数路径积分特征,计算出每一个轨迹点对应的对数路径积分特征;S6、将对数路径积分特征按照空间位置信息进行排列,从而构建出对应的特征立方体;S7、将训练集的特征立方体作为卷积神经网络的输入,训练卷积神经网络,并将测试集作为训练好的卷积神经网络的输入,输出最终的识别结果。

【技术特征摘要】
1.一种基于对数路径积分特征和卷积神经网络的手势识别方法,其特征在于,包括步骤:S1、对视频数据进行标注,训练一个基于Faster-RCNN的手部检测器;S2、利用训练好的手部检测器对训练集和测试集的视频样本逐帧进行检测,获得每一帧的手部位置;S3、基于每一帧的手部位置,结合时间信息和深度信息,构建出二维、三维和四维三种形式的手部轨迹;S4、对所获得的手部轨迹进行数据增强,包括随机弃帧以及常规操作,其中,常规操作包括旋转、变形和平移;S5、对增强后的轨迹样本提取相应的对数路径积分特征,计算出每一个轨迹点对应的对数路径积分特征;S6、将对数路径积分特征按照空间位置信息进行排列,从而构建出对应的特征立方体;S7、将训练集的特征立方体作为卷积神经网络的输入,训练卷积神经网络,并将测试集作为训练好的卷积神经网络的输入,输出最终的识别结果。2.根据权利要求1所述的一种基于对数路径积分特征和卷积神经网络的手势识别方法,其特征在于,所述的步骤S1包括:S11、将待识别的数据库的训练集视频分解成帧;S12、利用标注工具,标注出每一帧手的位置的外接矩形,并将外接矩形的左上角和右下角坐标记录于xml文件中;S13、用标注好的图片训练Faster-RCNN网络,所述的Faster-RCNN网络是一个端到端的物体检测神经网络,利用卷积神经网络提取图片特征,同时产生一定数目的建议框,并使用非极大值抑制方法得到最终的检测结果,将Faster-RCNN网络作为手部检测器,排除无关背景的干扰。3.根据权利要求1所述的一种基于对数路径积分特征和卷积神经网络的手势识别方法,其特征在于,所述的步骤S2包括:S21、将数据库的训练集和测试集视频逐帧分解;S22、将分解出的视频帧作为手部检测器的输入,得到每一帧的手部位置坐标,存储在相应的txt文件中。4.根据权利要求1所述的一种基于对数路径积分特征和卷积神经网络的手势识别方法,其特征在于,所述的步骤S3包括:S31、直接将手部检测器输出的二维轨迹点坐标拼接起来,作为样本的二维形式轨迹(x,y)...

【专利技术属性】
技术研发人员:张鑫李晨阳
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1