基于深度学习和多尺度信息的行为识别方法技术

技术编号:13286201 阅读:48 留言:0更新日期:2016-07-09 02:21
本发明专利技术公开了一种基于深度学习和多尺度信息的行为识别方法,通过构建多个深度网络,组成并行结构来研究深度视频的人体行为识别,首先将深度视频先拆分成多个视频段,然后分别使用各并行分支神经网络进行学习,再对各神经网络分支学习到的高层表示进行融合连接,最后将融合后的高层表示送入全连接层和分类层进行分类识别。使用深度学习的方法能够有效进行行为识别,尤其是当各行为动作差别较大时,识别率会得到显著提高,且实时性高。

【技术实现步骤摘要】

本专利技术涉及人体行为识别领域,特别是涉及一种基于深度学习和多尺度信息的行为识别方法
技术介绍
随着计算机、摄像头等硬件技术的成熟和社会管理的更高要求,人体行为识别的研究越来越引起计算机视觉研究工作者的重视,并已广泛应用于自动监控,事件检测,人机接口,视频获取等各个领域。传统的人体行为识别方法首先针对每一个描述人体行为的视频进行特征提取,如方向梯度直方图(HistogramsofOrientedGradient,HOG),运动历史图像(MotionHistoryImage,MHI)等,然后采用支持向量机、随机森林等分类器对提取的特征进行分类识别。基于计算方法的人体行为识别的研究已经取得了很多优秀成果,然而也存在一些难以解决的问题:提取的特征具有针对性,不易泛化到其他数据;计算开销太大,很难做到实时性。深度学习能自动提取隐藏在数据间的多层特征表示,基于卷积神经网络的深度学习研究在图像分类、识别、定位、分割等方面取得了很大的成功。然而,图像处理中的卷积为二维运算,不能直接应用于描述人体行为的三维视频。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种基于深度学习和多尺度信息的行为识别方法,使用深度学习的方法能够有效进行行为识别,尤其是当各行为动作差别较大时,识别率会得到显著提高,且本专利技术的泛化性能好,可以在一个大数据集上进行训练,然后用于缺少训练数据的行为识别领域,可大大减少行为识别的时间开销,实时性高。本专利技术以深度视频数据为研究对象,通过构建基于CNN的深度神经网络结构,并融合全局的人体行为信息和局部的手部动作等多尺度信息,使用传统的二维CNN来研究三维的人体行为识别。本专利技术通过构建多个深度网络,组成并行结构来研究深度视频的人体行为识别。首先将深度视频先拆分成多个视频段,然后分别使用各并行分支神经网络进行学习,再对各神经网络分支学习到的高层表示进行融合连接,将各个分支神经网络的数据向量化后进行连接,变成一维向量,以便输入后面的全连接层。最后将融合后的高层表示送入全连接层和分类层进行分类识别。与此同时,针对MSRDailyActivity3D数据集中大部分行为仅仅在手部有细微差别,如读书、写字、用笔记本电脑、玩游戏等行为,本专利技术提出了通过融合粗粒度的全局行为信息和细粒度的手部动作等多尺度信息的思想。本专利技术的目的是这样实现的:一种基于深度学习和多尺度信息的行为识别方法,包括如下步骤:(1)建立训练数据集;所述训练数据集中的粗粒度全局行为视频选自MSRDailyActivity3D数据集。(2)构建具有若干并行深度卷积神经网络的深度神经网络模型;(3)选取训练数据集中的粗粒度全局行为视频以设定的步长LStride进行分段,其中,每段长度设定为LSeg,分段后形成了NSeg个粗粒度视频段矩阵,分段数为NSeg=1+(NF-LSeg)/LStride,NF为粗粒度全局行为视频的帧数;(4)从步骤(3)中的粗粒度全局行为视频中获取细粒度局部行为视频,对细粒度局部行为视频采取步骤(3)同样的方法进行分段得到NSeg个细粒度视频段矩阵;细粒度视频段矩阵的每一帧的大小与粗粒度视频段矩阵的每一帧的大小相同。截取粗粒度全局行为视频每一帧中的细粒度局部行为序列组成细粒度局部行为视频。细粒度的局部行为可以为手部动作,也可以为其他部位的细节动作。获取细粒度视频方法:以粗粒度全局行为视频每一帧的左手关节为中心,截取W/4×H/4大小的帧组成NF×W/4×H/4的新视频,该视频为细粒度手部动作视频,其中W,H,NF分别为原始深度视频帧的宽度、高度和视频中包含的帧数。该大小与粗粒度视频下采样后的大小一致。(5)将步骤(3)得到的NSeg个粗粒度视频段矩阵和步骤(4)得到的NSeg个细粒度视频段矩阵并行送入步骤(1)中构建的具有2NSeg个并行深度卷积神经网络的深度神经网络模型中进行训练;(6)选取待识别的粗粒度全局行为视频进行步骤(3)、(4)分别得到NSeg个粗粒度视频段矩阵和NSeg个细粒度视频段矩阵,将得到的NSeg个粗粒度视频段矩阵和NSeg个细粒度视频段矩阵并行送入步骤(5)得到的已经训练好的深度神经网络模型中进行行为识别。待识别的粗粒度全局行为视频为经过预处理的视频。步骤(2)中的深度神经网络以卷积神经网络为构建块,具有一个分类层、至少一个卷积层、至少一个池化层以及至少一个全连接层。并行深度卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一全连接层、第二全连接层和分类层。将步骤(3)中的粗粒度全局行为视频的每一帧进行下采样后再进行分段,作用为:1、减少计算量;2、使粗粒度视频段矩阵的每一帧的大小与细粒度视频段矩阵的每一帧的大小相同,便于输入网络。粗粒度全局行为视频为深度视频。训练数据集中的粗粒度全局行为视频为经过预处理的视频,待识别的粗粒度全局行为视频为经过预处理的视频。所述预处理为:首先,使用插值技术将数据集中的所有视频规范化到统一的长度。该长度即为所有视频长度的中间值。其次,去除背景,仅保留以人为中心的视频部分,并将视频大小规范到一定尺寸。再次,使用min-max方法分别将所有视频的x,y,z坐标值规范化到[0,1]范围。最后,将所有样本进行水平翻转形成新的样本从而成倍扩大数据集中的训练样本。一种基于深度学习和多尺度信息的行为识别方法,包括如下步骤:(1)建立训练数据集;所述训练数据集中的深度视频选自MSRDailyActivity3D数据集;(2)构建具有若干并行深度卷积神经网络的深度神经网络模型;(3)选取训练数据集中的行为视频以设定的步长LStride进行分段,其中每段长度设定为LSeg,分段后形成了NSeg个视频段矩阵,分段数为NSeg=1+(NF-LSeg)/LStride,NF为深度视频的帧数;(4)将步骤(3)得到的NSeg个视频段矩阵并行送入步骤(2)中构建的具有NSeg个并行深度卷积神经网络的深度神经网络模型中进行训练;(5)选取待识别的行为视频进行步骤(3)得到NSeg个视频段矩阵,将得到的NSeg个视频段矩阵并行送入已经训练好的深度神经网络模型中进行行为识别。待识别的行为视频为经过预处理的视频。步骤(2)中的深度神经网络以卷积神经网络为构建块,具有一个分类层、至少一个卷积层、至少一个池化层以及至少一个全连接层。行为视频本文档来自技高网...

【技术保护点】
一种基于深度学习和多尺度信息的行为识别方法,其特征在于,包括如下步骤:(1)建立训练数据集;(2)构建具有若干并行深度卷积神经网络的深度神经网络模型;(3)选取训练数据集中的粗粒度全局行为视频,以设定的步长LStride进行分段,其中,每段长度设定为LSeg,分段后形成了NSeg个粗粒度视频段矩阵,分段数为NSeg=1+(NF-LSeg)/LStride,NF为粗粒度全局行为视频的帧数;(4)从步骤(3)中的粗粒度全局行为视频中获取细粒度局部行为视频,对细粒度局部行为视频采取步骤(3)同样的方法进行分段得到NSeg个细粒度视频段矩阵;(5)将步骤(3)得到的NSeg个粗粒度视频段矩阵和步骤(4)得到的NSeg个细粒度视频段矩阵并行送入步骤(2)中构建的具有2NSeg个并行深度卷积神经网络的深度神经网络模型中进行训练;(6)选取待识别的粗粒度全局行为视频进行步骤(3)、(4)分别得到NSeg个粗粒度视频段矩阵和NSeg个细粒度视频段矩阵,将得到的NSeg个粗粒度视频段矩阵和NSeg个细粒度视频段矩阵并行送入步骤(5)得到的已经训练好的深度神经网络模型中进行行为识别。

【技术特征摘要】
1.一种基于深度学习和多尺度信息的行为识别方法,其特征在于,包括如下
步骤:
(1)建立训练数据集;
(2)构建具有若干并行深度卷积神经网络的深度神经网络模型;
(3)选取训练数据集中的粗粒度全局行为视频,以设定的步长LStride进行分段,
其中,每段长度设定为LSeg,分段后形成了NSeg个粗粒度视频段矩阵,分段数
为NSeg=1+(NF-LSeg)/LStride,NF为粗粒度全局行为视频的帧数;
(4)从步骤(3)中的粗粒度全局行为视频中获取细粒度局部行为视频,对细
粒度局部行为视频采取步骤(3)同样的方法进行分段得到NSeg个细粒度视频段矩
阵;
(5)将步骤(3)得到的NSeg个粗粒度视频段矩阵和步骤(4)得到的NSeg个细粒度
视频段矩阵并行送入步骤(2)中构建的具有2NSeg个并行深度卷积神经网络的深
度神经网络模型中进行训练;
(6)选取待识别的粗粒度全局行为视频进行步骤(3)、(4)分别得到NSeg个粗粒
度视频段矩阵和NSeg个细粒度视频段矩阵,将得到的NSeg个粗粒度视频段矩阵
和NSeg个细粒度视频段矩阵并行送入步骤(5)得到的已经训练好的深度神经网络
模型中进行行为识别。
2.根据权利要求1所述的基于深度学习和多尺度信息的行为识别方法,其
特征在于:步骤(2)中的深度神经网络以卷积神经网络为构建块,具有一个分类
层、至少一个卷积层、至少一个池化层以及至少一个全连接层。
3.根据权利要求1所述的基于深度学习和多尺度信息的行为识别方法,其特
征在于:将步骤(3)中的粗粒度全局行为视频的每一帧进行下采样后再进行分段,
使粗粒度视频段矩阵的每一帧的大小与细粒度视频段矩阵的每一帧的大小相
同。
4.根据权利要求1所述的基于深度学习和多尺度信息的行为识别方法,其
特征...

【专利技术属性】
技术研发人员:刘智冯欣张杰张杰慧张凌黄智勇
申请(专利权)人:重庆理工大学
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1