基于深度学习的多通道图像特征融合的人体动作识别方法技术

技术编号:18459028 阅读:30 留言:0更新日期:2018-07-18 12:47
本发明专利技术公开了一种基于深度学习的多通道图像特征融合的人体动作识别方法,包括:(1)从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图、光流图;(2)对输入图片进行裁剪操作扩增训练数据集;(3)构建三通道卷积神经网络,将最后得到的视频片段分别输入三通道卷积神经网络中进行训练,得到对应的网络模型;(4)对待识别的视频片段,提取原始RGB图片、并计算其对应的动态图、光流图,并得到最终动作类别的识别结果。本发明专利技术利用三通道卷积神经网络对不同形态的原始输入学习数据的本质特征,并在网络中部对三种形态的数据进行多通道稠密融合操作,提高特征的表达能力和达到多通道信息共享,准确度高的目的。

Human action recognition method based on multi-channel image feature fusion based on deep learning

The invention discloses a human action recognition method based on the multi-channel image feature fusion of deep learning, including: (1) extracting the original RGB picture from the video, and calculating the dynamic map and the optical flow chart of the segmented video through the RGB picture; (2) the input picture is cut and exercises to expand the training data set; (3) the construction of the convolution of the three channel. Neural network, the final video clip is input into the three channel convolution neural network to train to get the corresponding network model. (4) to treat the identified video clip, extract the original RGB picture, and calculate its corresponding dynamic map, optical flow graph, and get the recognition result of the final action category. The invention uses the three channel convolution neural network to learn the essential features of the original input data of different forms, and carries out multichannel dense fusion operation on the three forms of data in the middle of the network, so as to improve the expressive ability of the features and achieve the purpose of sharing the multi-channel information and high accuracy.

【技术实现步骤摘要】
基于深度学习的多通道图像特征融合的人体动作识别方法
本专利技术涉及图像处理与分析
,更具体地说,涉及一种基于深度学习的多通道图像特征融合的人体动作识别方法。
技术介绍
视频中的人体动作识别是指通过分析处理视频中的视觉特征信息来进行人体动作识别、分类的一种技术。这种技术广泛应用于智能视频监控、行为分析、视频检索等方面。传统的人体动作识别都是基于手工设计的特征训练分类器进行动作分类。当前,传统的方法效果最好的策略是通过提取基于改进稠密轨迹(improvedDenseTrajectory,iDT)的特征,结合费舍尔向量(FisherVector,FV)建模进行人体工作的识别。近年来,随着深度学习的发展迅速,卷积神经网络(ConvolutionalNeuralNetwork,CNN)在计算机视觉领域取得了很大的进步,其自动学习到的特征已经超过了传统的手工设计特征。这一网络结构也被广泛应用于视频中的人体动作识别。比如,当前有一种双流卷积网络结构在人体动作识别领域取得较好的性能。这一网络结构通过事先计算好的光流图片以及从视频中提取出来的RGB原图,堆叠而成序列组,然后分别通过两个结构大致相同的卷积网络进行特征提取,自动地学习视频的特征,最后通过平均的方法融合两个通道预测,得出识别结果。虽然基于手工特征的传统方法和基于深度学习的方法都在人体动作识别取得不错的分类性能,但是由于人体动作的复杂性、视频中背景因素的干扰、个别动作类内差大而类间差很小等原因,当前的识别算法都存在一定的不足,无法实现高精度的人体动作识别。因此,需要设计一种新的自动提取特征的方法去学习视频中的人体动作的有效特征,从而实现高精度的人体动作识别。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于深度学习的多通道图像特征融合的人体动作识别方法。该方法对原始数据进行了一定的处理,为卷积神经网络提供了三种不同的输入,添加了新的视频特征表达信息,形成三通道卷积神经网络,并且在模型中对特征进行稠密的融合,从而达到多通道信息共享,准确度高的目的。为了达到上述目的,本专利技术采用以下技术方案:本专利技术一种基于深度学习的多通道图像特征融合的人体动作识别方法,包括下述步骤:(1)从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图和光流图,包括下述内容:根据原始视频,提取其RGB视频帧Irgb,通过得到的视频帧Irgb计算动态图Idyn和光流图Iflow,得到三种不同类型的训练样本,都作为网络的输入数据,三种不同的训练样本,分别对应了视频片段的颜色、空间信息,短时间运动信息以及长时间运动信息;(2)对输入图片进行裁剪操作扩增训练数据集;(3)构建三通道卷积神经网络,将最后得到的视频片段分别输入三通道卷积神经网络中进行训练,得到对应的网络模型;(4)对待识别的视频片段,提取原始RGB图片,并计算其对应的动态图和光流图,利用步骤(3)中训练好的三通道卷积神经网络提取特征,并得到最终动作类别的识别结果。作为优选的技术方案,所述步骤(1)中,从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图具体操作如下:(1.1)对于组成一个视频片段的序列S=[f1,f2,…,fn],其中n为序列长度,fi为序列中第i个视频帧,其中1≤i≤n;(1.2)对所有得到的视频帧fi按照下述心理学公式(1)进行灰度化:Gray(x,y)=R(x,y)×0.299+G(x,y)×0.587+B(x,y)×0.114(1)其中,(x,y)代表图片中的坐标,Gray(x,y)、R(x,y)、G(x,y)、B(x,y)分别代表灰度图像中的灰度值,RGB图像中的红色通道值、绿色通道值以及蓝色通道值;(1.3)通过灰度化的视频序列记为G=[g1,g2,…,gn],对于序列中的视频帧gi,1≤i≤n-1,采用公式(2)进行计算,得到视频的动态序列D=[d1,d2,…,dn]:di=gi+1-gi(2)(1.4)将序列长度为n的动态序列D分为三段,三段长度分别为:(1.5)对于每一段动态序列li,i=1,2,3,按照公式(5)在时间轴上进行平均池化,得到平均动态图:其中,dj(1≤j≤l)为步骤(1.3)中计算好的动态图;(1.6)对于得到的平均动态图,按照公式(6)组合起来:D(x,y,i)=(L(x,y,i)-min(Li))/max(Li)×255(6)其中,D(x,y,i)为所求得的动态图,min(Li)、max(Li)分别为当前平均动态图Li中的最小值和最大值。作为优选的技术方案,所述步骤(2)中,对输入图片进行裁剪操作扩增训练数据集具体包括:(2.1)对输入网络的图片进行裁剪操作,假设图片大小为h×w,首先将图片长宽比例固定,调整图片短边为固定值h0,则调整后的图片大小为(2.2)输入卷积神经网络的图片为正方形,将调整后的图片以短边尺寸h0为基准,每次对图片进行三次裁剪,每次位移大小为(w-h)/2,每次裁剪得到的图片大小为h0×h0,作为卷积神经网络的输入。作为优选的技术方案,所述步骤(3)构建三通道卷积神经网络具体操作如下:(3.1)三通道卷积神经网络结构自底向上由三个模块组成,分别为:初始化模块,多通道稠密融合模块,分类模块;(3.2)其中,初始化模块设置在网络底部:在第一层设置三个通道,这些通道包括:一个RGB图像通道、一个动态图通道以及一个光流图通道,初始化模块对三种不同类型的训练样本进行卷积、池化操作,每个通道都得到d维特征;第二层中,对时间点t堆叠起来的多通道图片分通道进行三维卷积操作,即将卷积操作扩展到时间域;(3.3)在多通道稠密融合模块中,将上述每个通道得到的d维特征进行稠密融合;(3.4)分类模块采用全连接层和Softmax分类器进行分类。作为优选的技术方案,所述初始化模块具体操作如下:对于输入网络的三个通道的图片,取时间点为t的视频帧分别进行三维卷积、批处理、非线性修正、三维池化操作,并在卷积时固定每个通道的特征输出维度,每个通道都会得到对应的特征矩阵,对于图片大小为h×w,一个时长为T的视频片段,得到T×3个大小为h×w×d的特征矩阵。作为优选的技术方案,所述多通道稠密融合模块具体操作如下:(3.3.1)取出每个通道得到的维度为i的特征mi按照公式(7)进行加权融合,0<i≤d;其中,Fi为融合之后的特征,ωk为三通道的权重,0<k≤3,分别为三个通道取出的维度为i的特征,其中0<i≤d;从而得到d个特征矩阵,每个特征矩阵的大小为h×w×3;(3.3.2)对于上述得到的特征矩阵,分别采用卷积核进行卷积,输出特征维度channelout设置为1,则在步骤(3.3.1)中的每个特征矩阵得到一个大小为h×w×1的特征矩阵,经过修正线性单元,再将这些特征矩阵依照时间维度串接,得到h×w×d的稠密融合特征矩阵,将此特征矩阵作为分类模块的输入。作为优选的技术方案,所述分类模块包括全连接层以及Softmax层,其中,全连接层在卷积神经网络中,将学习到的分布式特征表示映射到样本标记空间,最后通过Softmax层,对分类结果进行归一化,得到最终的预测结果。本专利技术与现有技术相比,具有如下优点和有益效本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,包括下述步骤:(1)从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图和光流图,包括下述内容:根据原始视频,提取其RGB视频帧Irgb,通过得到的视频帧Irgb计算动态图Idyn和光流图Iflow,得到三种不同类型的训练样本,都作为网络的输入数据,三种不同的训练样本,分别对应了视频片段的颜色、空间信息,短时间运动信息以及长时间运动信息;(2)对输入图片进行裁剪操作扩增训练数据集;(3)构建三通道卷积神经网络,将最后得到的视频片段分别输入三通道卷积神经网络中进行训练,得到对应的网络模型;(4)对待识别的视频片段,提取原始RGB图片,并计算其对应的动态图和光流图,利用步骤(3)中训练好的三通道卷积神经网络提取特征,并得到最终动作类别的识别结果。

【技术特征摘要】
1.一种基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,包括下述步骤:(1)从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图和光流图,包括下述内容:根据原始视频,提取其RGB视频帧Irgb,通过得到的视频帧Irgb计算动态图Idyn和光流图Iflow,得到三种不同类型的训练样本,都作为网络的输入数据,三种不同的训练样本,分别对应了视频片段的颜色、空间信息,短时间运动信息以及长时间运动信息;(2)对输入图片进行裁剪操作扩增训练数据集;(3)构建三通道卷积神经网络,将最后得到的视频片段分别输入三通道卷积神经网络中进行训练,得到对应的网络模型;(4)对待识别的视频片段,提取原始RGB图片,并计算其对应的动态图和光流图,利用步骤(3)中训练好的三通道卷积神经网络提取特征,并得到最终动作类别的识别结果。2.根据权利要求1所述基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,所述步骤(1)中,从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图具体操作如下:(1.1)对于组成一个视频片段的序列S=[f1,f2,...,fn],其中n为序列长度,fi为序列中第i个视频帧,其中1≤i≤n;(1.2)对所有得到的视频帧fi按照下述心理学公式(1)进行灰度化:Gray(x,y)=R(x,y)×0.299+G(x,y)×0.587+B(x,y)×0.114(1)其中,(x,y)代表图片中的坐标,Gray(x,y)、R(x,y)、G(x,y)、B(x,y)分别代表灰度图像中的灰度值,RGB图像中的红色通道值、绿色通道值以及蓝色通道值;(1.3)通过灰度化的视频序列记为G=[g1,g2,...,gn],对于序列中的视频帧gi,1≤i≤n-1,采用公式(2)进行计算,得到视频的动态序列D=[d1,d2,...,dn]:di=gi+1-gi(2)(1.4)将序列长度为n的动态序列D分为三段,三段长度分别为:(1.5)对于每一段动态序列li,i=1,2,3,按照公式(5)在时间轴上进行平均池化,得到平均动态图:其中,dj(1≤j≤l)为步骤(1.3)中计算好的动态图;(1.6)对于得到的平均动态图,按照公式(6)组合起来:D(x,y,i)=(L(x,y,i)-min(Li))/max(Li)×255(6)其中,D(x,y,i)为所求得的动态图,min(Li)、max(Li)分别为当前平均动态图Li中的最小值和最大值。3.根据权利要求1所述基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,所述步骤(2)中,对输入图片进行裁剪操作扩增训练数据集具体包括:(2.1)对输入网络的图片进行裁剪操作,假设图片...

【专利技术属性】
技术研发人员:张见威钟佳琪
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1