The invention discloses a human action recognition method based on the multi-channel image feature fusion of deep learning, including: (1) extracting the original RGB picture from the video, and calculating the dynamic map and the optical flow chart of the segmented video through the RGB picture; (2) the input picture is cut and exercises to expand the training data set; (3) the construction of the convolution of the three channel. Neural network, the final video clip is input into the three channel convolution neural network to train to get the corresponding network model. (4) to treat the identified video clip, extract the original RGB picture, and calculate its corresponding dynamic map, optical flow graph, and get the recognition result of the final action category. The invention uses the three channel convolution neural network to learn the essential features of the original input data of different forms, and carries out multichannel dense fusion operation on the three forms of data in the middle of the network, so as to improve the expressive ability of the features and achieve the purpose of sharing the multi-channel information and high accuracy.
【技术实现步骤摘要】
基于深度学习的多通道图像特征融合的人体动作识别方法
本专利技术涉及图像处理与分析
,更具体地说,涉及一种基于深度学习的多通道图像特征融合的人体动作识别方法。
技术介绍
视频中的人体动作识别是指通过分析处理视频中的视觉特征信息来进行人体动作识别、分类的一种技术。这种技术广泛应用于智能视频监控、行为分析、视频检索等方面。传统的人体动作识别都是基于手工设计的特征训练分类器进行动作分类。当前,传统的方法效果最好的策略是通过提取基于改进稠密轨迹(improvedDenseTrajectory,iDT)的特征,结合费舍尔向量(FisherVector,FV)建模进行人体工作的识别。近年来,随着深度学习的发展迅速,卷积神经网络(ConvolutionalNeuralNetwork,CNN)在计算机视觉领域取得了很大的进步,其自动学习到的特征已经超过了传统的手工设计特征。这一网络结构也被广泛应用于视频中的人体动作识别。比如,当前有一种双流卷积网络结构在人体动作识别领域取得较好的性能。这一网络结构通过事先计算好的光流图片以及从视频中提取出来的RGB原图,堆叠而成序列组,然后分别通过两个结构大致相同的卷积网络进行特征提取,自动地学习视频的特征,最后通过平均的方法融合两个通道预测,得出识别结果。虽然基于手工特征的传统方法和基于深度学习的方法都在人体动作识别取得不错的分类性能,但是由于人体动作的复杂性、视频中背景因素的干扰、个别动作类内差大而类间差很小等原因,当前的识别算法都存在一定的不足,无法实现高精度的人体动作识别。因此,需要设计一种新的自动提取特征的方法去学习视频中的 ...
【技术保护点】
1.一种基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,包括下述步骤:(1)从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图和光流图,包括下述内容:根据原始视频,提取其RGB视频帧Irgb,通过得到的视频帧Irgb计算动态图Idyn和光流图Iflow,得到三种不同类型的训练样本,都作为网络的输入数据,三种不同的训练样本,分别对应了视频片段的颜色、空间信息,短时间运动信息以及长时间运动信息;(2)对输入图片进行裁剪操作扩增训练数据集;(3)构建三通道卷积神经网络,将最后得到的视频片段分别输入三通道卷积神经网络中进行训练,得到对应的网络模型;(4)对待识别的视频片段,提取原始RGB图片,并计算其对应的动态图和光流图,利用步骤(3)中训练好的三通道卷积神经网络提取特征,并得到最终动作类别的识别结果。
【技术特征摘要】
1.一种基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,包括下述步骤:(1)从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图和光流图,包括下述内容:根据原始视频,提取其RGB视频帧Irgb,通过得到的视频帧Irgb计算动态图Idyn和光流图Iflow,得到三种不同类型的训练样本,都作为网络的输入数据,三种不同的训练样本,分别对应了视频片段的颜色、空间信息,短时间运动信息以及长时间运动信息;(2)对输入图片进行裁剪操作扩增训练数据集;(3)构建三通道卷积神经网络,将最后得到的视频片段分别输入三通道卷积神经网络中进行训练,得到对应的网络模型;(4)对待识别的视频片段,提取原始RGB图片,并计算其对应的动态图和光流图,利用步骤(3)中训练好的三通道卷积神经网络提取特征,并得到最终动作类别的识别结果。2.根据权利要求1所述基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,所述步骤(1)中,从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图具体操作如下:(1.1)对于组成一个视频片段的序列S=[f1,f2,...,fn],其中n为序列长度,fi为序列中第i个视频帧,其中1≤i≤n;(1.2)对所有得到的视频帧fi按照下述心理学公式(1)进行灰度化:Gray(x,y)=R(x,y)×0.299+G(x,y)×0.587+B(x,y)×0.114(1)其中,(x,y)代表图片中的坐标,Gray(x,y)、R(x,y)、G(x,y)、B(x,y)分别代表灰度图像中的灰度值,RGB图像中的红色通道值、绿色通道值以及蓝色通道值;(1.3)通过灰度化的视频序列记为G=[g1,g2,...,gn],对于序列中的视频帧gi,1≤i≤n-1,采用公式(2)进行计算,得到视频的动态序列D=[d1,d2,...,dn]:di=gi+1-gi(2)(1.4)将序列长度为n的动态序列D分为三段,三段长度分别为:(1.5)对于每一段动态序列li,i=1,2,3,按照公式(5)在时间轴上进行平均池化,得到平均动态图:其中,dj(1≤j≤l)为步骤(1.3)中计算好的动态图;(1.6)对于得到的平均动态图,按照公式(6)组合起来:D(x,y,i)=(L(x,y,i)-min(Li))/max(Li)×255(6)其中,D(x,y,i)为所求得的动态图,min(Li)、max(Li)分别为当前平均动态图Li中的最小值和最大值。3.根据权利要求1所述基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,所述步骤(2)中,对输入图片进行裁剪操作扩增训练数据集具体包括:(2.1)对输入网络的图片进行裁剪操作,假设图片...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。