The invention discloses an action recognition method and system based on the gradient boundary graph and multimode convolution fusion, including steps: S1. constructs continuous frames based on the original video; S2. calculates the gradient boundary value between the adjacent two frames in the continuous frame, and obtains the gradient boundary atlas; S3. calculates the adjacent two frame images in the continuous frame. The interframe optical flow between the two frames obtains the optical stream atlas; S4. uses the representative frame of the original video, the gradient boundary atlas and the light stream atlas as input, uses the convolution neural network to obtain the multi-mode CNN feature of the original video. S5. combines the multi-mode CNN features of the original video to get the fusion feature; S6. is based on the fusion feature and uses the action classification calculation. The method is used to identify the action. The invention adds the important action time and space information of the gradient boundary graph, and proposes a multimode data convolution fusion method, which ensures the consistency of the multi-mode spatiotemporal feature fusion, improves the accuracy of the human movement feature description in the video, and improves the human movement recognition rate.
【技术实现步骤摘要】
基于梯度边界图和多模卷积融合的动作识别方法及系统
本专利技术属于自动视频分析
,涉及一种基于梯度边界图和多模卷积融合的动作识别方法及系统。
技术介绍
随着计算机技术的发展,如何利用计算机自动的对视频进行分析和理解显得越来越迫切。人体作为视频数据中人们关注的主要对象,识别视频中人体行为并生成人们更容易理解的高级语义信息就成为了用计算机分析和理解视频的主要内容。从应用角度来讲,作为计算机视觉领域的重要研究内容,人体行为识别将会满足智能视频监控、智能监护、基于内容的视频分析等任务对自动分析以及智能化的需求,推动社会发展进步。
技术实现思路
本专利技术的目的是提供一种基于梯度边界图和多模卷积融合的动作识别方法及系统。为达到上述目的,本专利技术采用如下技术方案:一、基于梯度边界图和多模卷积融合的动作识别方法,包括:S1对原始视频进行采样,获取代表帧fp,从原始视频中取fp、fp的前s帧图像和fp的后s帧图像构成连续帧集Sp=[fp-s,…,fp,…,fp+s];s为经验值,其取值范围为5~10;所述的原始视频为原始视频训练样本或待识别原始视频;S2计算Sp中相邻两帧图像间的梯度边界值得到梯度边界矩阵,根据梯度边界矩阵获得梯度边界图集;所述的梯度边界矩阵Ptx和Pty分别表示ft和其后续相邻的帧图像ft+1间分别在图像横向方向和图像纵向方向的梯度边界矩阵,t=p-s,p-s+1,...,p+s-1;Ptx由元素Ptx(u,v)构成,Ptx(u,v)=[ft+1(u+1,v)-ft+1(u,v)]-[ft(u+1,v)-ft(u,v)],其中,(u,v)表示像素坐标; ...
【技术保护点】
1.基于梯度边界图和多模卷积融合的动作识别方法,其特征是,包括步骤:S1对原始视频进行采样,获取代表帧fp,从原始视频中取fp、fp的前s帧图像和fp的后s帧图像构成连续帧集Sp=[fp‑s,…,fp,…,fp+s];s为经验值,其取值范围为5~10;所述的原始视频为原始视频训练样本或待识别原始视频;S2计算Sp中相邻两帧图像间的梯度边界值得到梯度边界矩阵,根据梯度边界矩阵获得梯度边界图集;所述的梯度边界矩阵
【技术特征摘要】
1.基于梯度边界图和多模卷积融合的动作识别方法,其特征是,包括步骤:S1对原始视频进行采样,获取代表帧fp,从原始视频中取fp、fp的前s帧图像和fp的后s帧图像构成连续帧集Sp=[fp-s,…,fp,…,fp+s];s为经验值,其取值范围为5~10;所述的原始视频为原始视频训练样本或待识别原始视频;S2计算Sp中相邻两帧图像间的梯度边界值得到梯度边界矩阵,根据梯度边界矩阵获得梯度边界图集;所述的梯度边界矩阵Ptx和Pty分别表示ft和其后续相邻的帧图像ft+1间分别在图像横向方向和图像纵向方向的梯度边界矩阵,t=p-s,p-s+1,...,p+s-1;Ptx由元素Ptx(u,v)构成,Ptx(u,v)=[ft+1(u+1,v)-ft+1(u,v)]-[ft(u+1,v)-ft(u,v)],其中,(u,v)表示像素坐标;Ptx(u,v)表示ft中像素(u,v)在图像横向方向的梯度边界值;ft+1(u+1,v)表示ft+1中像素(u+1,v)的灰度值;ft+1(u,v)表示ft+1中像素(u,v)的灰度值;ft(u+1,v)表示ft中像素(u+1,v)的灰度值;ft(u,v)表示ft中像素(u,v)的灰度值;Pty由元素Pty(u,v)构成,Pty(u,v)=[ft+1(u,v+1)-ft+1(u,v)]-[ft(u,v+1)-ft(u,v)],其中,(u,v)表示像素坐标;Pty(u,v)表示ft中像素(u,v)在图像纵向方向的梯度边界值;ft+1(u,v+1)表示ft+1中像素(u,v+1)的灰度值;ft+1(u,v)表示ft+1中像素(u,v)的灰度值;ft(u,v+1)表示ft中像素(u,v+1)的灰度值;ft(u,v)表示ft中像素(u,v)的灰度值;S3计算连续帧集Sp中相邻两帧图像间的帧间光流,从而获得光流图集;所述的光流图集oftx和ofty表示ft和ft+1分别在图像横向方向和图像纵向方向的帧间光流,t=p-s,p-s+1,...,p+s-1;S4采用各原始视频训练样本的代表帧、梯度边界图集和光流图集训练卷积神经网络;以各原始视频训练样本和待识别原始视频的代表帧、梯度边界图集和光流图集为输入,采用训练后的卷积神经网络获得各原始视频训练样本和待识别原始视频的代表帧CNN特征Crgb、梯度边界CNN特征Cgbf和光流CNN特征Cof;S5采用各原始视频训练样本的Crgb、Cgbf和Cof训练融合公式Cfusion=ycat*k+b中参数k和b,其中,k为卷积核参数;b为偏置参数;ycat=[Cgbf,Crgb,Cof];采用训练后的融合公式融合待识别原始视频的Crgb、Cgbf和Cof,得到融合特征Cfusion;S6基于融合特征Cfusion,采用动作分类算法进行动作识别。2.基于梯度边界图和多模卷积融合的动作识别系统,...
【专利技术属性】
技术研发人员:胡瑞敏,陈军,陈华锋,李红阳,徐增敏,吴华,柴笑宇,柯亨进,马宁,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。