当前位置: 首页 > 专利查询>武汉大学专利>正文

基于梯度边界图和多模卷积融合的动作识别方法及系统技术方案

技术编号:18458997 阅读:38 留言:0更新日期:2018-07-18 12:47
本发明专利技术公开了一种基于梯度边界图和多模卷积融合的动作识别方法及系统,包括步骤:S1.基于原始视频构造连续帧集;S2.计算连续帧集中相邻两帧图像间的梯度边界值,从而获得梯度边界图集;S3.计算连续帧集中相邻两帧图像间的帧间光流,从而获得光流图集;S4.以原始视频的代表帧、梯度边界图集和光流图集为输入,采用卷积神经网络获得原始视频的多模CNN特征;S5.融合原始视频的多模CNN特征,得到融合特征;S6.基于融合特征,采用动作分类算法进行动作识别。本发明专利技术增加了梯度边界图这一重要的动作时空信息,并提出了多模数据卷积融合方法,保证了多模时空特征融合的一致性,提升了视频中人体动作特征描述精确性,提高了人体动作识别率。

Motion recognition method and system based on gradient boundary graph and multi-mode convolution fusion

The invention discloses an action recognition method and system based on the gradient boundary graph and multimode convolution fusion, including steps: S1. constructs continuous frames based on the original video; S2. calculates the gradient boundary value between the adjacent two frames in the continuous frame, and obtains the gradient boundary atlas; S3. calculates the adjacent two frame images in the continuous frame. The interframe optical flow between the two frames obtains the optical stream atlas; S4. uses the representative frame of the original video, the gradient boundary atlas and the light stream atlas as input, uses the convolution neural network to obtain the multi-mode CNN feature of the original video. S5. combines the multi-mode CNN features of the original video to get the fusion feature; S6. is based on the fusion feature and uses the action classification calculation. The method is used to identify the action. The invention adds the important action time and space information of the gradient boundary graph, and proposes a multimode data convolution fusion method, which ensures the consistency of the multi-mode spatiotemporal feature fusion, improves the accuracy of the human movement feature description in the video, and improves the human movement recognition rate.

【技术实现步骤摘要】
基于梯度边界图和多模卷积融合的动作识别方法及系统
本专利技术属于自动视频分析
,涉及一种基于梯度边界图和多模卷积融合的动作识别方法及系统。
技术介绍
随着计算机技术的发展,如何利用计算机自动的对视频进行分析和理解显得越来越迫切。人体作为视频数据中人们关注的主要对象,识别视频中人体行为并生成人们更容易理解的高级语义信息就成为了用计算机分析和理解视频的主要内容。从应用角度来讲,作为计算机视觉领域的重要研究内容,人体行为识别将会满足智能视频监控、智能监护、基于内容的视频分析等任务对自动分析以及智能化的需求,推动社会发展进步。
技术实现思路
本专利技术的目的是提供一种基于梯度边界图和多模卷积融合的动作识别方法及系统。为达到上述目的,本专利技术采用如下技术方案:一、基于梯度边界图和多模卷积融合的动作识别方法,包括:S1对原始视频进行采样,获取代表帧fp,从原始视频中取fp、fp的前s帧图像和fp的后s帧图像构成连续帧集Sp=[fp-s,…,fp,…,fp+s];s为经验值,其取值范围为5~10;所述的原始视频为原始视频训练样本或待识别原始视频;S2计算Sp中相邻两帧图像间的梯度边界值得到梯度边界矩阵,根据梯度边界矩阵获得梯度边界图集;所述的梯度边界矩阵Ptx和Pty分别表示ft和其后续相邻的帧图像ft+1间分别在图像横向方向和图像纵向方向的梯度边界矩阵,t=p-s,p-s+1,...,p+s-1;Ptx由元素Ptx(u,v)构成,Ptx(u,v)=[ft+1(u+1,v)-ft+1(u,v)]-[ft(u+1,v)-ft(u,v)],其中,(u,v)表示像素坐标;Ptx(u,v)表示ft中像素(u,v)在图像横向方向的梯度边界值;ft+1(u+1,v)表示ft+1中像素(u+1,v)的灰度值;ft+1(u,v)表示ft+1中像素(u,v)的灰度值;ft(u+1,v)表示ft中像素(u+1,v)的灰度值;ft(u,v)表示ft中像素(u,v)的灰度值;Pty由元素Pty(u,v)构成,Pty(u,v)=[ft+1(u,v+1)-ft+1(u,v)]-[ft(u,v+1)-ft(u,v)],其中,(u,v)表示像素坐标;Pty(u,v)表示ft中像素(u,v)在图像纵向方向的梯度边界值;ft+1(u,v+1)表示ft+1中像素(u,v+1)的灰度值;ft+1(u,v)表示ft+1中像素(u,v)的灰度值;ft(u,v+1)表示ft中像素(u,v+1)的灰度值;ft(u,v)表示ft中像素(u,v)的灰度值;S3计算连续帧集Sp中相邻两帧图像间的帧间光流,从而获得光流图集;所述的光流图集oftx和ofty表示ft和ft+1分别在图像横向方向和图像纵向方向的帧间光流,t=p-s,p-s+1,...,p+s-1;S4采用各原始视频训练样本的代表帧、梯度边界图集和光流图集训练卷积神经网络;以各原始视频训练样本和待识别原始视频的代表帧、梯度边界图集和光流图集为输入,采用训练后的卷积神经网络获得各原始视频训练样本和待识别原始视频的代表帧CNN特征Crgb、梯度边界CNN特征Cgbf和光流CNN特征Cof;S5采用各原始视频训练样本的Crgb、Cgbf和Cof训练融合公式Cfusion=ycat*k+b中参数k和b,其中,k为卷积核参数;b为偏置参数;ycat=[Cgbf,Crgb,Cof];采用训练后的融合公式融合待识别原始视频的Crgb、Cgbf和Cof,得到融合特征Cfusion;S6基于融合特征Cfusion,采用动作分类算法进行动作识别。二、基于梯度边界图和多模卷积融合的动作识别系统,包括:连续帧集构成模块,用来对原始视频进行采样,获取代表帧fp,从原始视频中取fp、fp的前s帧图像和fp的后s帧图像构成连续帧集Sp=[fp-s,…,fp,…,fp+s];s为经验值,其取值范围为5~10;所述的原始视频为原始视频训练样本或待识别原始视频;梯度边界图集获得模块,用来计算Sp中相邻两帧图像间的梯度边界值得到梯度边界矩阵,根据梯度边界矩阵获得梯度边界图集;所述的梯度边界矩阵Ptx和Pty分别表示ft和其后续相邻的帧图像ft+1间分别在图像横向方向和图像纵向方向的梯度边界矩阵,t=p-s,p-s+1,...,p+s-1;Ptx由元素Ptx(u,v)构成,Ptx(u,v)=[ft+1(u+1,v)-ft+1(u,v)]-[ft(u+1,v)-ft(u,v)],其中,(u,v)表示像素坐标;Ptx(u,v)表示ft中像素(u,v)在图像横向方向的梯度边界值;ft+1(u+1,v)表示ft+1中像素(u+1,v)的灰度值;ft+1(u,v)表示ft+1中像素(u,v)的灰度值;ft(u+1,v)表示ft中像素(u+1,v)的灰度值;ft(u,v)表示ft中像素(u,v)的灰度值;Pty由元素Pty(u,v)构成,Pty(u,v)=[ft+1(u,v+1)-ft+1(u,v)]-[ft(u,v+1)-ft(u,v)],其中,(u,v)表示像素坐标;Pty(u,v)表示ft中像素(u,v)在图像纵向方向的梯度边界值;ft+1(u,v+1)表示ft+1中像素(u,v+1)的灰度值;ft+1(u,v)表示ft+1中像素(u,v)的灰度值;ft(u,v+1)表示ft中像素(u,v+1)的灰度值;ft(u,v)表示ft中像素(u,v)的灰度值;光流图集获得模块,用来计算连续帧集Sp中相邻两帧图像间的帧间光流,从而获得光流图集;所述的光流图集oftx和ofty表示ft和ft+1分别在图像横向方向和图像纵向方向的帧间光流,t=p-s,p-s+1,...,p+s-1;CNN特征识别模块,用来采用各原始视频训练样本的代表帧、梯度边界图集和光流图集训练卷积神经网络;以各原始视频训练样本和待识别原始视频的代表帧、梯度边界图集和光流图集为输入,采用训练后的卷积神经网络获得各原始视频训练样本和待识别原始视频的代表帧CNN特征Crgb、梯度边界CNN特征Cgbf和光流CNN特征Cof;融合模块,用来采用各原始视频训练样本的Crgb、Cgbf和Cof训练融合公式Cfusion=ycat*k+b中参数k和b,其中,k为卷积核参数;b为偏置参数;ycat=[Cgbf,Crgb,Cof];采用训练后的融合公式融合待识别原始视频的Crgb、Cgbf和Cof,得到融合特征Cfusion;动作识别模块,用来基于融合特征Cfusion,采用动作分类算法进行动作识别。相对于现有技术,本专利技术的有益效果为:增加了梯度边界图这一重要的动作时空信息,并提出了多模数据卷积融合方法,保证了多模时空特征融合的一致性,提升了视频中人体动作特征描述精确性,提高了人体动作识别率。附图说明图1为本专利技术方法的具体流程示意图。具体实施方式为便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。参见图1,本专利技术实施例提供的一种基于梯度边界图和多模卷积融合的动作识别方法,具体包括以下步骤:步骤1:对原始视频F=[f1,…,fi,…,fn]进行采样,获取帧图像fp作为原始视频的代表帧,代表帧fp及其前本文档来自技高网...

【技术保护点】
1.基于梯度边界图和多模卷积融合的动作识别方法,其特征是,包括步骤:S1对原始视频进行采样,获取代表帧fp,从原始视频中取fp、fp的前s帧图像和fp的后s帧图像构成连续帧集Sp=[fp‑s,…,fp,…,fp+s];s为经验值,其取值范围为5~10;所述的原始视频为原始视频训练样本或待识别原始视频;S2计算Sp中相邻两帧图像间的梯度边界值得到梯度边界矩阵,根据梯度边界矩阵获得梯度边界图集;所述的梯度边界矩阵

【技术特征摘要】
1.基于梯度边界图和多模卷积融合的动作识别方法,其特征是,包括步骤:S1对原始视频进行采样,获取代表帧fp,从原始视频中取fp、fp的前s帧图像和fp的后s帧图像构成连续帧集Sp=[fp-s,…,fp,…,fp+s];s为经验值,其取值范围为5~10;所述的原始视频为原始视频训练样本或待识别原始视频;S2计算Sp中相邻两帧图像间的梯度边界值得到梯度边界矩阵,根据梯度边界矩阵获得梯度边界图集;所述的梯度边界矩阵Ptx和Pty分别表示ft和其后续相邻的帧图像ft+1间分别在图像横向方向和图像纵向方向的梯度边界矩阵,t=p-s,p-s+1,...,p+s-1;Ptx由元素Ptx(u,v)构成,Ptx(u,v)=[ft+1(u+1,v)-ft+1(u,v)]-[ft(u+1,v)-ft(u,v)],其中,(u,v)表示像素坐标;Ptx(u,v)表示ft中像素(u,v)在图像横向方向的梯度边界值;ft+1(u+1,v)表示ft+1中像素(u+1,v)的灰度值;ft+1(u,v)表示ft+1中像素(u,v)的灰度值;ft(u+1,v)表示ft中像素(u+1,v)的灰度值;ft(u,v)表示ft中像素(u,v)的灰度值;Pty由元素Pty(u,v)构成,Pty(u,v)=[ft+1(u,v+1)-ft+1(u,v)]-[ft(u,v+1)-ft(u,v)],其中,(u,v)表示像素坐标;Pty(u,v)表示ft中像素(u,v)在图像纵向方向的梯度边界值;ft+1(u,v+1)表示ft+1中像素(u,v+1)的灰度值;ft+1(u,v)表示ft+1中像素(u,v)的灰度值;ft(u,v+1)表示ft中像素(u,v+1)的灰度值;ft(u,v)表示ft中像素(u,v)的灰度值;S3计算连续帧集Sp中相邻两帧图像间的帧间光流,从而获得光流图集;所述的光流图集oftx和ofty表示ft和ft+1分别在图像横向方向和图像纵向方向的帧间光流,t=p-s,p-s+1,...,p+s-1;S4采用各原始视频训练样本的代表帧、梯度边界图集和光流图集训练卷积神经网络;以各原始视频训练样本和待识别原始视频的代表帧、梯度边界图集和光流图集为输入,采用训练后的卷积神经网络获得各原始视频训练样本和待识别原始视频的代表帧CNN特征Crgb、梯度边界CNN特征Cgbf和光流CNN特征Cof;S5采用各原始视频训练样本的Crgb、Cgbf和Cof训练融合公式Cfusion=ycat*k+b中参数k和b,其中,k为卷积核参数;b为偏置参数;ycat=[Cgbf,Crgb,Cof];采用训练后的融合公式融合待识别原始视频的Crgb、Cgbf和Cof,得到融合特征Cfusion;S6基于融合特征Cfusion,采用动作分类算法进行动作识别。2.基于梯度边界图和多模卷积融合的动作识别系统,...

【专利技术属性】
技术研发人员:胡瑞敏陈军陈华锋李红阳徐增敏吴华柴笑宇柯亨进马宁
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1