一种基于深度学习的视频数据时序信息提取方法及装置制造方法及图纸

技术编号:25186597 阅读:17 留言:0更新日期:2020-08-07 21:14
本发明专利技术公开了一种基于深度学习的视频数据时序信息提取方法及装置。首先提取出视频序列的光流特征和像素梯度特征,得到对应的光流特征图序列和像素梯度特征图序列。然后利用图像卷积对光流特征图序列和像素梯度特征图序列进行融合。最后利用三维卷积网络对融合特征图序列进行特征提取,得到视频时序信息。装置包括视频帧获得模块、图像尺寸预处理单元和图像颜色通道预处理模块。视频帧获得模块将视频转换为相同格式图像序列。图像序列送入图像尺寸预处理模块,将图像序列尺寸设置为相同固定尺寸。图像序列输入至图像颜色通道预处理模块,进行RGB颜色通道处理,将颜色三通道压缩成单通道。本发明专利技术有效提高了提取视频图像目标时序信息的准确度和效率。

【技术实现步骤摘要】
一种基于深度学习的视频数据时序信息提取方法及装置
本专利技术涉及一种视频数据时序信息提取方法及实现装置,属于人工智能视频识别分析

技术介绍
随着多媒体技术、数字化设备以及5G等通信技术的快速发展和普及,视频数据量急剧增加。对海量视频数据的智能分析,一直是很多领域的研究热点。比如在安防领域、交通安全监测以及自动驾驶等,对视频智能分析有着巨大的需求。如何高效地提取视频图像中包含目标的时序信息,是视频数据智能分析的核心技术。提取视频目标的时序信息,是后续对视频行为进行定位、分类与识别等任务的第一步。目前,通常采用三维卷积神经网络来提取视频特征,如Tran等人提出使用C3D网络对视频小片段进行特征提取,用于对视频中目标行为的分类;Simonyan等人提出利用双流网络Two-Stream分别处理RGB图像得到空域信息和光流图像得到时域信息,用于视频行为的定位与识别。但是,上述方法都有各自的不足:C3D网络虽然能快速学习时空特征,但对不能充分表征视频行为;Two-Stream双流网络通过训练光流图像,可以较好的表征视频行为信息,但由于双流网络学习,其训练速度较慢。
技术实现思路
本专利技术的目的是为了解决在视频数据识别分析当中,提取视频图像目标时序信息准确度低、效率不高的技术问题,创造性地提出一种基于深度学习的视频数据时序信息提取方法及装置。本专利技术所述方法的原理是,首先提取出视频序列的光流特征和像素梯度特征,得到对应的光流特征图序列和像素梯度特征图序列。然后,利用图像卷积对光流特征图序列和像素梯度特征图序列进行融合。最后,利用三维卷积网络对融合特征图序列进行特征提取,得到视频时序信息。另一方面,本专利技术还提供了一种视频数据时序信息的提取装置,用于实现上述方法在实际中的应用。本专利技术采取的技术方案如下:一种基于深度学习的视频数据时序信息提取方法,包括以下步骤:步骤1:对待处理的视频序列的相邻两帧,利用光流法求取光流特征,得到光流特征图序列;同时,对视频序列的每一帧,利用HOG特征提取算法,得到像素梯度特征图序列;步骤2:利用图像卷积,对光流特征图序列与像素梯度特征图序列进行两次卷积融合,得到融合特征图序列;步骤3:利用三维卷积网络C3D,对融合特征图序列进行特征提取,得到视频数据时序信息。一种基于深度学习的视频数据时序信息提取装置,包括视频帧获得模块、图像尺寸预处理模块和图像颜色通道预处理模块。其中,视频帧获得模块,用于将不同格式的视频转换为相同格式图像;图像尺寸预处理模块,用于对不同尺寸的图像数据进行处理,得到预设置尺寸大小的图像;图像颜色通道预处理模块,用于对RGB颜色三通道进行压缩,得到单通道图像。上述装置的工作过程如下:视频帧获得模块将视频转换为相同格式的图像序列。图像序列送入图像尺寸预处理模块,将图像序列的尺寸设置为相同固定尺寸大小。之后,图像序列输入至输入图像颜色通道预处理模块,进行RGB颜色通道处理,将颜色三通道压缩成单通道。有益效果与现有技术相比,本专利技术包括以下优点:(1)采用统一视频帧获得单元,可将不同格式的视频转换为相同格式图像,提高工作效率;(2)对视频序列提取光流特征图序列和像素梯度特征序列,并对光流特征图序列和像素梯度特征序列进行融合,能够得到含有丰富的目标运动信息的视频序列;(3)对融合特征图序列进行C3D网络处理,可以提取含有运动信息的时序信息,同时将冗余的视频序列信息去除,提高时序特征的准确度,同时提高视频特征的提取效率,进而使得本专利技术的实际应用效果更佳;附图说明图1是对视频序列提取视频时序信息流程图;图2是图像卷积模块的卷积结构图;图3是对特征序列进行融合的流程图;图4是融合特征图效果;图5是C3D网络的网络结构图;图6是视频处理模块图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。实施例首先提取出视频序列的光流特征和像素梯度特征,得到对应的光流特征图序列和像素梯度特征图序列。然后,利用图像卷积对光流特征图序列和像素梯度特征图序列进行融合。最后,利用三维卷积网络对融合特征图序列进行特征提取,得到视频时序信息。如图1所示,为本专利技术所述的基于深度学习的视频数据时序信息提取方法的一个实施例的示意流程框图,包括如下步骤:步骤1:对待处理的视频序列的相邻两帧,利用光流法求取光流特征,得到光流特征图序列。具体地,利用Lucas-Kanada光流法,对视频序列相邻两帧,求取光流特征图序列。其中,所述Lucas-Kanada光流法如下:假设局部域Ω内,像素坐标为(x,y),所有像素的光流恒定为(u,v),其中,u表示x方向的速度矢量,v表示y方向的速度矢量。设局部域内有n个像素点,根据各自对应的光流(u,v),得到以下n组方程:其中,Ex、Ey和Et分别表示图像中像素点灰度沿x、y、t方向的梯度。在局部域Ω内,Lucas-Kanada光流的误差式子为:error(u,v)=∫∫W2(x,y)(Exu+Eyv+Et)2dxdy(2)其中,W(x,y)={wi|i=1,2,...,n}是局部域内各像素点的权重。对Lucas-Kanada光流误差式子进行离散化处理:error(u,v)=∑W2(x,y)(Exu+Eyv+Et)2(3)设▽E(x,y)=(Ex,Ey)T,▽E(x,y)表示E(x,y)在x和y方向上的梯度,T表示矩阵转置,上式的解由最小二乘法得到:其中,A表示矩阵参数,b表示一维矩阵。求解得到:其中,W=diag(W(x1,y1),W(x2,y2),...,W(xn,yn))(7)其中,▽E(xn,yn)表示E(xn,yn)梯度,表示E(xn,yn)在t处的导数。同时,对视频序列的每一帧,利用HOG特征提取算法,得到像素梯度特征图序列。具体如下:首先,对视频帧进行Gamma和颜色归一化操作。其中,Gamma归一化公式为:I(x,y)=I(x,y)gamma(9)I(x,y)表示像素点。然后,利用水平和垂直微分模板,计算视频帧中每个像素点的梯度大小和方向。具体如下:设Gx(x,y)为水平方向梯度值,Gy(x,y)为垂直方向梯度值,H(x,y)为像素点I(x,y)的灰度值,G(x,y)为幅值大小,则梯度大小计算方法为:Gx(x,y)=H(x+1,y)-H(x-1,y)(10)Gy(x,y)=H(x,y+1)-H(x,y-1)(11)梯度方向α(x,y)为:最后,对视频帧图像划分为多个小区域,这些小区域称为细胞单元(Cell)。对每个Cell构建梯度方向直方图,并本文档来自技高网...

【技术保护点】
1.一种基于深度学习的视频数据时序信息提取方法,其特征在于,包括以下步骤:/n步骤1:提取出视频序列的光流特征和像素梯度特征,得到对应的光流特征图序列和像素梯度特征图序列;/n步骤2:利用图像卷积,对光流特征图序列与像素梯度特征图序列进行卷积融合,得到融合特征图序列;/n具体如下:/n所述图像卷积包括卷积核为3x3的卷积层a与卷积层b;/n首先,分别对光流特征图序列与像素梯度特征图序列的每一帧图像的四周边界填充一个像素;/n然后,对于光流特征图序列FX={fx

【技术特征摘要】
1.一种基于深度学习的视频数据时序信息提取方法,其特征在于,包括以下步骤:
步骤1:提取出视频序列的光流特征和像素梯度特征,得到对应的光流特征图序列和像素梯度特征图序列;
步骤2:利用图像卷积,对光流特征图序列与像素梯度特征图序列进行卷积融合,得到融合特征图序列;
具体如下:
所述图像卷积包括卷积核为3x3的卷积层a与卷积层b;
首先,分别对光流特征图序列与像素梯度特征图序列的每一帧图像的四周边界填充一个像素;
然后,对于光流特征图序列FX={fx1,fx2,...,fxt,...,fxn},其中,fx1,fx2,...,fxt,...,fxn分别对应光流特征图序列FX中的第1帧、第2帧、…、第t帧、…、第n帧;对于像素梯度特征图序列PX={px1,px2,...,pxt,...,pxn},其中,px1,px2,...,pxt,...,pxn分别对应着像素梯度特征图序列PX中的第1帧、第2帧、…、第t帧、…、第n帧;
将光流特征图序列与像素梯度特征图序列的对应帧作为输入,利用图像卷积中的Conv_a层进行卷积;
最后,将卷积得到的结果,作为Conv_b层的输入进行再次卷积,得到输出即为特征融合图,其中,步长stride=1;最终得到一组融合特征图序列X={x1,x2,...,xt,...,xn},其中,x1,x2,...,xt,...,xn分别对应融合特征图序列X中的第1帧、第2帧、…、第t帧、…、第n帧;
步骤3:利用三维卷积网络,对融合特征图序列进行特征提取,得到视频数据时序信息。


2.一种基于深度学习的视频数据时序信息提取装置,其特征在于,包括视频帧获得模块、图像尺寸预处理单元和图像颜色通道预处理模块;
其中,视频帧获得模块,用于将不同格式的视频转换为相同格式图像;
图像尺寸预处理模块,用于对不同尺寸的图像数据进行处理,得到预设置尺寸大小的图像;
图像颜色通道预处理模块,用于对RGB颜色三通道进行压缩,得到单通道图像;
上述装置的工作过程如下:
视频帧获得模块将视频转换为相同格式的图像序列;图像序列送入图像尺寸预处理模块,将图像序列的尺寸设置为相同固定尺寸大小;之后,图像序列输入至图像颜色通道预处理模块,进行RGB颜色通道处理,将颜色三通道压缩成单通道。


3.如权利要求1所述的一种基于深度学习的视频数据时序信息提取方法,其特征在于,步骤1中提取视频序列的光流特征的方法如下:
利用Lucas-Kanada光流法,对待处理的视频序列相邻两帧,求取光流特征图序列,所述Lucas-Kanada光流法如下:
假设局部域Ω内,像素坐标为(x,y),所有像素的光流恒定为(u,v),其中,u表示x方向的速度矢量,v表示y方向的速度矢量;设局部域内有n个像素点,根据各自对应的光流(u,v),得到以下n组方程:



其中,Ex、Ey和Et分别表示图像中像素点灰度沿x、y、t方向的梯度;
在局部域Ω内,Lucas-Kanada光流的误差式子为:
error(u,v)=∫∫W2(x,y)·(Exu+Eyv+Et)2dxdy(2)
其中,W(...

【专利技术属性】
技术研发人员:赵清杰邹远炳张长春李珊珊
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1