一种基于深度学习的视频数据时序信息提取方法及装置制造方法及图纸

技术编号：25186597 阅读：17 留言：0更新日期：2020-08-07 21:14

本发明专利技术公开了一种基于深度学习的视频数据时序信息提取方法及装置。首先提取出视频序列的光流特征和像素梯度特征，得到对应的光流特征图序列和像素梯度特征图序列。然后利用图像卷积对光流特征图序列和像素梯度特征图序列进行融合。最后利用三维卷积网络对融合特征图序列进行特征提取，得到视频时序信息。装置包括视频帧获得模块、图像尺寸预处理单元和图像颜色通道预处理模块。视频帧获得模块将视频转换为相同格式图像序列。图像序列送入图像尺寸预处理模块，将图像序列尺寸设置为相同固定尺寸。图像序列输入至图像颜色通道预处理模块，进行RGB颜色通道处理，将颜色三通道压缩成单通道。本发明专利技术有效提高了提取视频图像目标时序信息的准确度和效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的视频数据时序信息提取方法及装置
本专利技术涉及一种视频数据时序信息提取方法及实现装置，属于人工智能视频识别分析

技术介绍
随着多媒体技术、数字化设备以及5G等通信技术的快速发展和普及，视频数据量急剧增加。对海量视频数据的智能分析，一直是很多领域的研究热点。比如在安防领域、交通安全监测以及自动驾驶等，对视频智能分析有着巨大的需求。如何高效地提取视频图像中包含目标的时序信息，是视频数据智能分析的核心技术。提取视频目标的时序信息，是后续对视频行为进行定位、分类与识别等任务的第一步。目前，通常采用三维卷积神经网络来提取视频特征，如Tran等人提出使用C3D网络对视频小片段进行特征提取，用于对视频中目标行为的分类；Simonyan等人提出利用双流网络Two-Stream分别处理RGB图像得到空域信息和光流图像得到时域信息，用于视频行为的定位与识别。但是，上述方法都有各自的不足：C3D网络虽然能快速学习时空特征，但对不能充分表征视频行为；Two-Stream双流网络通过训练光流图像，可以较好的表征视频行为信息，但由于双流网络学习，其训练速度较慢。
技术实现思路
本专利技术的目的是为了解决在视频数据识别分析当中，提取视频图像目标时序信息准确度低、效率不高的技术问题，创造性地提出一种基于深度学习的视频数据时序信息提取方法及装置。本专利技术所述方法的原理是，首先提取出视频序列的光流特征和像素梯度特征，得到对应的光流特征图序列和像素梯度特征图序列。然后，利用图像卷积...

【技术保护点】
1.一种基于深度学习的视频数据时序信息提取方法，其特征在于，包括以下步骤：/n步骤1：提取出视频序列的光流特征和像素梯度特征，得到对应的光流特征图序列和像素梯度特征图序列；/n步骤2：利用图像卷积，对光流特征图序列与像素梯度特征图序列进行卷积融合，得到融合特征图序列；/n具体如下：/n所述图像卷积包括卷积核为3x3的卷积层a与卷积层b；/n首先，分别对光流特征图序列与像素梯度特征图序列的每一帧图像的四周边界填充一个像素；/n然后，对于光流特征图序列FX＝{fx

【技术特征摘要】
1.一种基于深度学习的视频数据时序信息提取方法，其特征在于，包括以下步骤：
步骤1：提取出视频序列的光流特征和像素梯度特征，得到对应的光流特征图序列和像素梯度特征图序列；
步骤2：利用图像卷积，对光流特征图序列与像素梯度特征图序列进行卷积融合，得到融合特征图序列；
具体如下：
所述图像卷积包括卷积核为3x3的卷积层a与卷积层b；
首先，分别对光流特征图序列与像素梯度特征图序列的每一帧图像的四周边界填充一个像素；
然后，对于光流特征图序列FX＝{fx1,fx2,...,fxt,...,fxn},其中，fx1,fx2,...,fxt,...,fxn分别对应光流特征图序列FX中的第1帧、第2帧、…、第t帧、…、第n帧；对于像素梯度特征图序列PX＝{px1,px2,...,pxt,...,pxn},其中，px1,px2,...,pxt,...,pxn分别对应着像素梯度特征图序列PX中的第1帧、第2帧、…、第t帧、…、第n帧；
将光流特征图序列与像素梯度特征图序列的对应帧作为输入，利用图像卷积中的Conv_a层进行卷积；
最后，将卷积得到的结果，作为Conv_b层的输入进行再次卷积，得到输出即为特征融合图，其中，步长stride＝1；最终得到一组融合特征图序列X＝{x1,x2,...,xt,...,xn},其中，x1,x2,...,xt,...,xn分别对应融合特征图序列X中的第1帧、第2帧、…、第t帧、…、第n帧；
步骤3：利用三维卷积网络，对融合特征图序列进行特征提取，得到视频数据时序信息。

2.一种基于深度学习的视频数据时序信息提取装置，其特征在于，包括视频帧获得模块、图像尺寸预处理单元和图像颜色通道预处理模块；
其中，视频帧获得模块，用于将不同格式的视频转换为相同格式图像；
图像尺寸预处理模块，用于对不同尺寸的图像数据进行处理，得到预设置尺寸大小的图像；
图像颜色通道预处理模块，用于对RGB颜色三通道进行压缩，得到单通道图像；
上述装置的工作过程如下：
视频帧获得模块将视频转换为相同格式的图像序列；图像序列送入图像尺寸预处理模块，将图像序列的尺寸设置为相同固定尺寸大小；之后，图像序列输入至图像颜色通道预处理模块，进行RGB颜色通道处理，将颜色三通道压缩成单通道。

3.如权利要求1所述的一种基于深度学习的视频数据时序信息提取方法，其特征在于，步骤1中提取视频序列的光流特征的方法如下：
利用Lucas-Kanada光流法，对待处理的视频序列相邻两帧，求取光流特征图序列，所述Lucas-Kanada光流法如下：
假设局部域Ω内，像素坐标为(x,y)，所有像素的光流恒定为(u,v)，其中，u表示x方向的速度矢量，v表示y方向的速度矢量；设局部域内有n个像素点，根据各自对应的光流(u,v)，得到以下n组方程：

其中，Ex、Ey和Et分别表示图像中像素点灰度沿x、y、t方向的梯度；
在局部域Ω内，Lucas-Kanada光流的误差式子为：
error(u,v)＝∫∫W2(x,y)·(Exu+Eyv+Et)2dxdy(2)
其中，W(...

【专利技术属性】
技术研发人员：赵清杰，邹远炳，张长春，李珊珊，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人