一种基于CNN融合时空显著信息的视频识别分类方法技术

技术编号:13164026 阅读:63 留言:0更新日期:2016-05-10 10:04
本发明专利技术公开了一种基于CNN融合时空显著信息的视频识别分类方法,其能够提高视频分类的准确率。该方法包括步骤:(1)对待识别分类视频进行采样得到多个视频片段;(2)将每个视频片段处理为三个序列:原始图像序列、边缘图像序列和光流图像序列;(3)利用卷积神经网络模型针对原始图像序列、边缘图像序列和光流图像序列这三类数据提取特征,并基于这三类特征,计算视频片段隶属于不同类别的概率;(4)融合不同的特征计算得到的类别概率,得到视频片段的分类结果;(5)融合步骤(4)的各视频片段的分类结果,得到视频的分类结果。

【技术实现步骤摘要】

本专利技术属于计算机视觉的
,具体地涉及一种基于CNN融合时空显著信息 的视频识别分类方法。
技术介绍
随着CNN(Covolution Neural Networks,卷积神经网络)在计算机视觉领域的崛 起,几乎任何图像分类相关的任务中,卷积神经网络都取得最好的结果。近两年,卷积网络 在视频中的应用也在逐渐增多,主要方法可以分为三类:3D卷积网络(3-Dimension Covolution Neural Networks,3DCNN)、卷积网络结合长短期记忆(Long-Short Term Memory,LSTM)的模型以及结合光流(Op t i ca 1 F1 ow)的两流法。 Ji等人提出的3D卷积网络方法,将输入视频序列看做若干个三维块,对其进行三 维卷积,然后经过卷积神经网络提取特征,再对特征进行分类。这种方法,使用三维卷积,能 够很好地兼顾时空信息提取。但三维卷积运算使用参数多,故而内存需求成为其瓶颈。 Ng等人提出的卷积网络结合LSTM的方法,对输入视频的每一帧分别使用卷积神经 网络提取单帧特征,再用LSTM将单帧特征串连起来,进行分类。这种方法针对单帧进行计 算,所以模型参数相比于三维卷积的方法少了很多。但是这种方法需要提前训练好一个比 较有效的单帧特征提取模型,同时,由于是在特征层面进行的时域融合,所以失掉了原本视 频帧之间的空间域上的对应关系。 Simonyan等人的结合光流与神经网络,将单帧原始图像和多帧光流图像分别作为 卷积神经网络的输入(将原始图像作为空域信息,将光流图像作为时域信息),融合两类识 别结果输出最终的视频类别。该方法融合了时域信息和空域信息,但仍然有提升空间。 本专利技术在两流法的基础上增加空域显著信息,融合时域显著信息(光流)和空域显 著信息(边缘),进行视频识别,提高视频分类的准确率。
技术实现思路
本专利技术的技术解决问题是:克服现有技术的不足,提供一种基于CNN融合时空显著 信息的视频识别分类方法,其能够提高视频分类的准确率。 本专利技术的技术解决方案是:这种基于CNN融合时空显著信息的视频识别分类方法, 该方法包括以下步骤: (1)对待识别分类视频进行采样得到多个视频片段; (2)将每个视频片段处理为三个序列:原始图像序列、边缘图像序列和光流图像序 列; (3)利用卷积神经网络模型针对原始图像序列、边缘图像序列和光流图像序列这 三类数据提取特征,并基于这三类特征,计算视频片段隶属于不同类别的概率; (4)融合不同的特征计算得到的类别概率,得到视频片段的分类结果; (5)融合步骤(4)的各视频片段的分类结果,得到视频的分类结果。 本专利技术在两流法的基础上增加空域显著信息,融合时域显著信息(光流)和空域显 著信息(边缘),进行视频识别,因此提高视频分类的准确率。【附图说明】 图1是本方法的流程图。 图2是卷积网络模型的结构图。【具体实施方式】 如图1所示,这种基于CNN融合时空显著信息的视频识别分类方法,该方法包括以 下步骤: (1)对待识别分类视频进行采样得到多个视频片段; (2)将每个视频片段处理为三个序列:原始图像序列、边缘图像序列和光流图像序 列; (3)利用卷积神经网络模型针对原始图像序列、边缘图像序列和光流图像序列这 三类数据提取特征,并基于这三类特征,计算视频片段隶属于不同类别的概率; (4)融合不同的特征计算得到的类别概率,得到视频片段的分类结果; (5)融合步骤(4)的各视频片段的分类结果,得到视频的分类结果。本专利技术在两流法的基础上增加空域显著信息,融合时域显著信息(光流)和空域显 著信息(边缘),进行视频识别,因此提高视频分类的准确率。 优选地,所述步骤(1)中采样时根据公式(1)-(3): Sample(video,m,n) = {Clipi,Clip2,...Clipk} (1) 1 = l+(m+l )*(n-l) =m*n+n-m (2) k = s_l+l = s-m*n_n+m+l (3)其中video为输入的视频序列,n为采样帧数,m为采样间隔,Clipi(i = l"_k)为采 样得到的视频片段,s为视频总帧数,k为采样得到的视频序列数目,1为一个片段的帧数跨 度。 优选地,在所述步骤(2)中处理为原始图像序列是对原始视频中采样得到一个原 始图像片段序列C,基于序列C的识别过程记为P c = CNN(C);处理为边缘图像序列是使用 OpenCV中的Canny边缘函数,针对原始图像片段序列的RGB三个通道分别计算边缘,生成片 段边缘图像序列E,基于序列E的识别过程记为Pe = CNN(E);处理为光流图像序列是使用 OpenCV库函数calcOpticalFlowFarneback()计算生成,然后通过孟塞尔颜色系统,将X和Y 方向的光流转换为RGB三个通道,对原始图像片段序列的相邻帧进行处理,从而得到光流图 像片段序列F,基于序列F的识别过程记为P f=CNN(F)。 优选地,在所述步骤(3)中卷积神经网络模型为公式(4)-(6): P = CNN(X) (4) Ρ=(ρι,Ρ2,···,ρν) (5) Χ=(χι,Χ2,···,χμ) (6) 其中pi为某个类别的分类概率,Ν为类别总数,X为模型的输入序列,Μ为序列的帧 数。 优选地,在所述步骤(3)中三路卷积网络分别进行训练,采用小批次的随机梯度下 降方法;训练时,取训练集中15%的视频作为验证集。 优选地,在所述步骤(4)中根据公式(7)-(8)进行融合: 其中,1? (i = 1,2,…,k)为原始图像序列经过CNN输出的类别概率向量,(i = 1, 2,…,k)为边缘图像序列经过CNN输出的类别概率向量,P| (i = l,2,…,k)为光流图像序列 经过CNN输出的类别概率向量,(i = 1,2,…,k)为片段级平均类别概率向量,Y1为片段i的 分类类别。 优选地,在所述步骤(5)中根据公式(9)-(10)进行融合: Ρν=( ΣΡα)Α (9) Yv=arg maxindexPv (10) 其中Pa为公式(7)中所求得片段级平均类别概率向量,k为片段个数,Pv为视频级平 均类别概率向量,YV为视频级分类的类别。 现在给出一个本专利技术的详细实施例。 1.时间序列采样 考虑到一般的分类视频数据集样本数不多,使用卷积网络训练出的模型很容易过 拟合,因此本专利技术首先对数据样本进行扩充。视频数据其相邻两帧之间的相关性较大,但变 化幅度不是很大,因此可利用其时间维度上的数据冗余性对视频进行间隔采样,将一次采 样输出的序列作为一个新的数据样本。又由于卷积网络模型限制输入数据的维度要相同, 故而每次采样取相同的帧数。采样规则为"每间隔m帧采一帧,每个序列采样η帧"。将视频标签赋予该视频采样 得到的各视频片段。 Sample(video,m,n) = {Clipi,Clip2,...Clipk} l = l+(m+l)*(n-l) =m*n+n-m k = s_l+l = s-m*n_n+m+l其中n为采样帧数,m为采样间隔,s为视频总帧数,k为采样得到的视频序列数目,1 为一个片段的帧数跨度。 2、三路卷积网络模型 本专利技术中的深度网络采用三路卷积网络模型结构。本文档来自技高网
...

【技术保护点】
一种基于CNN融合时空显著信息的视频识别分类方法,其特征在于,该方法包括以下步骤:(1)对待识别分类视频进行采样得到多个视频片段;(2)将每个视频片段处理为三个序列:原始图像序列、边缘图像序列和光流图像序列;(3)利用卷积神经网络模型针对原始图像序列、边缘图像序列和光流图像序列这三类数据提取特征,并基于这三类特征,计算视频片段隶属于不同类别的概率;(4)融合不同的特征计算得到的类别概率,得到视频片段的分类结果;(5)融合步骤(4)的各视频片段的分类结果,得到视频的分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:尹宝才王文通王立春孔德慧
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1