一种基于CNN融合时空显著信息的视频识别分类方法技术

技术编号：13164026 阅读：63 留言：0更新日期：2016-05-10 10:04

本发明专利技术公开了一种基于CNN融合时空显著信息的视频识别分类方法，其能够提高视频分类的准确率。该方法包括步骤：(1)对待识别分类视频进行采样得到多个视频片段；(2)将每个视频片段处理为三个序列:原始图像序列、边缘图像序列和光流图像序列；(3)利用卷积神经网络模型针对原始图像序列、边缘图像序列和光流图像序列这三类数据提取特征，并基于这三类特征，计算视频片段隶属于不同类别的概率；(4)融合不同的特征计算得到的类别概率，得到视频片段的分类结果；(5)融合步骤(4)的各视频片段的分类结果，得到视频的分类结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉的
，具体地涉及一种基于CNN融合时空显著信息的视频识别分类方法。
技术介绍
随着CNN(Covolution Neural Networks，卷积神经网络）在计算机视觉领域的崛起，几乎任何图像分类相关的任务中，卷积神经网络都取得最好的结果。近两年，卷积网络在视频中的应用也在逐渐增多，主要方法可以分为三类：3D卷积网络（3-Dimension Covolution Neural Networks，3DCNN)、卷积网络结合长短期记忆（Long-Short Term Memory，LSTM)的模型以及结合光流(Op t i ca 1 F1 ow)的两流法。 Ji等人提出的3D卷积网络方法，将输入视频序列看做若干个三维块，对其进行三维卷积，然后经过卷积神经网络提取特征，再对特征进行分类。这种方法，使用三维卷积，能够很好地兼顾时空信息提取。但三维卷积运算使用参数多，故而内存需求成为其瓶颈。 Ng等人提出的卷积网络结合LSTM的方法，对输入视频的每一帧分别使用卷积神经网络提取单帧特征，再用LSTM将单帧特征串连起来，进行分类。这种方法针对单帧进行计算，所以模型参数相比于三维卷积的方法少了很多。但是这种方法需要提前训练好一个比较有效的单帧特征提取模型，同时，由于是在特征层面进行的时域融合，所以失掉了原本视频帧之间的空间域上的对应关系。 Simonyan等人的结合光流与神经网络，将单帧原始图像和多帧光流图像分别作为卷积神经网络的输入(将原始图像作为空域信息，将光流图像作为时域信息），融合两类识别结果输出最...

【技术保护点】
一种基于CNN融合时空显著信息的视频识别分类方法，其特征在于，该方法包括以下步骤：(1)对待识别分类视频进行采样得到多个视频片段；(2)将每个视频片段处理为三个序列:原始图像序列、边缘图像序列和光流图像序列；(3)利用卷积神经网络模型针对原始图像序列、边缘图像序列和光流图像序列这三类数据提取特征，并基于这三类特征，计算视频片段隶属于不同类别的概率；(4)融合不同的特征计算得到的类别概率，得到视频片段的分类结果；(5)融合步骤(4)的各视频片段的分类结果，得到视频的分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：尹宝才，王文通，王立春，孔德慧，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人