一种基于三维卷积神经网络的视频分类方法技术

技术编号：12179982 阅读：163 留言：0更新日期：2015-10-08 18:23

本发明专利技术公开了一种基于三维卷积神经网络的视频分类的方法，属于视频处理技术领域。此方法将视频等间隔采样为多个视频段，扩增了视频数据库，将三维视频段直接输入到3D CNN中，同时提取视频的时域和空域特征，改善了传统视频分类方法因人工选取视频特征及视频建模方式的局限性。并行分布式3D CNN多分类模型降低了3D CNN学习的复杂度，同时使得分类系统更方便的实现分布式并行计算。基于3D CNN多分类系统能够仅用较少的视频段就达到较高的识别率，并能够将不属于任意类别的视频分类为新增类别，避免了对新增类别的分类错误。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及一种视频分类的方法，属于视频处理

技术介绍
随着多媒体技术和互联网技术的发展，现在人们可W从各种渠道方便的获得许多的视频数据，但是由于该些海量的视频数据太过于庞大，如何对该些视频数据进行分类，使人们能够更加方便的获取自己感兴趣的数据成为计算机视觉领域里面非常重要同时也非常具有挑战性的研究热点之一。对视频的分类技术主要包括基于视频的视觉信息、文字信息和音频信息=种方法，视觉信息作为视频中最重要的信息，也是包含视频信息最多，最能代表视频类别的信息，因此也最值得研究。传统的基于视觉信息的视频分类技术设及到特征提取、视频建模、分类技术=个方面的内容。在特征提取环节，研究者通常自主选择视频帖的全局或局部特征来表示视频，如HSV、LBP等特征，但该种表示方法不能全面而准确的描述视频内容，也忽略了视频的时域特征。视频是连续的图像序列，因此具有时间和空间上的相关性，对视频的准确描述应该能够同时捕捉视频空域和时域两个方面的特性。=维卷积神经网络（3DCNN) 可W直接将视频作为=维数据输入，避免了人为选择视频特征的局限性，并且=维的输入模式保证了视频在时间上的连续性，为同时提取视频的时域和空域特征提供了新的途径。同时，基于机器学习的卷积神经网络避免了视频建模环节，而是从大量的视频数据中通过学习的方式得到较优的分类效果，改善了因人工建模选取的不适对分类效果的影响。虽然=维卷积神经网络在处理视频方面具有优势，但目前其应用受到数据资源不足、S维卷积神经网络的训练过程复杂等问题的制约。基于机器学习的卷积神经网络的训...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104966104.html" title="一种基于三维卷积神经网络的视频分类方法原文来自X技术">基于三维卷积神经网络的视频分类方法</a>

【技术保护点】
一种基于三维卷积神经网络3D CNN的视频分类方法，其特征在于，该方法构建了并行分布式的三维卷积神经网络多分类模型，并对视频库进行扩增处理，该方法包括以下步骤：(1)读取视频库中的视频，对视频帧进行灰度化处理；(2)通过等间隔采样，对已有视频库进行扩增处理，使原有视频库的每个视频扩增为多个固定帧数为k的视频段，且任意视频段均无重复的帧；(3)对经过扩增处理的视频库，按照原有标签信息，对每一类视频，将由该类视频经等间隔采样得到的视频段作为该类正样本，其他类视频的视频段作为负样本，制作其训练测试数据集；(4)构建C个3D CNN网络，C是数据集中的类别数，每个3D CNN以视频段作为输入，用于实现对某一类视频的二分类识别，只有两个输出节点。利用每一类视频的训练数据集训练属于该类的3D CNN，使C个3D CNN网络分别能够对C类视频进行是否属于该类的二分类识别；(5)构建并行分布式3D CNN多分类模型，将C个训练好的3D CNN进行并联，在并联末端设置分类机制，通过比较C个3D CNN对输入视频的视频段的分类效果将该输入视频分类；(6)待分类视频只需随机输入其部分视频段到此多分类网络模型中，即可判断其类别。...

【技术特征摘要】

【专利技术属性】
技术研发人员：孙建德，赵冬，李静，
申请(专利权)人：孙建德，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人