当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于卷积神经网络的特定视频检测方法技术

技术编号:15090392 阅读:471 留言:0更新日期:2017-04-07 19:04
本发明专利技术提供了一种基于卷积神经网络的特定视频检测方法,包括以下步骤:利用现有标注的正负样本数据,对预先使用大规模数据集训练得到的卷积神经网络进行精细调整,得到适用于特定视频检测的卷积神经网络模型;利用该网络模型直接对视频关键帧进行特征提取并进行预测,根据预测结果判断是否为特定视频。本发明专利技术充分利用了卷积神经网络能够在大规模视频数据中自动学习视频特征的优势,考虑了特征学习与分类学习两个任务的相互作用关系,大大提高了特定视频检测的准确率。

A specific video detection method based on convolution neural network

The present invention provides a specific video convolution detection based on neural network, which comprises the following steps: using the existing sample data annotation of positive and negative, in advance to make fine adjustments in the convolutional neural network trained using large-scale data, get the convolutional neural network model is applied to specific video detection; direct feature extraction of video key frames and predicted by the network model, according to the forecast results to determine whether a particular video. The invention makes full use of the convolutional neural network can automatically learn video features in large-scale video data advantage, considering interaction between feature learning and classification learning two tasks, greatly improves the accuracy of specific video detection.

【技术实现步骤摘要】

本专利技术涉及视频识别与检索
,具体涉及一种基于卷积神经网络的特定视频检测方法。
技术介绍
近年来,随着互联网技术与多媒体技术的迅速发展,网络上出现了海量的视频内容,而各种敏感内容的出现已经严重危害国家安全和人民群众的正常生活,因此如何利用计算机来进行有效地监管,迅速准确地检测特定视频,成为了一个急待解决的关键问题。传统的特定视频检测的方法一般是基于各种视觉特征,如词袋(BagofWords,BoW)特征。然而人工设计的这种特征没有充分利用大数据的优势,对于视频信息的表示具有一定的局限性。而深度神经网络,尤其是卷积神经网络(ConvolutionalNeuralNetwork,CNN)作为一种有效的分类模型已经在计算机视觉的多个领域取得了很大成功。因此,基于卷积神经网络的特定视频检测方法受到了了研究者的广泛关注,其充分利用大数据的优势,在海量视频数据中自动学习视频的视觉语义特征,极大地提高了特定视频检测的准确率。典型的特定视频检测方法主要包括三个阶段:第一阶段,对于视频关键帧提取特征,特征提取的方式有两种:一种是密集型的特征提取,一种是针对兴趣点进行特征提取。第二阶段,将这些提取的特征聚合在一起,形成一个固定大小的特征向量用于表示视频的每一帧。一种普遍使用的方法是利用学习得到的词典对特征进行量化,并得到表示视频关键帧的直方图向量,即BoW特征。第三阶段,基于BoW特征训练得到一个能够进行特定视频检测的分类器,如支持向量机(SupportVectorMachine,SVM)。该方法对特定视频进行检测的效果优劣主要取决于视频特征的优劣。该特征通常依赖于研究者的先验知识,对视频信息的表示具有一定的局限性。除了特征表示的局限性以外,该方法的三个阶段是分别学习或设计的,而对三个阶段之间的相互作用没有很好地进行探索研究。近年来,深度神经网络在计算机视觉的多个领域均有突出表现,例如图像分类、目标识别、人脸识别等。深度神经网络算法是一种端到端的学习算法,其由原始的像素值直接映射到分类输出,解决了传统特定视频检测方法存在的问题。深度神经网络可以充分利用海量视频数据自动进行特征的学习,相比于手工设计的特征能够更好地对视频概念进行表示。其次,深度神经网络这种端到端的学习过程将特征表示和分类器训练两个阶段有机地结合在一起,不仅简化了学习过程,同时考虑了二者之间的相互关系,有效地提升了特定视频的检测准确率。
技术实现思路
针对现有技术的不足,本专利技术提出了一种基于卷积神经网络的特定视频检测方法,能够从大规模视频数据中自动学习视频的特征表示,考虑了特征学习与分类学习两个任务的相互作用关系,将二者有机地结合在一起,极大提高了特定视频检测的准确率。为达到以上目的,本专利技术采用的技术方案如下:一种基于卷积神经网络的特定视频检测方法,用于分析理解视频内容并判断是否为特定视频,包括以下步骤:(1)训练卷积神经网络模型:利用标注的正样本和负样本对预先使用大规模数据集训练得到的卷积神经网络模型进行精细调整,从而得到适用于特定视频检测的卷积神经网络模型;(2)特定视频检测:利用步骤(1)中训练得到的卷积神经网络模型对待识别的视频关键帧直接计算出特征,并进行预测来判断是否为特定视频。进一步,上述一种基于卷积神经网络的特定视频检测方法,所述步骤(1)中,训练卷积神经网络模型的第一步是预训练(pre-training)卷积神经网络。利用大规模的数据集训练得到卷积神经网络模型,在训练过程中仅使用图像级别的标注信息。进一步,上述一种基于卷积神经网络的特定视频检测方法,所述步骤(1)中,训练卷积神经网络模型的第二步是精细调整(fine-tuning)卷积神经网络模型。根据目标任务,利用已标注的视频信息对卷积神经网络模型的参数进行调整,使其能够更好地适用于目标任务。进一步,上述一种基于卷积神经网络的特定视频检测方法,所述步骤(2)中,将待识别的视频抽取关键帧,将视频关键帧作为步骤(1)中训练得到的卷积神经网络模型的输入,根据卷积神经网络模型的输出计算得到视频关键帧的预测得分,以此来判断是否为特定视频。本专利技术的效果在于:与现有方法相比,本专利技术能够充分利用大量的视频数据来自动学习特征,学习得到视频的高层特征表示,使得特定视频检测的效果有较大幅度的提升。本专利技术之所以具有上述专利技术效果,其原因在于:一方面,本方法与传统方法的最大区别在于视频的特征表示,本方法是从大量视频数据中自动学习特征,而传统方法则采用手工设计的特征,在实际应用和研究中发现自动学习的特征明显优于人工设计的特征。另一方面,本方法将传统识别系统中的特征学习和分类学习有机地结合在一起,进行联合优化,在最大程度上发挥了二者的联合协作性能。附图说明图1是本专利技术的基于卷积神经网络的特定视频检测的流程示意图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步详细的描述。本专利技术的一种基于卷积神经网络的特定视频检测方法,其流程如图1所示,具体包含以下步骤:(1)预训练CNN模型阶段本专利技术利用ImageNet等大规模数据集训练得到CNN模型,在训练过程中仅使用图像级别的标注信息。卷积神经网络是多层感知机(Multi-layerperceptron,MLP)的一个变种模型,是从生物学概念中演化而来。CNN通过加强神经网络中相邻层之间节点的局部连接模式来挖掘自然图像的空间局部关联信息,能够更好地获得自然图像的深度特征,适用于识别和分类等任务。CNN模型包含N层卷积层和M层全连接层,其中N,M>1。本专利技术利用ImageNet等大规模数据集对CNN模型进行训练的过程,本质上是CNN模型参数不断调整向训练数据拟合的过程。具体地,模型输入是视频帧图像,在训练过程中,利用前向传播算法和反向传播(back-propagation)算法对模型中的参数进行学习优化。这一步是预训练阶段,经过这一阶段,CNN模型已经具有一定的视频识别能力,但是还需要针对特定视频检测任务进行调整,以使得其特定视频检测的准确率有进一步提高。(2)精细调整CNN模型阶段深度学习具有较强的迁移学习能力,能够充分利用目标任务的标注数据学习丰富的特征,使其更好地适用于目标任务。在上一阶段已经训练得到适用于大规模视觉概念集合分类任务的卷积神经网络模型,接下来的主要任务是如何将学习到的特征迁移到特定视频检测任务上,达到学习特定视频概念的目的。首先,选取用于训练的正样本,正样本选用标注好的特定视频的关键帧,负样本的来源是互联网上非本文档来自技高网
...

【技术保护点】
一种基于卷积神经网络的特定视频检测方法,包括以下步骤:(1)利用标注的正样本和负样本对预先使用大规模数据集训练得到的卷积神经网络模型进行精细调整,从而得到适用于特定视频检测的卷积神经网络模型;(2)利用步骤(1)中训练得到的卷积神经网络模型对待识别的视频关键帧直接计算出特征并进行预测,进而根据预测得分判断是否为特定视频。

【技术特征摘要】
1.一种基于卷积神经网络的特定视频检测方法,包括以下步骤:
(1)利用标注的正样本和负样本对预先使用大规模数据集训练得到的卷积神经网络模型
进行精细调整,从而得到适用于特定视频检测的卷积神经网络模型;
(2)利用步骤(1)中训练得到的卷积神经网络模型对待识别的视频关键帧直接计算出特
征并进行预测,进而根据预测得分判断是否为特定视频。
2.如权利要求1所述的方法,其特征在于,所述步骤(1)中卷积神经网络模型的训练过程
包括两步,第一步是预训练卷积神经网络模型,第二步是精细调整卷积神经网络模型。
3.如权利要求2所述的方法,其特征在于,所述预训练卷积神经网络模型,利用大规模数据
集训练得到卷积神经网络模型,在训练过程中仅使用图像级别的标注信息,该过程本质上
是卷积神经网络模型参数不断调整向训练数据拟合的过程。
4.如权利要求3所述的方法,其特征在于,所述预训练卷积神经网络模型,在训练过程中利
用前向传播算法和反向传播算法对模型中的参数进行学习优化。
5.如权利要求2所述的方法,其特征在于,所述精细调整卷积神经网络模型的方法是:首先,
选取用于训练的正样本,正样本选用标注好的特定视频的关键帧,负样本的来源是互联网
上非特定视频的关键帧;然后采用反向传播算法在选...

【专利技术属性】
技术研发人员:彭宇新何相腾
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1