一种基于深度神经网络的数字视频特征提取方法技术

技术编号：15501878 阅读：132 留言：0更新日期：2017-06-03 23:02

本发明专利技术公开了一种基于深度神经网络的数字视频特征提取方法，所述方法包括以下步骤：训练一个去噪编码网络实现对视频的初始描述符的维数约简，将条件生成模型和编码器级联构成一组基本的特征提取模块；连续训练多组特征提取模块，按训练先后顺序对所得模块做自底向上的堆叠构成深度神经网络；训练后处理网络，将其置于深度神经网络的顶部，用以优化视频描述符的鲁棒性和区分性。本方法通过深度神经网将视频特征提取为简短的视频描述符，该视频描述符能够实现对视频感知内容的摘要化描述，同时具有良好的鲁棒性和区分性，可实现高效、准确的视频内容识别。

A method of digital video feature extraction based on depth neural network

The invention discloses a method for extracting digital video feature depth based on neural network, the method comprises the following steps: training a descriptor for video denoising initial encoding network dimensionality reduction, conditional generation model and cascade encoder constitute a group of basic feature extraction module; continuous training group feature extraction module in order to do the training, from the bottom up a stack depth of neural network for the postprocessing module; training network, will be at the top of the depth of the neural network to optimize video descriptors robustness and discrimination. By this method the depth of the neural network will be video feature extraction for short video descriptors, the video descriptors can be achieved on the video perceptual content abstract description, and has good robustness and discriminability, can achieve efficient and accurate video content recognition.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度神经网络的数字视频特征提取方法
本专利技术涉及信号与信息处理
，尤其涉及一种基于深度神经网络的数字视频特征提取方法。
技术介绍
视频数据相对于图片数据具有数据量大、数据具有时序联系特性以及数据冗余较大的特点。视频版权保护、视频检索以及视频数据化管理常常需要一种唯一且极其紧凑的描述符作为视频的内容标签。生成视频描述符的最简单方法是独立从各代表帧中提取描述符，将其级联构成整段视频的描述符。常见方法有统计学法[1]，亮度梯度法[2]和彩色相关性法[3]。但是这类方法无法刻画视觉信息的时序特性。为了实现对视频时空特征的提取，文献[4]相邻块沿时间和空间方向上的亮度差值作为视频描述符，文献[5]以特征点的轨迹作为视频描述符。此外，三维信号变换[6]、张量分解[7]和光流法[8]也都被用于构造能够反映视频时空属性的描述符。专利技术人在实现本专利技术的过程中，发现现有技术中至少存在以下缺点和不足：现有的特征提取方法具有冗余偏大和时序失真敏感的缺点。而且大部分依赖于人工设计，但人工设计的特征提取方法难以捕捉视频信息在时空方向上的本质属性。
技术实现思路
本专利技术提供了一种基于深度神经网络的数字视频特征提取方法，本方法通过深度神经网将视频特征提取为简短的视频描述符，该视频描述符能够实现对视频感知内容的摘要化描述，同时具有良好的鲁棒性和区分性，可实现高效、准确的视频内容识别，详见下文描述：一种基于深度神经网络的数字视频特征提取方法，所述方法包括以下步骤：训练一个去噪编码网络实现对视频的初始描述符的维数约简，将条件生成模型和编码器级联构成一组基本的特征提取模块；...

【技术保护点】
一种基于深度神经网络的数字视频特征提取方法，其特征在于，所述方法包括以下步骤：训练一个去噪编码网络实现对视频的初始描述符的维数约简，将条件生成模型和编码器级联构成一组基本的特征提取模块；连续训练多组特征提取模块，按训练先后顺序对所得模块做自底向上的堆叠构成深度神经网络；训练后处理网络，将其置于深度神经网络的顶部，用以优化视频描述符的鲁棒性和区分性。

【技术特征摘要】
1.一种基于深度神经网络的数字视频特征提取方法，其特征在于，所述方法包括以下步骤：训练一个去噪编码网络实现对视频的初始描述符的维数约简，将条件生成模型和编码器级联构成一组基本的特征提取模块；连续训练多组特征提取模块，按训练先后顺序对所得模块做自底向上的堆叠构成深度神经网络；训练后处理网络，将其置于深度神经网络的顶部，用以优化视频描述符的鲁棒性和区分性。2.根据权利要求1所述的一种基于深度神经网络的数字视频特征提取方法，其特征在于，所述方法还包括：对输入视频做预处理，通过条件生成模型来表达视频内容的时空联系。3.根据权利要求2所述的一种基于深度神经网络的数字视频特征提取方法，其特征在于，所述对输入视频做预处理，通过条件生成模型来表达视频内容的时空联系的步骤具体为：对视频做低通滤波平滑及降采样，将每一帧图片大小压缩到满足神经网络输入层尺寸需要，对降采样后的视频做正则化，使每一帧的像素平均值为零，方差为1；将视频数据输入条件玻尔兹曼机，将预处理视频的每一帧像素置为可见层的神经元，对CRBM网络进行训练。4.根据权利要求1所述的一种基于深度神经网络的数字视频特征提取方法，其特征在于，所述训练一个去噪编码网络实现对视频的初始描述符的维数约简，将条件生成模型和编码器级联...

【专利技术属性】
技术研发人员：李岳楠，陈学票，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人