一种基于双路分形网络和LSTM的视频描述方法技术

技术编号：15792442 阅读：92 留言：0更新日期：2017-07-10 00:40

本发明专利技术公开了一种基于双路分形网络和LSTM的视频描述方法。所述方法首先对待描述视频进行关键帧的采样，并提取原视频相邻两帧之间的光流特征，然后通过两个分形网络分别学习并获得视频帧和光流特征的高层特征表达，再分别输入到两个基于LSTM单元的递归神经网络模型，最后将两个独立模型每个时刻的输出值进行加权平均，从而获得与所述视频对应的描述语句。本发明专利技术对待描述视频分别利用了原视频帧和光流的信息，添加的光流特征补偿了采样帧不可避免会丢失的动态信息，考虑到了视频在空间维度和时间维度上的变化。再者，通过新颖的分形网络对底层特征进行抽象的视觉特征表达，从而更精确地分析挖掘视频中涉及的人、物、行为以及空间位置关系等联系。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双路分形网络和LSTM的视频描述方法
本专利技术属于视频描述、深度学习
，具体涉及一种基于双路分形网络和LSTM的视频描述方法。
技术介绍
随着科技的进步和社会的发展，各类视频摄像终端尤其是智能手机已经非常普及，硬件存储的价格也日益低廉，这使得多媒体信息流成指数式增长。在大量的视频信息流面前，如何能够在尽量减少人工干预下对海量视频信息进行高效自动的分析、识别和理解，从而从语义上给予描述，已成为当前图像处理和计算机视觉研究领域的一个热门课题。对于大多数人而言，观看一个简短的视频后用语言对视频做出描述也许是件很简单的事情。但是，对于机器而言，通过提取视频中各帧图像的像素信息，并对之加以分析、处理，从而生成一句自然语言来描述则是一个富有挑战性的任务。让机器能够高效自动地对视频做出描述在诸如视频检索、人机交互、交通安防等计算机视觉领域也有着广泛的应用前景，这将进一步促进人们对视频的语义描述的研究。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足，提供一种基于双路分形网络和LSTM的视频描述方法。为了到达上述目的，本专利技术采用以下技术方案：一种基于双路分形网络和LSTM的视频描述方法，其特征在于，首先对待描述视频进行关键帧的采样，并提取原视频相邻两帧之间的光流特征，然后通过两个分形网络分别学习并获得关键帧和光流特征的高层特征表达，再分别输入到两个基于LSTM单元的递归神经网络模型，最后将两个独立递归神经网络模型每个时刻的输出值进行加权平均，从而获得与所述视频对应的描述语句。具体包括如下步骤：S1、对待描述视频进行关键帧的采样，并提取原视频...
一种基于双路分形网络和LSTM的视频描述方法

【技术保护点】
一种基于双路分形网络和LSTM的视频描述方法，其特征在于，首先对待描述视频进行关键帧的采样，并提取原视频相邻两帧之间的光流特征，然后通过两个分形网络分别学习并获得关键帧和光流特征的高层特征表达，再分别输入到两个基于LSTM单元的递归神经网络模型，最后将两个独立递归神经网络模型每个时刻的输出值进行加权平均，从而获得与所述视频对应的描述语句；具体包括如下步骤：S1、对待描述视频进行关键帧的采样，并提取原视频相邻两帧之间的光流特征；S2、通过两个分形网络分别学习并获得关键帧和光流特征的高层特征表达；其中分形网络通过单一扩展规则的重复应用生成；S3、分别将上一步获得的高层特征矢量输入到两个基于LSTM单元的递归神经网络模型；S4、将两个独立递归神经网络模型每个时刻的输出值进行加权平均并获得视频对应的描述语句。

【技术特征摘要】
1.一种基于双路分形网络和LSTM的视频描述方法，其特征在于，首先对待描述视频进行关键帧的采样，并提取原视频相邻两帧之间的光流特征，然后通过两个分形网络分别学习并获得关键帧和光流特征的高层特征表达，再分别输入到两个基于LSTM单元的递归神经网络模型，最后将两个独立递归神经网络模型每个时刻的输出值进行加权平均，从而获得与所述视频对应的描述语句；具体包括如下步骤：S1、对待描述视频进行关键帧的采样，并提取原视频相邻两帧之间的光流特征；S2、通过两个分形网络分别学习并获得关键帧和光流特征的高层特征表达；其中分形网络通过单一扩展规则的重复应用生成；S3、分别将上一步获得的高层特征矢量输入到两个基于LSTM单元的递归神经网络模型；S4、将两个独立递归神经网络模型每个时刻的输出值进行加权平均并获得视频对应的描述语句。2.根据权利要求1所述一种基于双路分形网络和LSTM的视频描述方法，其特征在于，步骤S1中所述对待描述视频提取光流特征具体为：S1.1、分别计算视频每相邻两帧的x方向和y方向上的光流特征值，并归一化到[0,255]的像素范围；S1.2、计算光流的幅度值，并结合上一步获得的光流特征值组合成一张光流图。3.根据权利要求1所述一种基于双路分形网络和LSTM的视频描述方法，其特征在于，步骤S2中获得关键帧和光流特征的高层特征表达的具体步骤为：S2.1、对步骤S1获得的视频的关键帧以时间点的顺序依次输入到第一个处理空间维度关系的分形网络，通过网络的非线性映射关系依次生成对应的视觉特征矢量；S2.2、对步骤S1获得的光流图以时间点的顺序依次输入到第二个处理时间维度关系的分形网络，通过网络的非线性映射关系依次生成对应的运动特征矢量。4.根据权利要求3所述一种基于双路分形网络和LSTM的视频描述方法，其特征在于，步骤S2.1和S2.2中的通过单一扩展规则的重复应用生成了一个极深的网络，其结构布局是一个截断的分形；该网络包含长度不同的相互作用子路径，但不包含任何直通式连接；同时，为了实现提取高性能固定深度子网络的能力，采用了一种路径舍弃的方法正则化分形架构里子路径的协同适应的规则；对于分形网络，训练的简单性与设计的简单性相对应，单个连接到最后一层的损失函数足以驱动内部行为去模仿深度监督；所采用的分形网络是基于分形结构的深度卷积神经网络。5.根据权利要求4所述一种基于双路分形网络和LSTM的视频描述方法，其特征在于，步骤S2.1和S2.2中的通过单一扩展规则的重复应用生成了一个极深的网络，其结构布局是一个截断的分形，具体为：基础情形f1(z)包含输入输出之间单个选定类型的层；令C表示截断分形fC(·)的指标，fC(·)定义了网络架构、连接以及层类型；其中，基础情形是包含单个卷积层的网络表示如公式(1-1)：f1(z)＝conv(z)(1-1)递归定义接下来的分形如公式(1-2)：在公式(1-2)中，表示复合，而表示连接操作，C对应于列数，或者说网络fC(·)的宽度；深度定义为从输入到输出的最长路径上的conv层的个数，正比于2C-1；用于分类的卷积网络通常分散布置汇集层；为了达到相同目的，使用fC(·)作为构建单元，将之与接下来的汇集层堆叠B次，得到总深度B·2C-1；连接操作把两个特征块合为一个；一个特征块是一个conv层的结果：在一个空间区域为固定的一些通道维持活化的张量；通道数对应于前面的conv层的过滤器的个数；当分形被扩展，把相邻的连接合并成单个连接层；连接层把所有其输入特征块合并成单个输出块。6.根据权利要求4所述一种基于双路分形网络和LSTM的视频描述方法，其特征在于，步骤S2.1和S2.2中...

【专利技术属性】
技术研发人员：李楚怡，袁东芝，余卫宇，胡丹，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人