一种基于双路分形网络和LSTM的视频描述方法技术

技术编号:15792442 阅读:92 留言:0更新日期:2017-07-10 00:40
本发明专利技术公开了一种基于双路分形网络和LSTM的视频描述方法。所述方法首先对待描述视频进行关键帧的采样,并提取原视频相邻两帧之间的光流特征,然后通过两个分形网络分别学习并获得视频帧和光流特征的高层特征表达,再分别输入到两个基于LSTM单元的递归神经网络模型,最后将两个独立模型每个时刻的输出值进行加权平均,从而获得与所述视频对应的描述语句。本发明专利技术对待描述视频分别利用了原视频帧和光流的信息,添加的光流特征补偿了采样帧不可避免会丢失的动态信息,考虑到了视频在空间维度和时间维度上的变化。再者,通过新颖的分形网络对底层特征进行抽象的视觉特征表达,从而更精确地分析挖掘视频中涉及的人、物、行为以及空间位置关系等联系。

【技术实现步骤摘要】
一种基于双路分形网络和LSTM的视频描述方法
本专利技术属于视频描述、深度学习
,具体涉及一种基于双路分形网络和LSTM的视频描述方法。
技术介绍
随着科技的进步和社会的发展,各类视频摄像终端尤其是智能手机已经非常普及,硬件存储的价格也日益低廉,这使得多媒体信息流成指数式增长。在大量的视频信息流面前,如何能够在尽量减少人工干预下对海量视频信息进行高效自动的分析、识别和理解,从而从语义上给予描述,已成为当前图像处理和计算机视觉研究领域的一个热门课题。对于大多数人而言,观看一个简短的视频后用语言对视频做出描述也许是件很简单的事情。但是,对于机器而言,通过提取视频中各帧图像的像素信息,并对之加以分析、处理,从而生成一句自然语言来描述则是一个富有挑战性的任务。让机器能够高效自动地对视频做出描述在诸如视频检索、人机交互、交通安防等计算机视觉领域也有着广泛的应用前景,这将进一步促进人们对视频的语义描述的研究。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于双路分形网络和LSTM的视频描述方法。为了到达上述目的,本专利技术采用以下技术方案:一种基于双路分形网络和LSTM的视频描述方法,其特征在于,首先对待描述视频进行关键帧的采样,并提取原视频相邻两帧之间的光流特征,然后通过两个分形网络分别学习并获得关键帧和光流特征的高层特征表达,再分别输入到两个基于LSTM单元的递归神经网络模型,最后将两个独立递归神经网络模型每个时刻的输出值进行加权平均,从而获得与所述视频对应的描述语句。具体包括如下步骤:S1、对待描述视频进行关键帧的采样,并提取原视频相邻两帧之间的光流特征;S2、通过两个分形网络分别学习并获得视频帧和光流特征的高层特征表达;S3、分别将上一步获得的高层特征矢量输入到两个基于LSTM单元的递归神经网络;S4、将两个独立模型每个时刻的输出值进行加权平均并获得视频对应的描述语句。优选的,步骤S1中所述对待描述视频提取光流特征具体为:S1.1、分别计算视频每相邻两帧的x方向和y方向上的光流特征值,并归一化到[0,255]的像素范围;S1.2、计算光流的幅度值,并结合上一步获得的光流特征值组合成一张光流图。优选的,步骤S2中获得关键帧和光流特征的高层特征表达的具体步骤为:S2.1、对步骤S1获得的视频的关键帧以时间点的顺序依次输入到第一个处理空间维度关系的分形网络,通过网络的非线性映射关系依次生成对应的视觉特征矢量;S2.2、对步骤S1获得的光流图以时间点的顺序依次输入到第二个处理时间维度关系的分形网络,通过网络的非线性映射关系依次生成对应的运动特征矢量。优选的,对于步骤S2.1和S2.2中的通过单一扩展规则的重复应用生成了一个极深的网络,其结构布局是一个截断的分形;该网络包含长度不同的相互作用子路径,但不包含任何直通式连接;同时,为了实现提取高性能固定深度子网络的能力,采用了一种路径舍弃的方法正则化分形架构里子路径的协同适应的规则;对于分形网络,训练的简单性与设计的简单性相对应,单个连接到最后一层的损失函数足以驱动内部行为去模仿深度监督;所采用的分形网络是基于分形结构的深度卷积神经网络。优选的,步骤S2.1和S2.2中的通过单一扩展规则的重复应用生成了一个极深的网络,其结构布局是一个截断的分形具体为:基础情形f1(z)包含输入输出之间单个选定类型的层;令C表示截断分形fC(·)的指标,fC(·)定义了网络架构、连接以及层类型。其中,基础情形是包含单个卷积层的网络表示如公式(1-1):f1(z)=conv(z)(1-1)递归定义接下来的分形如公式(1-2):在公式(1-2)中,表示复合,而表示连接操作,C对应于列数,或者说网络fC(·)的宽度;深度定义为从输入到输出的最长路径上的conv层的个数,正比于2C-1;用于分类的卷积网络通常分散布置汇集层;为了达到相同目的,使用fC(·)作为构建单元,将之与接下来的汇集层堆叠B次,得到总深度B·2C-1;连接操作把两个特征块合为一个;一个特征块是一个conv层的结果:在一个空间区域为固定的一些通道维持活化的张量;通道数对应于前面的conv层的过滤器的个数;当分形被扩展,把相邻的连接合并成单个连接层;连接层把所有其输入特征块合并成单个输出块。优选的,步骤S2.1和S2.2中一种路径舍弃的方法正则化分形架构里子路径的协同适应的规则具体为:由于分形网络包含额外的大尺度结构,使用一种类似dropout和drop-connect的粗粒度正则化策略,路径舍弃通过随机丢弃连接层的操作数来禁止平行路径的共同适应,这种方式有效防止了网络使用一个路径作为锚标,另一个路径作为修正而可能引起的过拟合行为;采用两个采样策略:对于局部,连接层以固定的概率舍弃每个输入,但保证至少保留一个输入;对于全局,每条路径是为了整个网络选出的,通过限制这条路径是单列的,以激励每列成为有力的预测器。优选的,步骤S3中所述将高层特征矢量输入到两个基于LSTM单元的递归神经网络模型具体为:基于LSTM单元的递归神经网络包含两层LSTM单元,第一层和第二层分别包含1000个神经元,其中每个LSTM神经单元的前向传播过程可表示为:it=σ(Wxixt+Whiht-1+bi)(1-3)ft=σ(Wxfxt+Whfht-1+bf)(1-4)ot=σ(Wxoxt+Whoht-1+bo)(1-5)ct=ft*ct-1+it*gt(1-7)其中,σ(xt)=(1+e-xt)-1是sigmoid非线性激活函数,是双曲正切非线性激活函数;it,ft,ot,ct分别代表t时刻输入门,记忆门,输出门和核心门对应的状态量;对于每个逻辑门,Wxi,Wxf,Wxo,Wxg分别代表输入门,记忆门,输出门和核心门对应的权重转移矩阵,Whi,Whf,Who,Whg分别代表输入门,记忆门,输出门和核心门在t-1时刻隐藏层变量ht-1对应的权重转移矩阵,bi,bf,bo,bg分别代表输入门,记忆门,输出门和核心门对应的偏置向量。优选的,步骤S3中神经网络模型结构为:基于两层LSTM单元的递归神经网络结构图,利用这个两层堆叠的LSTM单元的递归神经网络进行对输入特征矢量的编码和解码的操作,从而实现自然语言文本的转换;其中,第一层LSTM神经元完成对每个时刻的输入视觉特征矢量的编码过程,然后每个时刻输出的隐层表达作为第二层LSTM神经元的输入;当所有视频帧的特征矢量都输入到第一层LSTM神经元后,第二层LSTM神经元就会收到一个指示符,并开始解码的任务;在解码的阶段,网络会有信息的损失,因此模型参数训练和学习的目标是在给定隐层表达和上一时刻的输出预测的前提下,最大化整个输出语句预测的对数似然函数;对于用参数θ和输出语句Y=(y1,y2,…,ym)表示的模型,参数优化目标可表示为:这里,θ为参数,Y代表输出的预测语句,h为隐层表达,使用随机梯度下降法对目标函数进行优化,整个网络的误差通过反向传播算法在时间维度上累积传递。优选的,步骤S4将两个神经网络独立模型每个时刻的输出值进行加权平均并获得视频对应的描述语句具体操作为:S4.1、将两个独立递归神经网络模型每个时刻的第二层LSTM神经元的输出值进行加权平均;S4.2、采用softmax本文档来自技高网...
一种基于双路分形网络和LSTM的视频描述方法

【技术保护点】
一种基于双路分形网络和LSTM的视频描述方法,其特征在于,首先对待描述视频进行关键帧的采样,并提取原视频相邻两帧之间的光流特征,然后通过两个分形网络分别学习并获得关键帧和光流特征的高层特征表达,再分别输入到两个基于LSTM单元的递归神经网络模型,最后将两个独立递归神经网络模型每个时刻的输出值进行加权平均,从而获得与所述视频对应的描述语句;具体包括如下步骤:S1、对待描述视频进行关键帧的采样,并提取原视频相邻两帧之间的光流特征;S2、通过两个分形网络分别学习并获得关键帧和光流特征的高层特征表达;其中分形网络通过单一扩展规则的重复应用生成;S3、分别将上一步获得的高层特征矢量输入到两个基于LSTM单元的递归神经网络模型;S4、将两个独立递归神经网络模型每个时刻的输出值进行加权平均并获得视频对应的描述语句。

【技术特征摘要】
1.一种基于双路分形网络和LSTM的视频描述方法,其特征在于,首先对待描述视频进行关键帧的采样,并提取原视频相邻两帧之间的光流特征,然后通过两个分形网络分别学习并获得关键帧和光流特征的高层特征表达,再分别输入到两个基于LSTM单元的递归神经网络模型,最后将两个独立递归神经网络模型每个时刻的输出值进行加权平均,从而获得与所述视频对应的描述语句;具体包括如下步骤:S1、对待描述视频进行关键帧的采样,并提取原视频相邻两帧之间的光流特征;S2、通过两个分形网络分别学习并获得关键帧和光流特征的高层特征表达;其中分形网络通过单一扩展规则的重复应用生成;S3、分别将上一步获得的高层特征矢量输入到两个基于LSTM单元的递归神经网络模型;S4、将两个独立递归神经网络模型每个时刻的输出值进行加权平均并获得视频对应的描述语句。2.根据权利要求1所述一种基于双路分形网络和LSTM的视频描述方法,其特征在于,步骤S1中所述对待描述视频提取光流特征具体为:S1.1、分别计算视频每相邻两帧的x方向和y方向上的光流特征值,并归一化到[0,255]的像素范围;S1.2、计算光流的幅度值,并结合上一步获得的光流特征值组合成一张光流图。3.根据权利要求1所述一种基于双路分形网络和LSTM的视频描述方法,其特征在于,步骤S2中获得关键帧和光流特征的高层特征表达的具体步骤为:S2.1、对步骤S1获得的视频的关键帧以时间点的顺序依次输入到第一个处理空间维度关系的分形网络,通过网络的非线性映射关系依次生成对应的视觉特征矢量;S2.2、对步骤S1获得的光流图以时间点的顺序依次输入到第二个处理时间维度关系的分形网络,通过网络的非线性映射关系依次生成对应的运动特征矢量。4.根据权利要求3所述一种基于双路分形网络和LSTM的视频描述方法,其特征在于,步骤S2.1和S2.2中的通过单一扩展规则的重复应用生成了一个极深的网络,其结构布局是一个截断的分形;该网络包含长度不同的相互作用子路径,但不包含任何直通式连接;同时,为了实现提取高性能固定深度子网络的能力,采用了一种路径舍弃的方法正则化分形架构里子路径的协同适应的规则;对于分形网络,训练的简单性与设计的简单性相对应,单个连接到最后一层的损失函数足以驱动内部行为去模仿深度监督;所采用的分形网络是基于分形结构的深度卷积神经网络。5.根据权利要求4所述一种基于双路分形网络和LSTM的视频描述方法,其特征在于,步骤S2.1和S2.2中的通过单一扩展规则的重复应用生成了一个极深的网络,其结构布局是一个截断的分形,具体为:基础情形f1(z)包含输入输出之间单个选定类型的层;令C表示截断分形fC(·)的指标,fC(·)定义了网络架构、连接以及层类型;其中,基础情形是包含单个卷积层的网络表示如公式(1-1):f1(z)=conv(z)(1-1)递归定义接下来的分形如公式(1-2):在公式(1-2)中,表示复合,而表示连接操作,C对应于列数,或者说网络fC(·)的宽度;深度定义为从输入到输出的最长路径上的conv层的个数,正比于2C-1;用于分类的卷积网络通常分散布置汇集层;为了达到相同目的,使用fC(·)作为构建单元,将之与接下来的汇集层堆叠B次,得到总深度B·2C-1;连接操作把两个特征块合为一个;一个特征块是一个conv层的结果:在一个空间区域为固定的一些通道维持活化的张量;通道数对应于前面的conv层的过滤器的个数;当分形被扩展,把相邻的连接合并成单个连接层;连接层把所有其输入特征块合并成单个输出块。6.根据权利要求4所述一种基于双路分形网络和LSTM的视频描述方法,其特征在于,步骤S2.1和S2.2中...

【专利技术属性】
技术研发人员:李楚怡袁东芝余卫宇胡丹
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1