基于长短期记忆网络强化学习的水下视频摘要生成方法技术

技术编号:20117858 阅读:18 留言:0更新日期:2019-01-16 12:04
本发明专利技术公开基于长短期记忆网络强化学习的水下视频摘要生成方法。本发明专利技术首先构建语义特征网络、长短期记忆网络、多层感知器网络;然后对摘要视频进行质量评估:多样性与代表性。最后根据质量评估的两个回报函数,采用强化学习中典型的策略梯度的方法训练整个视频摘要网络,更新对应的MLP网络参数,直至完成所有语义特征评估,得到优化的MLP模型,用于生成高质量的摘要视频。本发明专利技术的关键在于构建双层双向LSTM网络结构进行时空关联建模。本发明专利技术由于将性能改进着眼于视频摘要网络结构设计环节,方法简单易于实现,对使用传统方法的工程无需重新构造,详细兼容,能够节省大量人力。

Underwater Video Summary Generation Method Based on Long-term and Short-term Memory Network Reinforcement Learning

The invention discloses an underwater video summary generation method based on long-term and short-term memory network reinforcement learning. The invention first constructs a semantic feature network, a long-term and short-term memory network and a multi-layer perceptron network, and then evaluates the quality of abstract video: diversity and representativeness. Finally, according to the two return functions of quality assessment, the typical strategy gradient method in reinforcement learning is used to train the whole video summary network, update the corresponding MLP network parameters, until all semantic features are evaluated, and an optimized MLP model is obtained for generating high-quality summary video. The key of the invention is to construct a two-tier bidirectional LSTM network structure for spatiotemporal correlation modeling. Because the performance improvement is focused on the design of network structure of video abstract, the method is simple and easy to implement, and the project using the traditional method does not need to be reconstructed, is compatible in detail, and can save a lot of manpower.

【技术实现步骤摘要】
基于长短期记忆网络强化学习的水下视频摘要生成方法
本专利技术属于深度学习及视频分析
,涉及一种基于长短期记忆网络强化学习的水下视频摘要生成方法。
技术介绍
在视频分析领域,视频摘要是指利用计算机技术分析视频结构、理解视频内容,并从原始的多媒体数据中选取具有代表性的、有意义的部分,将它们以某种方式组合并生成紧凑的、用户可读的原始视频的缩略。在实际应用于水下视频时,目前已有方法主要面对两大问题:一是视频标注数据较少(甚至没有)时的视频摘要,也就是弱(无)监督学习的视频摘要生成;二是针对水下视频的特征映射:水下视频的特性、包含场景、目标类型等均有别于常规的陆地上拍摄的视频,那么其特征映射方式就需要重新设计。本专利技术所提出的基于长短期记忆网络强化学习的水下视频摘要方法就是将时空关联建模作为突破口。原始视频是时-空维度上的数据集合,视频摘要就是从这个数据集合上抽取有代表性的子集。视频摘要涉及到两个关键的处理环节:特征映射与时空关联建模。特征映射是将原始视频映射到特征空间,降低数据维度的同时初步降低数据冗余度,在特征空间上的相似性测度比在原始数据空间上的相似性测度有可能更符合人的视觉特点。时空关联是指视频数据集合在时间与空间上的相关性,视频数据的冗余一定程度上就体现其时空上的关联;挖掘这种时空关联模式,有助于抽取出相互独立的且有代表性的摘要视频子集。在特征映射与时空关联建模这两个关键处理环节上,基于深度学习的视频摘要方法比传统的视频摘要方法具有优势。在特征映射方面,与传统的颜色、纹理、边缘、视觉显著性等特征相比,在大量样本的支撑下,卷积神经网络(ConvolutionalNeuralNetwork,CNN)能提供的特征描述层次更多,内容更丰富,且适应性更强。本专利技术采用长短期记忆网络(LongShort-TermMemory,LSTM)对视频中存在的变时间长度关联结构进行时空关联建模,对其有更好的描述。
技术实现思路
本专利技术的目的在于针对传统视频摘要方法的不足,为深度学习及视频分析研究提供一种基于长短期记忆网络强化学习的水下视频摘要生成方法。本专利技术方法包括以下步骤:步骤(1)、设计与训练语义特征网络。从水下监测需求出发,相关的语义内容包括感兴趣目标的类型、时空定位以及运动信息等。鉴于典型CNN在视觉特征提取上的良好表现,可以基于典型CNN构建语义特征网络。在CNN的大框架下,语义特征映射网络的结构设计的主要内容是其容量,如卷积层数、总的通道数等。制约容量设计有两方面的因素:其一是语义特征表达的需求,从底层特征逐步上升到高层语义,需要网络有足够的容量;其二是训练样本数的约束,特定目标的水下视频样本数量相对少,为了保证网络的泛化能力,网络的容量必须限制在于与样本相匹配的程度。在感兴趣目标水下视频相对有限的条件下,选择较为粗略的二分类方案,对CNN的容量的要求较低,从而能够保证获取的特征有较强的适应性。语义特征网络输入为水下视频的每帧图像,输出为视频每帧的语义特征。步骤(2)、设计长短期记忆网络结构。采用长短期记忆网络(LSTM)对视频帧集合在不同时间尺度上关联进行建模,输出隐藏状态以便后续步骤中与步骤(1)的每帧特征信息结合,最终构建关键帧集合。所述的不同时间尺度上关联具体表现必须为时序上的双向性,前向代表当前帧与之前帧的关联,后向代表当前帧与未来帧的关联。具体是构建双层双向LSTM网络结构。第一层是前向网络,用来对顺序时间排序的视频帧集合的关联建模;第二层是后向网络,用来对逆序时间排序的视频帧集合的关联建模。LSTM的输入为步骤(1)得到的视频每帧特征信息的集合,输出为LSTM单元中的隐藏状态信息(hidenstate)。步骤(3)、构建多层感知器网络将步骤(1)语义特征网络输出的语义特征与步骤(2)双层双向LSTM输出的隐藏状态信息输入到全连接的多层感知器网络(MLP)中,输出对应视频帧的概率测度(即上述对应视频帧属于摘要视频的概率)。步骤(4)、通过强化学习算法更新多层感知器网络MLP的策略鉴于水下视频摘要标注样本较少,视频摘要网络的学习重点考虑无监督学习方式。将视频摘要看作是序列决策过程,采用强化学习进行训练。在强化学习范式下,视频摘要网络的动作是根据原始视频生成摘要视频,回报函数是摘要视频的综合性能评价指标,在回报函数的指引下,视频摘要网络进行迭代更新。回报函数的具体形式以及视频摘要网络的更新算法都是具体的设计内容。假设pi是第i个MLP的输出,表示第i个视频帧属于摘要视频的概率,那么根据全部MLP的输出进行阈值采样(概率高于一定阈值即采样),就可以获取在当前网络下的摘要视频:S={vyi|ayi=1,i=1,2,3,...},其中vyi是当前选中的视频帧,ayi∈{0,1}表示采样情况,即ayi=1则视频帧是属于摘要视频。在训练过程中,评估当前网络获取的摘要视频的质量,并由此计算回报函数。对摘要视频的质量评估包含两个因素:多样性与代表性。多样性评估是测度摘要视频帧之间的差异性。假设Y={yi|i=1,2,...N}是摘要视频帧的下标集合,是摘要视频帧的个数,那么多样性回报函数可表示为:其中,xt是摘要视频帧的第t个语义特征,xt'是摘要视频帧的第t′个语义特征,d(·,·)是两个语义特征之间的差异或不显示性测度。代表性评估是测度原始视频的内容在生成的摘要视频中是否得到充分表示。假设X={xt|t=1,2,...M}是原始视频的语义特征集合,M是原始视频帧的个数,那么代表性回报函数可表示为:其中,exp()表示自然常数e为底的指数函数。总回报函数R(S)=Rdiv+Rrep。根据回报函数,可采用强化学习中典型的策略梯度的方法训练整个视频摘要网络(包括语义特征网络、长短期记忆网络、多层感知器网络),更新对应的MLP网络参数,直至摘要视频评估结束(即完成所有语义特征评估),得到优化的MLP模型,用于生成高质量的摘要视频。本专利技术的有益效果是:采用双层双向LSTM网络结构对视频帧集合在不同时间尺度上关联进行建模,再运用强化学习方法进行网络参数更新,最终生成高质量的视频摘要。本专利技术的关键在于构建双层双向LSTM网络结构进行时空关联建模。本专利技术由于将性能改进着眼于视频摘要网络结构设计环节,方法简单易于实现,对使用传统方法的工程无需重新构造,详细兼容,能够节省大量人力。并且可以与其它视频摘要的方法相结合,进一步提高生成的摘要视频质量。附图说明图1为本专利技术的流程图。图2为本专利技术各网络构建设计图。具体实施方式下面结合具体实施例对本专利技术做进一步的分析。本实施例在基于长短期记忆网络强化学习的水下视频摘要生成过程中具体包括以下步骤,如图1所示:步骤(1)、设计与训练语义特征网络。本专利技术的语义特征网络关注感兴趣目标的类型信息。从上述语义特征出发,选择适当的训练样本。训练样本集划分为两大类:感兴趣目标样本与其他样本。在感兴趣目标水下视频相对有限的条件下,选择较为粗略的二分类方案,对CNN的容量的要求较低,从而能够保证获取的特征有较强的适应性。鉴于CNN在视觉特征提取上的良好表现,可以基于CNN构建语义特征映射网络。本实施例采用GoogleNet网络提取视频每帧的语义特征信息,输入为水下视频的每帧图像,输出为视频每帧的语义特征信本文档来自技高网
...

【技术保护点】
1.基于长短期记忆网络强化学习的水下视频摘要生成方法,其特征在于该方法包括以下步骤:步骤(1)、构建语义特征网络基于典型卷积神经网络构建语义特征网络;语义特征网络输入为水下视频的每帧图像,输出为视频每帧的语义特征;语义特征包括感兴趣目标的类型、时空定位以及运动信息等;步骤(2)、构建长短期记忆网络结构构建双层双向LSTM网络结构:第一层是前向网络,用来对顺序时间排序的视频帧集合的关联建模;第二层是后向网络,用来对逆序时间排序的视频帧集合的关联建模;LSTM的输入为步骤(1)得到的水下视频每帧语义特征信息的集合,输出为LSTM单元中的隐藏状态信息;步骤(3)、构建多层感知器网络将步骤(1)语义特征网络输出的语义特征与步骤(2)双层双向LSTM输出的隐藏状态信息输入到全连接的多层感知器网络(MLP)中,输出对应视频帧的概率测度,即上述对应视频帧属于摘要视频的概率;步骤(4)、通过强化学习算法更新多层感知器网络MLP的策略4.1假设pi是第i个MLP的输出,表示第i个视频帧属于摘要视频的概率,那么根据全部MLP的输出进行阈值采样,获取在当前网络下的摘要视频:S={vyi|ayi=1,i=1,2,3,...},其中vyi是当前选中的视频帧,ayi∈{0,1}表示采样情况,即ayi=1则视频帧是属于摘要视频;4.2对摘要视频的质量进行多样性与代表性的评估:1)多样性评估是测度摘要视频帧之间的差异性;假设Y={yi|i=1,2,...N}是摘要视频帧的下标集合,是摘要视频帧的个数,那么多样性回报函数可表示为:...

【技术特征摘要】
1.基于长短期记忆网络强化学习的水下视频摘要生成方法,其特征在于该方法包括以下步骤:步骤(1)、构建语义特征网络基于典型卷积神经网络构建语义特征网络;语义特征网络输入为水下视频的每帧图像,输出为视频每帧的语义特征;语义特征包括感兴趣目标的类型、时空定位以及运动信息等;步骤(2)、构建长短期记忆网络结构构建双层双向LSTM网络结构:第一层是前向网络,用来对顺序时间排序的视频帧集合的关联建模;第二层是后向网络,用来对逆序时间排序的视频帧集合的关联建模;LSTM的输入为步骤(1)得到的水下视频每帧语义特征信息的集合,输出为LSTM单元中的隐藏状态信息;步骤(3)、构建多层感知器网络将步骤(1)语义特征网络输出的语义特征与步骤(2)双层双向LSTM输出的隐藏状态信息输入到全连接的多层感知器网络(MLP)中,输出对应视频帧的概率测度,即上述对应视频帧属于摘要视频的概率;步骤(4)、通过强化学习算法更新多层感知器网络MLP的策略4.1假设pi是第i个MLP的输出,表示第i个视频帧属于摘要视频的概率,那么根据全部MLP的输出进行阈值采样,获取在当前网络下的摘要视频...

【专利技术属性】
技术研发人员:陈华杰张杰豪姚勤炜侯新雨
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1