The invention discloses an underwater video summary generation method based on long-term and short-term memory network reinforcement learning. The invention first constructs a semantic feature network, a long-term and short-term memory network and a multi-layer perceptron network, and then evaluates the quality of abstract video: diversity and representativeness. Finally, according to the two return functions of quality assessment, the typical strategy gradient method in reinforcement learning is used to train the whole video summary network, update the corresponding MLP network parameters, until all semantic features are evaluated, and an optimized MLP model is obtained for generating high-quality summary video. The key of the invention is to construct a two-tier bidirectional LSTM network structure for spatiotemporal correlation modeling. Because the performance improvement is focused on the design of network structure of video abstract, the method is simple and easy to implement, and the project using the traditional method does not need to be reconstructed, is compatible in detail, and can save a lot of manpower.
【技术实现步骤摘要】
基于长短期记忆网络强化学习的水下视频摘要生成方法
本专利技术属于深度学习及视频分析
,涉及一种基于长短期记忆网络强化学习的水下视频摘要生成方法。
技术介绍
在视频分析领域,视频摘要是指利用计算机技术分析视频结构、理解视频内容,并从原始的多媒体数据中选取具有代表性的、有意义的部分,将它们以某种方式组合并生成紧凑的、用户可读的原始视频的缩略。在实际应用于水下视频时,目前已有方法主要面对两大问题:一是视频标注数据较少(甚至没有)时的视频摘要,也就是弱(无)监督学习的视频摘要生成;二是针对水下视频的特征映射:水下视频的特性、包含场景、目标类型等均有别于常规的陆地上拍摄的视频,那么其特征映射方式就需要重新设计。本专利技术所提出的基于长短期记忆网络强化学习的水下视频摘要方法就是将时空关联建模作为突破口。原始视频是时-空维度上的数据集合,视频摘要就是从这个数据集合上抽取有代表性的子集。视频摘要涉及到两个关键的处理环节:特征映射与时空关联建模。特征映射是将原始视频映射到特征空间,降低数据维度的同时初步降低数据冗余度,在特征空间上的相似性测度比在原始数据空间上的相似性测度有可能更符合人的视觉特点。时空关联是指视频数据集合在时间与空间上的相关性,视频数据的冗余一定程度上就体现其时空上的关联;挖掘这种时空关联模式,有助于抽取出相互独立的且有代表性的摘要视频子集。在特征映射与时空关联建模这两个关键处理环节上,基于深度学习的视频摘要方法比传统的视频摘要方法具有优势。在特征映射方面,与传统的颜色、纹理、边缘、视觉显著性等特征相比,在大量样本的支撑下,卷积神经网络(Convolu ...
【技术保护点】
1.基于长短期记忆网络强化学习的水下视频摘要生成方法,其特征在于该方法包括以下步骤:步骤(1)、构建语义特征网络基于典型卷积神经网络构建语义特征网络;语义特征网络输入为水下视频的每帧图像,输出为视频每帧的语义特征;语义特征包括感兴趣目标的类型、时空定位以及运动信息等;步骤(2)、构建长短期记忆网络结构构建双层双向LSTM网络结构:第一层是前向网络,用来对顺序时间排序的视频帧集合的关联建模;第二层是后向网络,用来对逆序时间排序的视频帧集合的关联建模;LSTM的输入为步骤(1)得到的水下视频每帧语义特征信息的集合,输出为LSTM单元中的隐藏状态信息;步骤(3)、构建多层感知器网络将步骤(1)语义特征网络输出的语义特征与步骤(2)双层双向LSTM输出的隐藏状态信息输入到全连接的多层感知器网络(MLP)中,输出对应视频帧的概率测度,即上述对应视频帧属于摘要视频的概率;步骤(4)、通过强化学习算法更新多层感知器网络MLP的策略4.1假设pi是第i个MLP的输出,表示第i个视频帧属于摘要视频的概率,那么根据全部MLP的输出进行阈值采样,获取在当前网络下的摘要视频:S={vyi|ayi=1,i=1, ...
【技术特征摘要】
1.基于长短期记忆网络强化学习的水下视频摘要生成方法,其特征在于该方法包括以下步骤:步骤(1)、构建语义特征网络基于典型卷积神经网络构建语义特征网络;语义特征网络输入为水下视频的每帧图像,输出为视频每帧的语义特征;语义特征包括感兴趣目标的类型、时空定位以及运动信息等;步骤(2)、构建长短期记忆网络结构构建双层双向LSTM网络结构:第一层是前向网络,用来对顺序时间排序的视频帧集合的关联建模;第二层是后向网络,用来对逆序时间排序的视频帧集合的关联建模;LSTM的输入为步骤(1)得到的水下视频每帧语义特征信息的集合,输出为LSTM单元中的隐藏状态信息;步骤(3)、构建多层感知器网络将步骤(1)语义特征网络输出的语义特征与步骤(2)双层双向LSTM输出的隐藏状态信息输入到全连接的多层感知器网络(MLP)中,输出对应视频帧的概率测度,即上述对应视频帧属于摘要视频的概率;步骤(4)、通过强化学习算法更新多层感知器网络MLP的策略4.1假设pi是第i个MLP的输出,表示第i个视频帧属于摘要视频的概率,那么根据全部MLP的输出进行阈值采样,获取在当前网络下的摘要视频...
【专利技术属性】
技术研发人员:陈华杰,张杰豪,姚勤炜,侯新雨,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。