当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于一维序列学习的视频概括方法技术

技术编号:17346659 阅读:52 留言:0更新日期:2018-02-25 12:04
本发明专利技术公开了一种基于一维序列学习的视频概括方法,用于概括给定视频的主要内容并输出其中的关键视频片段。具体包括如下步骤:获取用于训练视频概括模型的视频数据集,并定义算法目标;对视频数据集中的时空语义结构进行序列特征建模;基于视频序列特征建立逐帧分数预测模型;使用所述预测模型预测输入视频中的关键片段。本发明专利技术适用于真实视频场景中的视频概括,面对各类复杂情况具有较佳的效果和鲁棒性。

【技术实现步骤摘要】
一种基于一维序列学习的视频概括方法
本专利技术属于计算机视觉领域,特别地涉及一种基于一维序列学习的视频概括方法。
技术介绍
21世纪初以来,随着视频数据的海量增长,自动视频分析技术得到广泛的关注和研究。视频概括是其中一项重要和具有挑战性的任务,其目标是用视频中的片段准确概括视频中的重要内容。视频概括算法需要从人类标注的视频摘要里发掘其中潜藏的概括标准,其挑战性在于如何建模复杂和多层次的时间维度的语义结构。现有的视频摘要方法可以分为以下两类:1、基于手工设定的视频概括标准。这类方法手工设定各类视频概括标准,例如代表性、多样性和重要性,并用它们的组合来模拟真实的视频概括标准;2、直接从标注数据中学习视频概括标准。这类方法先对视频建模其时空语义结构的特征表达,并基于这些特征表达直接从人类标注的数据中学习视频概括标准。现有的方法直接对视频的时间和空间语义进行联合建模,模型的时间和空间复杂度较高。一方面,模型需要学习的参数很多,导致模型可能不稳定;另一方面,模型的运行时间较长。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种基于一维序列学习的视频概括方法,用于概括给定视频的主要内容并输出其中的关键视频片段。本方法采用分治的策略,利用三种不同的深度神经网络分别建模多层次的空间和时间语义结构,并将这些神经网络融合在一个端到端的学习框架里。本方法拥有更低的时间和空间复杂度,对真实未加工视频中的复杂情况有更稳定的性能。为实现上述目的,本专利技术的技术方案为:一种基于一维序列学习的视频概括方法,包括以下步骤:S1、获取用于训练模型的视频数据集,所述视频数据集包括多个样本视频,并定义算法目标;S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模,得到序列特征模型;S3、通过所述序列特征模型,基于样本视频的序列特征建立逐帧分数预测模型;S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。进一步的,步骤S1中,所述的视频数据集包括视频Xtrain以及人工标注的逐帧重要性分数Ytrain;定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,x1,x2,...,xT分别表示视频的每一帧,T是视频帧的数量。进一步的,步骤S2具体包括:S21、将视频x={x1,x2,...,xT}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征v={v1,v2,...,vT},v1,v2,...,vT分别对应每一帧的空间语义特征;此神经网络表示为映射S22、将S21中得到的视频空间语义特征v作为序列输入长短期记忆神经网络,进一步建模其时序语义结构得到h={h1,h2,...,ht,...,hT},h1,h2,...,hT分别对应每一帧的时间语义特征;此神经网络表示为映射进一步的,步骤S3中具体包括:S31、建立一维全卷积神经网络,将S22中得到的h={h1,h2,...,ht,...,hT}作为其输入:其中W(l,f,j)和b(l,f,j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图,φ是激活函数,Fl是l层特征图的数目,h是一维全卷积神经网络第0层的特征图z(0),第L个卷积层的输出作为一维全卷积神经网络的输出;S32、对S31中的输出进行升采样得到使其维度与原输入视频x的帧数T一致,y={y1,y2,...,yT}表示逐帧重要性分数序列;S31和S32的神经网络统一表示为映射S33、以串联形式拼接步骤S21、S22、S31、S32所述的神经网络,其结构可以表示为从视频x到逐帧重要性分数y的映射x→y;S34、神经网络x→y使用欧几里得损失函数,表示为其中y是神经网络的输出,ygt是人工标注的逐帧重要性分数,使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。进一步的,步骤S4中,使用所述逐帧分数预测模型预测输入视频中的关键片段具体包括:S41、根据帧间光流的绝对值,将视频分割为不重叠的片段;S42、使用0/1背包算法,选取拥有最大重要性分数且时间总长度小于某阈值的片段xkey∈x作为输入视频的关键片段。本专利技术的基于一维序列学习的视频概括方法,相比于现有的视频概括方法,具有以下有益效果:首先,本专利技术从时间序列建模的角度解决视频概括问题,引入一维全卷积神经网络建模视频帧序列中的复杂多层次语义上下文结构。其次,本专利技术的视频概括方法基于三种不同的深度神经网络建立模型,不同的神经网络能够建模不同种类和层次的空间和时间语义结构。另外,时空特征表达和逐帧重要性分数预测被统一在一个端到端的框架里,提高了方法的最终效果。本专利技术的基于一维序列学习的视频概括方法,在智能视频分析系统里具有良好的应用价值,能够有效提高视频概括的效率和准确度。例如,在视频类网站里,本专利技术的视频概括方法可以快速和准确地用视频片段概括原始视频中的重要内容,为用户快速浏览视频提供方便。附图说明图1为本专利技术的基于一维序列学习的视频概括方法的流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。相反,本专利技术涵盖任何由权利要求定义的在本专利技术的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本专利技术有更好的了解,在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。参考图1,在本专利技术的较佳实施例中,基于一维序列学习的视频概括方法,包括以下步骤:首先,获取用于训练视频概括模型的视频数据集。其中,用于训练人群数量预测模型的监控图像数据集,包括视频Xtrain,人工标注的逐帧重要性分数Ytrain;定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,T是视频帧的数量。其次,对视频数据集中的样本视频的时空语义结构进行序列特征建模。具体的,其包括如下步骤:第一步,将视频x={x1,x2,...,xT}中的每一帧图像分别输入二维深度卷积神经网络(2DCNN),提取每帧的空间语义特征v={v1,v2,...,vT};此神经网络表示为映射第二步,将得到的视频空间语义特征v作为序列输入长短期记忆神经网络(LSTM),进一步建模其时序语义结构得到h={h1,h2,...,ht,...,hT};此神经网络表示为映射之后,基于视频序列特征建立逐帧分数预测模型。具体包括:第一步,建立一维全卷积神经网络(FCN),将S22中得到的h={h1,h2,...,ht,...,hT}作为其输入:其中W(l,f,j)和b(l,f,j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图,φ是激活函数,Fl是l层特征图的数目,h是一维全卷积神经网络第0层的特征图z(0),第L个卷积层的输出作为一维全卷积神经网络的输出;第二步,对S31中的输出进行升采样得到使其维度与原输入视频x的帧数T一致,y={y1,y2,...,yT}表示逐帧重要性分数序列;S31和S32的神经网络统一表示为映射第三步,以串联形式拼接步骤S21、S22、S31、S32步骤所述的神经本文档来自技高网...
一种基于一维序列学习的视频概括方法

【技术保护点】
一种基于一维序列学习的视频概括方法,其特征在于,包括以下步骤:S1、获取用于训练模型的视频数据集,所述视频数据集包括多个样本视频,并定义算法目标;S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模,得到序列特征模型;S3、通过所述序列特征模型,基于样本视频的序列特征建立逐帧分数预测模型;S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。

【技术特征摘要】
1.一种基于一维序列学习的视频概括方法,其特征在于,包括以下步骤:S1、获取用于训练模型的视频数据集,所述视频数据集包括多个样本视频,并定义算法目标;S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模,得到序列特征模型;S3、通过所述序列特征模型,基于样本视频的序列特征建立逐帧分数预测模型;S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。2.如权利要求1所述的基于一维序列学习的视频概括方法,其特征在于,步骤S1中,所述的视频数据集包括视频Xtrain以及人工标注的逐帧重要性分数Ytrain;定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,x1,x2,...,xT分别表示视频的每一帧,T是视频帧的数量。3.如权利要求2所述的基于一维序列学习的视频概括方法,其特征在于,步骤S2具体包括:S21、将视频x={x1,x2,...,xT}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征v={v1,v2,...,vT},v1,v2,...,vT分别对应每一帧的空间语义特征;此神经网络表示为映射S22、将S21中得到的视频空间语义特征υ作为序列输入长短期记忆神经网络,进一步建模其时序语义结构得到h={h1,h2,...,ht,...,hT},h1,h2,...,hT分别对应每一帧的时间语义特征;此神经网络表示为映射4.如权利要求3所述的基于一维序列学习的视频...

【专利技术属性】
技术研发人员:黄思羽李玺张仲非
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1