一种基于一维序列学习的视频概括方法技术

技术编号：17346659 阅读：52 留言：0更新日期：2018-02-25 12:04

本发明专利技术公开了一种基于一维序列学习的视频概括方法，用于概括给定视频的主要内容并输出其中的关键视频片段。具体包括如下步骤：获取用于训练视频概括模型的视频数据集，并定义算法目标；对视频数据集中的时空语义结构进行序列特征建模；基于视频序列特征建立逐帧分数预测模型；使用所述预测模型预测输入视频中的关键片段。本发明专利技术适用于真实视频场景中的视频概括，面对各类复杂情况具有较佳的效果和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于一维序列学习的视频概括方法
本专利技术属于计算机视觉领域，特别地涉及一种基于一维序列学习的视频概括方法。
技术介绍
21世纪初以来，随着视频数据的海量增长，自动视频分析技术得到广泛的关注和研究。视频概括是其中一项重要和具有挑战性的任务，其目标是用视频中的片段准确概括视频中的重要内容。视频概括算法需要从人类标注的视频摘要里发掘其中潜藏的概括标准，其挑战性在于如何建模复杂和多层次的时间维度的语义结构。现有的视频摘要方法可以分为以下两类：1、基于手工设定的视频概括标准。这类方法手工设定各类视频概括标准，例如代表性、多样性和重要性，并用它们的组合来模拟真实的视频概括标准；2、直接从标注数据中学习视频概括标准。这类方法先对视频建模其时空语义结构的特征表达，并基于这些特征表达直接从人类标注的数据中学习视频概括标准。现有的方法直接对视频的时间和空间语义进行联合建模，模型的时间和空间复杂度较高。一方面，模型需要学习的参数很多，导致模型可能不稳定；另一方面，模型的运行时间较长。
技术实现思路
为解决上述问题，本专利技术的目的在于提供一种基于一维序列学习的视频概括方法，用于概括给定视频的主要内容并输出其中的关键视频片段。本方法采用分治的策略，利用三种不同的深度神经网络分别建模多层次的空间和时间语义结构，并将这些神经网络融合在一个端到端的学习框架里。本方法拥有更低的时间和空间复杂度，对真实未加工视频中的复杂情况有更稳定的性能。为实现上述目的，本专利技术的技术方案为：一种基于一维序列学习的视频概括方法，包括以下步骤：S1、获取用于训练模型的视频数据集，所述视频数据集包括多个样...

【技术保护点】
一种基于一维序列学习的视频概括方法，其特征在于，包括以下步骤：S1、获取用于训练模型的视频数据集，所述视频数据集包括多个样本视频，并定义算法目标；S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模，得到序列特征模型；S3、通过所述序列特征模型，基于样本视频的序列特征建立逐帧分数预测模型；S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。

【技术特征摘要】
1.一种基于一维序列学习的视频概括方法，其特征在于，包括以下步骤：S1、获取用于训练模型的视频数据集，所述视频数据集包括多个样本视频，并定义算法目标；S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模，得到序列特征模型；S3、通过所述序列特征模型，基于样本视频的序列特征建立逐帧分数预测模型；S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。2.如权利要求1所述的基于一维序列学习的视频概括方法，其特征在于，步骤S1中，所述的视频数据集包括视频Xtrain以及人工标注的逐帧重要性分数Ytrain；定义算法目标为：预测视频x＝{x1，x2，...，xT}中的关键视频片段，即x的子集xkey∈x，x1,x2,...,xT分别表示视频的每一帧，T是视频帧的数量。3.如权利要求2所述的基于一维序列学习的视频概括方法，其特征在于，步骤S2具体包括：S21、将视频x＝{x1，x2，...，xT}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征v＝{v1，v2，...，vT}，v1,v2,...,vT分别对应每一帧的空间语义特征；此神经网络表示为映射S22、将S21中得到的视频空间语义特征υ作为序列输入长短期记忆神经网络，进一步建模其时序语义结构得到h＝{h1，h2，...，ht，...，hT}，h1,h2,...,hT分别对应每一帧的时间语义特征；此神经网络表示为映射4.如权利要求3所述的基于一维序列学习的视频...

【专利技术属性】
技术研发人员：黄思羽，李玺，张仲非，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人