当前位置: 首页 > 专利查询>上海大学专利>正文

基于组稀疏编码的单个非结构化视频的可扩展缩略的方法技术

技术编号:21405843 阅读:14 留言:0更新日期:2019-06-19 09:03
本发明专利技术公开了一种基于组稀疏编码的单个非结构化视频的可扩展缩略的方法。对每个非结构化视频,将视频均匀切分为一小组片段,进行向量化表示。选取前n个片段为初始视频摘要,并通过组稀疏编码进行重构,获得初始字典和重构系数。用当前字典对下一片段进行重构并计算重构误差。若重构误差大于设定阈值,当前片段加入摘要。依次处理每个片段直到结束获得最终的字典和重构系数。根据稀疏重建系数,建立可扩展缩略。本发明专利技术以最小化视频片段单独稀疏性的同时最大化视频片段整体可分性为优化目标,对传统视频缩略方法进行有效扩展,建立了单个非结构化视频的缩略构建框架。可扩展缩略满足了不同用户的要求,增强了用户对关键内容的视觉体验。

【技术实现步骤摘要】
基于组稀疏编码的单个非结构化视频的可扩展缩略的方法
本专利技术属于视频摘要领域,特别是涉及一种基于组稀疏编码的单个非结构化视频的可扩展缩略的方法。
技术介绍
随着互联网的发展,数据交换的内容已经不是纯粹的文本信息,许多交换的数据都是图像或视频格式。如何从视频数据中快速查找用户感兴趣的内容,是视频检索的热点。如果想查找某一方面内容的视频文件,若对每个视频逐一进行查询,相当费时费力;如果能够把视频内容进行浓缩,提取出其中最主要的部分,如两个小时左右的视频文件,用一个简短的片断(5~7min)的视频摘要来表示出主要内容,这样查找起来就方便多了。传统的视频摘要技术主要针对编辑过的结构化视频,如电影、电视剧、新闻报道、体育等。区别于结构化视频,非结构化视频未经人工编辑,一般不具有特殊的结构,镜头切换,场景切换不明显。另外,非结构化视频内容上分散,视频长度不一,通常质量低下,带有相机抖动、各种光照条件等。这些为非结构化视频摘要技术的发展带来较大挑战。目前,主要的视频摘要领域有基于关键帧的方法,基于聚类的方法等技术。基于关键帧的方法中,选取关键帧的准则是考虑帧之间的非相似性,以视觉特性如颜色,运动为衡量标准来抽取关键帧。该方法存在明显缺陷:帧选取依赖于阈值的选择,计算量太大,不可能做到实时处理。基于聚类的方法是把视频分割成一组组镜头,通过聚类分析找出最优聚类,仅有颜色特征不能很好地表达视频的语义信息。
技术实现思路
针对现有技术存在的缺陷,本专利技术的目的是提供一种基于组稀疏编码的单个非结构化视频的可扩展缩略的方法。本方法能够高效准确地浓缩冗长的视频,同时使得视频适合不同用户的需求,视频的长度可扩展。为达到上述目的,本专利技术采用如下技术方案:一种基于组稀疏编码的单个非结构化视频的可扩展缩略的方法,包括以下步骤:步骤1:输入原始视频,将视频均匀切分为一小组片段,提取每个片段的时空兴趣点,形成相应的向量化表示;步骤2:选取视频的前n个片段作为视频摘要的一部分,并通过组稀疏编码算法对这n个片段进行重构,获得初始字典和重构系数;步骤3:用当前字典对下一个片段进行重构并计算重构误差,若误差大于设定阈值,将该片段加入摘要中并更新字典;步骤4:按照步骤3依次处理每个片段直到结束,获得最终的字典和重构系数;步骤5:根据步骤4获得的稀疏重构系数,解决整数二次规划问题建立可扩展缩略。所述步骤1中的提取每个视频片段的时空兴趣点,形成相应的向量化表示的方法是:每50帧为一个片段,假设视频被分为k个片段,X表示视频片段,即X={X1,……,Xi,……,Xk};提取各帧的时空兴趣点,运用HOG,HOF描述子描述时空兴趣点,对其进行PCA降维,得到每个时空兴趣点最终的描述子;顺序联接各帧的描述子,得到的矩阵为每个片段的向量化表示,片段的向量化表示组成视频的向量化表示,x表示视频片段的HOG,HOF描述子的向量化表示,即x={x1,……,xi,……,xk}。所述步骤2中的通过组稀疏编码算法对前n个片段进行重构的方法是:前n个片段记为x0={x1,……,xi,……,xn},其中x表示视频片段的HOG,HOF描述子的向量化表示,n小于片段总数k的5%,xi表示第i个片段;设初始字典为D,有m个原子,即D={d1,……,dm};重构系数为A,元素数目对应帧的个数,维度对应字典原子数目,即给定字典,通过交替方向乘子算法优化目标函数,得到每个视频片段的稀疏表达:式(1)的第一项为重构误差,使字典中的原子线性组合后与原特征接近,第二项为群组稀疏正则项,约束特征向量组仅用到了字典中的一少部分原子进行重构,参数λ是对重构误差和群组稀疏性两个目标的折衷;通过交替方向乘子算法优化以下目标函数,即得到前n个片段的稀疏表达:式中,第一项为所有视频片段的重构误差,第二项为字典原子的正则项,η为二者权重系数,n为视频中视频片段的数目,ni为第i个视频片段的特征数目,m为字典的大小;求出前n个片段的稀疏表达,固定重构系数,通过交替方向乘子算法优化字典,即优化以下目标函数:使用交替方向乘子算法固定重构系数A求解字典D,固定字典D求解重构系数A,反复迭代500次,得到合适的重构系数A和字典D。所述步骤3中的通过对下一个片段进行重构并计算重构误差,若误差大于设定阈值,将该片段加入摘要中并更新字典的方法是:对下一个视频片段xi(xi表示第i个视频片段的HOG,HOF描述子的向量化表示)用式(1)的组稀疏编码算法进行重构,式(1)的第一项为该视频片段的重构误差;如果重构误差大于设定阈值,则当前片段加入到视频摘要中,(x表示当前视频摘要片段的HOG,HOF描述子的向量化表示,x0表示前面得到的视频摘要片段的HOG,HOF描述子的向量化表示)即x=x0∪xi;如果当前摘要x含有q个片段,那么更新字典D即求解目标函数:使用交替方向乘子算法求解这个优化问题。所述步骤5中的根据获得的稀疏重构系数,解决整数二次规划问题建立可扩展缩略的方法是:一个好的视频缩略需要尽量地具有代表性,选择组合在一起的视频小片段时,其相应的稀疏重构系数应满足两个主要特性:一是稀疏性,重构的系数越稀疏,越接近字典中的原子;二是可分性,不同视频小片段稀疏表达的原子应尽量不同,从而在整个视频中越具有代表性;将上述两项准则数字化,由稀疏重构系数构建长度可伸缩的视频缩略表述为下述优化问题:s.t.1Tb=s,bi∈{0,1},i∈{1,……,N}式中,b={b1,……,bn}为是否选取各个视频片段的二元指示符,Ai为第i个视频片段的稀疏重构系数矩阵,N为视频片段的数目,bi=1表示该选取该片段组成最终的视频缩略,等式约束1Tb=s规定了视频缩略的长度为s;式(5)是一个整数二次规划问题,引入松弛变量代替二次项,将式(5)转化为整数线性规划问题进行求解。本专利技术与已有技术相比较,具有如下显而易见的突出实质性特点和显著优点:本专利技术以最小化视频片段单独稀疏性的同时最大化视频片段整体可分性为优化目标,对传统视频缩略方法进行有效扩展,提高了运行速度,建立了单个非结构化视频的缩略构建框架。可扩展缩略满足了不同用户的要求,为用户节省了大量的时间,增强了用户对关键内容的视觉体验。附图说明图1为本专利技术方法的流程图。具体实施方式以下结合附图对本专利技术作详细说明。如图1所示,一种基于组稀疏编码的单个非结构化视频的可扩展缩略的方法,包括以下步骤:步骤1:输入原始视频,将视频均匀切分为一小组片段,提取每个片段的时空兴趣点,形成相应的向量化表示;步骤2:选取视频的前n个片段作为视频摘要的一部分,并通过组稀疏编码算法对这n个片段进行重构,获得初始字典和重构系数;步骤3:用当前字典对下一个片段进行重构并计算重构误差,若误差大于设定阈值,将该片段加入摘要中并更新字典;步骤4:按照步骤3依次处理每个片段直到结束,获得最终的字典和重构系数;步骤5:根据步骤4获得的稀疏重构系数,解决整数二次规划问题建立可扩展缩略。所述步骤1中的提取每个视频片段的时空兴趣点,形成相应的向量化表示的方法是:每50帧为一个片段,假设视频被分为k个片段,X表示视频片段,即X={X1,……,Xi,……,Xk};提取各帧的时空兴趣点,运用HOG,HOF描述子描述时空兴趣点,对其进行PCA降维,得到每个本文档来自技高网...

【技术保护点】
1.一种基于组稀疏编码的单个非结构化视频的可扩展缩略的方法,其特征在于,包括以下步骤:步骤1:输入原始视频,将视频均匀切分为一小组片段,提取每个片段的时空兴趣点,形成相应的向量化表示;步骤2:选取视频的前n个片段作为视频摘要的一部分,并通过组稀疏编码算法对这n个片段进行重构,获得初始字典和重构系数;步骤3:用当前字典对下一个片段进行重构并计算重构误差,若误差大于设定阈值,将该片段加入摘要中并更新字典;步骤4:按照步骤3依次处理每个片段直到结束,获得最终的字典和重构系数;步骤5:根据步骤4获得的稀疏重构系数,解决整数二次规划问题建立可扩展缩略。

【技术特征摘要】
1.一种基于组稀疏编码的单个非结构化视频的可扩展缩略的方法,其特征在于,包括以下步骤:步骤1:输入原始视频,将视频均匀切分为一小组片段,提取每个片段的时空兴趣点,形成相应的向量化表示;步骤2:选取视频的前n个片段作为视频摘要的一部分,并通过组稀疏编码算法对这n个片段进行重构,获得初始字典和重构系数;步骤3:用当前字典对下一个片段进行重构并计算重构误差,若误差大于设定阈值,将该片段加入摘要中并更新字典;步骤4:按照步骤3依次处理每个片段直到结束,获得最终的字典和重构系数;步骤5:根据步骤4获得的稀疏重构系数,解决整数二次规划问题建立可扩展缩略。2.根据权利要求1所述基于组稀疏编码的单个非结构化视频的可扩展缩略的方法,其特征在于,所述步骤1中的提取每个视频片段的时空兴趣点,形成相应的向量化表示的方法是:每50帧为一个片段,假设视频被分为k个片段,X表示视频片段,即X={X1,......,Xi......,Xk};提取各帧的时空兴趣点,运用HOG,HOF描述子描述时空兴趣点,对其进行PCA降维,得到每个时空兴趣点最终的描述子;顺序联接各帧的描述子,得到的矩阵为每个片段的向量化表示,片段的向量化表示组成视频的向量化表示,x表示视频片段的HOG,HOF描述子的向量化表示,即x={x1,......,xi,......,xk}。3.根据权利要求1所述基于组稀疏编码的单个非结构化视频的可扩展缩略的方法,其特征在于,所述步骤2中的通过组稀疏编码算法对前n个片段进行重构的方法是:前n个片段记为x0={x1,......,xi......,xn},其中x表示视频片段的HOG,HOF描述子的向量化表示,n小于片段总数k的5%,xi表示第i个片段;设初始字典为D,有m个原子,即D={d1,......,dm};重构系数为A,元素数目对应帧的个数,维度对应字典原子数目,即给定字典,通过交替方向乘子算法优化目标函数,得到每个视频片段的稀疏表达:式(1)的第一项为重构误差,使字典中的原子线性组合后与原特征接近,第二项为群组稀疏正则项,约束特征向量组仅用到了字典中的一少部分原子进行重构,参数λ是对重构误差和群组稀疏性两个目标的折衷;通过交替方向乘子算法优化以下目标函数,即得到前n个片段的稀疏...

【专利技术属性】
技术研发人员:李凯管民皇马然沈礼权安平
申请(专利权)人:上海大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1