基于特征融合和增量滑动窗口的视频摘要生成方法及系统技术方案

技术编号:27878120 阅读:18 留言:0更新日期:2021-03-31 01:02
本申请公开了基于特征融合和增量滑动窗口的视频摘要生成方法及系统,对待处理视频基于图建模的方式进行特征表示,得到每一帧图像对应的若干个图特征表示;计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值;对每一帧图像的所有特征差异值进行自适应加权求和,得到每一帧图像的差异度量;采用自适应长度的滑动窗口对待处理视频进行滑动检测;在滑动窗口滑动检测的过程中,假设滑动窗口内R帧图像的差异度量符合正态分布,计算第R+1帧的差异度量是否符合同一正态分布;如果不符合则表示存在镜头边界;对每个镜头中的所有帧图像进行聚类处理,获取关键帧;将所有的关键帧按照时间顺序进行排列生成视频摘要。

【技术实现步骤摘要】
基于特征融合和增量滑动窗口的视频摘要生成方法及系统
本申请涉及视频检索、视频存储、视频浏览等视频处理
,特别是涉及基于特征融合和增量滑动窗口的视频摘要生成方法及系统。
技术介绍
本部分的陈述仅仅是提到了与本申请相关的
技术介绍
,并不必然构成现有技术。视频自动摘要是通过对于视频内容的分析和理解,从原始视频中提取有意义的片段(动态摘要)/帧(静态摘要或关键帧提取)。这种方法不仅减少了用户检索和浏览视频的时间,而且在一定程度上减少了人工摘要所花费的成本。由于动态视频摘要存在同步和复杂的操作问题,而关键帧的提取实现起来简单且不受同步条件限制,因此基于关键帧的视频摘要技术得到了广泛研究。现有的关键帧提取算法中,像基于聚类、字典学习、深度学习的方法由于需要先验知识或依赖于大量数据,因而实现起来效率较低、实时性较差。基于镜头边界检测的算法由于只依赖一个局部数据流,因而实现效率高。基于镜头边界的检测算法通常与帧的空间特征提取、连续帧之间的差异度量方式、阈值的设定有关。现有方法中为捕获多视觉特性,通常采用固定的加权多特征融合方式,这种方法虽有成效,但忽略了视频内容的动态性和在线视频类型的未知性和多样性,因而容易受到局部噪音的影响,算法的适用性也较差。另外现有方法中为提高镜头检测精度,采用了自适应阈值,但是这种方法经常需要和滑动窗搭配使用,增加了多参数的调节问题。
技术实现思路
为了解决现有技术的不足,本申请提供了基于特征融合和增量滑动窗口的视频摘要生成方法及系统;镜头检测方面:其一,通过学习增量滑动窗内的连续帧间的颜色、纹理、边缘在时域上的动态变化,来为每种特征差异自适应分配权重,提高了对于未知视频镜头边界的检测精度。其二,在镜头变更决策方面,提出一种新的自适应阈值,该阈值是在自增的滑动窗内自适应的调节,从而避免了多参数的调节问题,增强了镜头检测的鲁棒性。其三,在关键帧提取方面,提出了一种实时关键帧提取框架。该框架依赖于局部的数据流学习,无需人工干预,预期可提高用户的满意度。第一方面,本申请提供了基于特征融合和增量滑动窗口的视频摘要生成方法;基于特征融合和增量滑动窗口的视频摘要生成方法,包括:获取待处理视频;对待处理视频基于图建模的方式进行特征表示,得到每一帧图像对应的若干个图特征表示;获取待处理视频的中值图;计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值;对每一帧图像的所有特征差异值进行加权求和,得到每一帧图像的差异度量;采用自适应长度的滑动窗口对待处理视频进行滑动检测;在滑动窗口滑动检测的过程中,假设滑动窗口内R帧图像的差异度量符合正态分布,计算第R+1帧的差异度量是否符合同一正态分布;其中R为正整数;如果符合就表示不存在镜头边界;如果不符合则表示存在镜头边界;按照镜头边界对待处理视频进行划分,划分出对应的镜头;对每个镜头中的所有帧图像进行聚类处理,将距离簇中心最近的帧作为关键帧;将所有的关键帧按照时间顺序进行排列,生成视频摘要。第二方面,本申请提供了基于特征融合和增量滑动窗口的视频摘要生成系统;基于特征融合和增量滑动窗口的视频摘要生成系统,包括:图特征表示模块,其被配置为:获取待处理视频;对待处理视频基于图建模的方式进行特征表示,得到每一帧图像对应的若干个图特征表示;差异度量获取模块,其被配置为:差异度获取待处理视频的中值图;计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值;对每一帧图像的所有特征差异值进行加权求和,得到每一帧图像的差异度量;镜头边界检测模块,其被配置为:采用自适应长度的滑动窗口对待处理视频进行滑动检测;在滑动窗口滑动检测的过程中,假设滑动窗口内R帧图像的差异度量符合正态分布,计算第R+1帧的差异度量是否符合同一正态分布;其中R为正整数;如果符合就表示不存在镜头边界;如果不符合则表示存在镜头边界;按照镜头边界对待处理视频进行划分,划分出对应的镜头;视频摘要生成模块,其被配置为:对每个镜头中的所有帧图像进行聚类处理,将距离簇中心最近的帧作为关键帧;将所有的关键帧按照时间顺序进行排列,生成视频摘要。第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。与现有技术相比,本申请的有益效果是:(1)本申请提出一种基于多特征图的自适应差异融合方法来检测实时视频的镜头边界。该方法根据滑动窗内的观测数据波动进行自适应学习,来捕获帧与帧之间的动态特性,增强了算法对于不同视频的适用性以及不同镜头检测的鲁棒性。(2)本申请提出一种新的自适应阈值计算方法来进行实时镜头分割。利用递增滑动窗内的特征差异融合序列来学习一个容忍因子κ,并结合一个固定的全局参数α来对当前阈值进行自适应的微观调整,避免了人工干预和多参数调节问题。(3)本申请提出一种适用于实时关键帧提取的框架。该框架计算效率高,利用一个局部观测数据流进行学习,便可对当前帧进行一个镜头变更检测,从而实现关键帧的实时提取,预期可提升在线浏览者的用户体验。本申请附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为本申请总体框架流程示意图。图2为本申请自适应容忍系数的学习流程图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本申请使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如其中,所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。实施例一本实施例提供了基于特征融合和增量滑动窗口的视频摘要生成方本文档来自技高网
...

【技术保护点】
1.基于特征融合和增量滑动窗口的视频摘要生成方法,其特征是,包括:/n获取待处理视频;对待处理视频基于图建模的方式进行特征表示,得到每一帧图像对应的若干个图特征表示;/n获取待处理视频的中值图;计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值;对每一帧图像的所有特征差异值进行加权求和,得到每一帧图像的差异度量;/n采用自适应长度的滑动窗口对待处理视频进行滑动检测;在滑动窗口滑动检测的过程中,假设滑动窗口内R帧图像的差异度量符合正态分布,计算第R+1帧的差异度量是否符合同一正态分布;其中R为正整数;如果符合就表示不存在镜头边界;如果不符合则表示存在镜头边界;按照镜头边界对待处理视频进行划分,划分出对应的镜头;/n对每个镜头中的所有帧图像进行聚类处理,将距离簇中心最近的帧作为关键帧;将所有的关键帧按照时间顺序进行排列,生成视频摘要。/n

【技术特征摘要】
1.基于特征融合和增量滑动窗口的视频摘要生成方法,其特征是,包括:
获取待处理视频;对待处理视频基于图建模的方式进行特征表示,得到每一帧图像对应的若干个图特征表示;
获取待处理视频的中值图;计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值;对每一帧图像的所有特征差异值进行加权求和,得到每一帧图像的差异度量;
采用自适应长度的滑动窗口对待处理视频进行滑动检测;在滑动窗口滑动检测的过程中,假设滑动窗口内R帧图像的差异度量符合正态分布,计算第R+1帧的差异度量是否符合同一正态分布;其中R为正整数;如果符合就表示不存在镜头边界;如果不符合则表示存在镜头边界;按照镜头边界对待处理视频进行划分,划分出对应的镜头;
对每个镜头中的所有帧图像进行聚类处理,将距离簇中心最近的帧作为关键帧;将所有的关键帧按照时间顺序进行排列,生成视频摘要。


2.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法,其特征是,对待处理视频基于图建模的方式进行特征表示,得到每一帧图像对应的若干个图特征表示;具体包括:
对待处理视频的每一帧图像进行特征采集,采集的特征包括:模糊颜色直方图FCH、局部纹理直方图LBP、边缘方向直方图Canny和边缘梯度直方图Sobel;
针对每帧提取的四种特征中的每一种特征均进行图建模,得到四个图集。


3.如权利要求2所述的基于特征融合和增量滑动窗口的视频摘要生成方法,其特征是,所述针对每帧提取的四种特征中的每一种特征均进行图建模,得到四个图集;图建模的具体步骤包括:
以每一种特征中的每个分量为节点,任意两个节点之间的欧式距离作为两个节点连接边的权重,构造图模型;将图模型转换为邻接矩阵。


4.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法,其特征是,获取待处理视频的中值图;具体包括:
将待处理视频中的距离所有帧距离之和最小的帧作为所述待处理视频的中值图。


5.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法,其特征是,计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值;具体包括:



其中Δi,j为两个图对应边di,j和d'i,j的差异的规范化形式,具体计算如下:



最后得到规范化距离计算方式如下:



其中D为归一化因子,且D=#{Δi,j:Δi,j>0},其中i,j=1,2,3,4....T,#{·}为计数函数;
根据公式(8)、公式(9)和公式(10),计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值


6.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法,其特征是,对每一帧图像的所有特征差异值进行加权求和,得到每一帧图像的差异度量;具体包括:
首先,根据所有帧图像的所有特征差异值,计算出每一种特征差异值的方差,然后根据每一种特征差异值的方差,计算出每一种特征差异值的自适应权重;
其次,根据每一种特征差异值的自适应权重,对每一帧图像的所有特征差异值进行加权求和,得到每一帧图像...

【专利技术属性】
技术研发人员:吕晨马彩霞姜雪王欣柴春蕾吕蕾刘弘
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1