基于特征融合和增量滑动窗口的视频摘要生成方法及系统技术方案

技术编号：27878120 阅读：18 留言：0更新日期：2021-03-31 01:02

本申请公开了基于特征融合和增量滑动窗口的视频摘要生成方法及系统，对待处理视频基于图建模的方式进行特征表示，得到每一帧图像对应的若干个图特征表示；计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值；对每一帧图像的所有特征差异值进行自适应加权求和，得到每一帧图像的差异度量；采用自适应长度的滑动窗口对待处理视频进行滑动检测；在滑动窗口滑动检测的过程中，假设滑动窗口内R帧图像的差异度量符合正态分布，计算第R+1帧的差异度量是否符合同一正态分布；如果不符合则表示存在镜头边界；对每个镜头中的所有帧图像进行聚类处理，获取关键帧；将所有的关键帧按照时间顺序进行排列生成视频摘要。

全部详细技术资料下载

【技术实现步骤摘要】
基于特征融合和增量滑动窗口的视频摘要生成方法及系统
本申请涉及视频检索、视频存储、视频浏览等视频处理
，特别是涉及基于特征融合和增量滑动窗口的视频摘要生成方法及系统。
技术介绍
本部分的陈述仅仅是提到了与本申请相关的
技术介绍
，并不必然构成现有技术。视频自动摘要是通过对于视频内容的分析和理解，从原始视频中提取有意义的片段(动态摘要)/帧(静态摘要或关键帧提取)。这种方法不仅减少了用户检索和浏览视频的时间，而且在一定程度上减少了人工摘要所花费的成本。由于动态视频摘要存在同步和复杂的操作问题，而关键帧的提取实现起来简单且不受同步条件限制，因此基于关键帧的视频摘要技术得到了广泛研究。现有的关键帧提取算法中，像基于聚类、字典学习、深度学习的方法由于需要先验知识或依赖于大量数据，因而实现起来效率较低、实时性较差。基于镜头边界检测的算法由于只依赖一个局部数据流，因而实现效率高。基于镜头边界的检测算法通常与帧的空间特征提取、连续帧之间的差异度量方式、阈值的设定有关。现有方法中为捕获多视觉特性，通常采用固定的加权多特征融合方式，这种方法虽有成效，但忽略了视频内容的动态性和在线视频类型的未知性和多样性，因而容易受到局部噪音的影响，算法的适用性也较差。另外现有方法中为提高镜头检测精度，采用了自适应阈值，但是这种方法经常需要和滑动窗搭配使用，增加了多参数的调节问题。
技术实现思路
为了解决现有技术的不足，本申请提供了基于特征融合和增量滑动窗口的视频摘要生成方法及系统；镜头检测方面：其一，通过...

【技术保护点】
1.基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，包括：/n获取待处理视频；对待处理视频基于图建模的方式进行特征表示，得到每一帧图像对应的若干个图特征表示；/n获取待处理视频的中值图；计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值；对每一帧图像的所有特征差异值进行加权求和，得到每一帧图像的差异度量；/n采用自适应长度的滑动窗口对待处理视频进行滑动检测；在滑动窗口滑动检测的过程中，假设滑动窗口内R帧图像的差异度量符合正态分布，计算第R+1帧的差异度量是否符合同一正态分布；其中R为正整数；如果符合就表示不存在镜头边界；如果不符合则表示存在镜头边界；按照镜头边界对待处理视频进行划分，划分出对应的镜头；/n对每个镜头中的所有帧图像进行聚类处理，将距离簇中心最近的帧作为关键帧；将所有的关键帧按照时间顺序进行排列，生成视频摘要。/n

【技术特征摘要】
1.基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，包括：
获取待处理视频；对待处理视频基于图建模的方式进行特征表示，得到每一帧图像对应的若干个图特征表示；
获取待处理视频的中值图；计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值；对每一帧图像的所有特征差异值进行加权求和，得到每一帧图像的差异度量；
采用自适应长度的滑动窗口对待处理视频进行滑动检测；在滑动窗口滑动检测的过程中，假设滑动窗口内R帧图像的差异度量符合正态分布，计算第R+1帧的差异度量是否符合同一正态分布；其中R为正整数；如果符合就表示不存在镜头边界；如果不符合则表示存在镜头边界；按照镜头边界对待处理视频进行划分，划分出对应的镜头；
对每个镜头中的所有帧图像进行聚类处理，将距离簇中心最近的帧作为关键帧；将所有的关键帧按照时间顺序进行排列，生成视频摘要。

2.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，对待处理视频基于图建模的方式进行特征表示，得到每一帧图像对应的若干个图特征表示；具体包括：
对待处理视频的每一帧图像进行特征采集，采集的特征包括：模糊颜色直方图FCH、局部纹理直方图LBP、边缘方向直方图Canny和边缘梯度直方图Sobel；
针对每帧提取的四种特征中的每一种特征均进行图建模，得到四个图集。

3.如权利要求2所述的基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，所述针对每帧提取的四种特征中的每一种特征均进行图建模，得到四个图集；图建模的具体步骤包括：
以每一种特征中的每个分量为节点，任意两个节点之间的欧式距离作为两个节点连接边的权重，构造图模型；将图模型转换为邻接矩阵。

4.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，获取待处理视频的中值图；具体包括：
将待处理视频中的距离所有帧距离之和最小的帧作为所述待处理视频的中值图。

5.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值；具体包括：

其中Δi,j为两个图对应边di,j和d'i,j的差异的规范化形式，具体计算如下：

最后得到规范化距离计算方式如下：

其中D为归一化因子，且D＝#{Δi,j:Δi,j>0}，其中i,j＝1,2,3,4....T,#{·}为计数函数；
根据公式(8)、公式(9)和公式(10)，计算每一帧图像的若干个图特征表示与中值图的对应特征表示之间的特征差异值

6.如权利要求1所述的基于特征融合和增量滑动窗口的视频摘要生成方法，其特征是，对每一帧图像的所有特征差异值进行加权求和，得到每一帧图像的差异度量；具体包括：
首先，根据所有帧图像的所有特征差异值，计算出每一种特征差异值的方差，然后根据每一种特征差异值的方差，计算出每一种特征差异值的自适应权重；
其次，根据每一种特征差异值的自适应权重，对每一帧图像的所有特征差异值进行加权求和，得到每一帧图像...

【专利技术属性】
技术研发人员：吕晨，马彩霞，姜雪，王欣，柴春蕾，吕蕾，刘弘，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人