一种基于多模态决策融合的视频场景边界检测方法技术

技术编号：41311571 阅读：4 留言：0更新日期：2024-05-13 14:54

本发明专利技术涉及一种基于多模态决策融合的视频场景边界检测方法，属于视频场景边界检测技术领域，解决了现有技术中同时适应多种内容的场景边界检测准确率低的问题。方法包括以下步骤：对待检测视频进行镜头边界检测，得到待检测视频中每个镜头；在每个模态下判断每个镜头是否是转换边界，得到每个模态的边界决策；基于每个模态的边界决策构建多模态模糊决策空间，基于多模态模糊决策空间进行场景边界决策得到待检测视频的场景边界。实现了更加准确的同时面向多种内容的场景边界检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频场景边界检测，尤其涉及一种基于多模态决策融合的视频场景边界检测方法。

技术介绍

1、通信技术的发展以及摄制设备的进步，带来了媒体信息传播格局的巨变，网络信息主流传播形态从文本演变到视频。常规的视频内容创作已经无法满足人们对视频的需求，基于已有视频的二次内容创作越来越受到关注。视频内容再生产，需要将视频分割为镜头、场景等小粒度片段。本文通过基于多模态决策融合的视频场景边界检测系统，实现了面向新闻播报和综艺晚会的视频分割。

2、最早的场景定义源自电影摄影学，场景被定义为一段与时间和空间相统一的图片序列，由一系列不同角度拍摄的镜头组成，通常在一个时段内拍摄，作为一个独立的语义单元，场景介于镜头和序列之间，比镜头更大，比视频序列更小。场景是由一系列的镜头组成，这些镜头呈现的故事是语义连贯的，描述同一时间、同一地点发生的事件或者是多个并行事件交织发生。在新闻视频领域，场景多被描述为新闻故事单元，即一个完整的新闻故事为一个场景。对于综艺晚会视频来说，不同类型的综艺拍摄手法、节目内容差别大，本文面向的视频为主持人开场后由演员进行内容呈现模式的视频，此时场景可以描述为一个完整的节目单元。

3、视频场景边界检测可以分为基于单模态的视频场景边界检测算法和基于多模态的视频场景边界检测算法两类。基于单模态的视频场景边界检测算法多提取视觉模态特征作为输入，利用镜头关键帧视觉特性结合场景的构成模式进行视频场景边界检测。

4、基于多模态的视频场景边界检测能够学习到的更完备的特征表示，内容适应性更强。在同时

技术实现思路

1、鉴于上述的分析，本专利技术实施例旨在提供一种基于多模态决策融合的视频场景边界检测方法，用以解决现有同时适应多种内容的场景边界检测准确率低的问题。

2、一方面，本专利技术实施例提供了一种基于多模态决策融合的视频场景边界检测方法，包括以下步骤：

3、对待检测视频进行镜头边界检测得到待检测视频中每个镜头；

4、在每个模态下判断每个镜头是否是转换边界，得到每个模态的边界决策；

5、基于每个模态的边界决策构建多模态模糊决策空间，基于多模态模糊决策空间进行场景边界决策得到待检测视频的场景边界。

6、基于上述方法的进一步改进，基于每个模态的边界决策构建多模态模糊决策空间，包括：

7、计算每个模态的边界模糊度；

8、根据每个模态的边界模糊度得到每个模态模糊后的决策空间；

9、基于每个模态模糊后的决策空间构建多模态模糊决策空间。

10、基于上述方法的进一步改进，采用以下过程计算每个模态的边界模糊度：

11、构建场景边界数据集；所述场景边界数据集中每个样本包括每条视频的镜头，以及每个镜头在每个模态下是否是单模态语义边界决策和是否是场景边界的标签；

12、计算场景边界数据集中每个样本在每个模态下不同偏移度的场景边界总数；

13、根据场景边界数据集中每个样本在每个模态下不同偏移度的场景边界总数计算每个模态的边界模糊度。

14、基于上述方法的进一步改进，采用以下公式计算场景边界数据集中每个样本在每个模态下不同偏移度的场景边界总数：

15、

16、其中，dm(i)表示样本在模态m下的边界决策中第i个镜头的决策结果，d表示偏移长度，g(i+d)表示第i+d个镜头是否是场景边界的标签，k表示样本在m模态m下的边界决策dm的长度，nm(d)表示样本在m模态m下的边界决策中与场景边界偏移长度为d的场景边界总数。

17、基于上述方法的进一步改进，根据场景边界数据集中每个样本在每个模态下不同偏移度的场景边界总数采用以下公式计算每个模态的边界模糊度：

18、

19、其中，表示第j个样本在模态m下偏移长度为d的边界场景总数，n表示样本总数，表示第j个样本在模态m下偏移长度为l的边界场景总数，k表示最大偏移长度，pm(d)表示模态m下偏移长度为d时的边界模糊度。

20、基于上述方法的进一步改进，根据每个模态的边界模糊度得到每个模态模糊后的决策空间，包括：

21、对于每个模态的边界决策中的转换边界，采用公式计算模糊后的值，得到模糊后的决策空间；

22、其中，pm(d)表示偏移长度为d时模态m下的边界决策的模糊度，d表示偏移长度，dm(i-d)表示模态m下的边界决策中第i-d个镜头的决策结果，表示模态m下的边界决策中第i个镜头的决策结果模糊后的决策空间，k表示模态m下的边界决策dm的长度。

23、基于上述方法的进一步改进，所述多模态包括文本模态，在文本模态下判断每个镜头是否是转换边界得到文本模态的边界决策，包括：

24、检测每个镜头的关键帧中的主题字幕得到主题字幕序列；

25、基于主题字幕序列中相邻主题字幕的相似度判断每个镜头是否是转换边界，得到文本模态的边界决策。

26、基于上述方法的进一步改进，采用以下公式计算相邻两个主题字幕的相似度：

27、

28、若相似度dtext(i,i+1)小于第一阈值，则第i个主题字幕对应的镜头为转换边界；

29、其中，ti表示主题字幕序列中第i个主题字幕，ti+1表示主题字幕序列中第i+1个主题字幕，ti∩ti+1表示ti和ti+1的交集，ti∪ti+1表示ti和ti+1的并集，crad(·)表示计算元素数量的函数。

30、基于上述方法的进一步改进，所述多模态包括视频模态，在视频模态下判断每个镜头是否是转换边界得到视频模态的边界决策，包括：

31、检测每个镜头的关键帧中的人脸特征；

32、若检测到的人脸特征与关键人的人脸特征的相似度超过第二阈值，则该检测到的人脸特征对应的镜头为转换边界；得到视频模态的边界决策。

33、基于上述方法的进一步改进，所述多模态包括音频模态，在音频模态下判断每个镜头是否是转换边界得到音频模态的边界决策，包括：

34、提取待检测视频的音频信号，基于均方根能量得到音频信号中的静音区；

35、静音区的起始时刻对应的镜头为转换边界；得到音频模态的边界决策。

36、与现有技术相比，本专利技术实施例提供的基于多模态决策融合的视频场景边界检测方法，首先对待检测视频进行镜头检测得到待检测视频中每个镜头，然后在每个模态下判断每个镜头是否是转换边界，从而得到每个模态下的边界决策结果，通过对每个模态的边界决策构建多模态模糊决策空间，然后基多模态决策空间进行决策融合判定，从而快速准确的得到待检测视频中的场景边界，提高本文档来自技高网...

【技术保护点】

1.一种基于多模态决策融合的视频场景边界检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态决策融合的视频场景边界检测方法，其特征在于，基于每个模态的边界决策构建多模态模糊决策空间，包括：

3.根据权利要求2所述的基于多模态决策融合的视频场景边界检测方法，其特征在于，采用以下过程计算每个模态的边界模糊度：

4.根据权利要求3所述的基于多模态决策融合的视频场景边界检测方法，其特征在于，采用以下公式计算场景边界数据集中每个样本在每个模态下不同偏移度的场景边界总数：

5.根据权利要求3所述的基于多模态决策融合的视频场景边界检测方法，其特征在于，根据场景边界数据集中每个样本在每个模态下不同偏移度的场景边界总数采用以下公式计算每个模态的边界模糊度：

6.根据权利要求2所述的基于多模态决策融合的视频场景边界检测方法，其特征在于，根据每个模态的边界模糊度得到每个模态模糊后的决策空间，包括：

7.根据权利要求1所述的基于多模态决策融合的视频场景边界检测方法，其特征在于，所述多模态包括文本模态，在文本模态下

8.根据权利要求7所述的基于多模态决策融合的视频场景边界检测方法，其特征在于，采用以下公式计算相邻两个主题字幕的相似度：

9.根据权利要求1所述的基于多模态决策融合的视频场景边界检测方法，其特征在于，所述多模态包括视频模态，在视频模态下判断每个镜头是否是转换边界得到视频模态的边界决策，包括：

10.根据权利要求1所述的基于多模态决策融合的视频场景边界检测方法，其特征在于，所述多模态包括音频模态，在音频模态下判断每个镜头是否是转换边界得到音频模态的边界决策，包括：

...

【技术特征摘要】

1.一种基于多模态决策融合的视频场景边界检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态决策融合的视频场景边界检测方法，其特征在于，基于每个模态的边界决策构建多模态模糊决策空间，包括：

3.根据权利要求2所述的基于多模态决策融合的视频场景边界检测方法，其特征在于，采用以下过程计算每个模态的边界模糊度：

6.根据权利要求2所述的基于多模态决策融合的视频场...

【专利技术属性】
技术研发人员：张亚娜，杨成，施慧忠，马瑞，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人