一种基于扩张卷积和密集连接的镜头边界检测方法技术

技术编号：40252070 阅读：4 留言：0更新日期：2024-02-02 22:45

本发明专利技术涉及视频检索领域，尤其是涉及一种基于扩张卷积和密集连接的镜头边界检测方法。所述检测方法包括如下步骤：对视频进行预处理，将视频的帧转换为48×27像素大小，这样做计算量相对较小，可以加快模型的训练速度，并减少过拟合。对于训练集，训练脚本随机选择包含注释过渡的100帧序列。将处理后的帧序列输入训练好的神经网络模型；模型输出每一帧的镜头边界概率，根据设定的阈值得到镜头边界帧，用于分割镜头。本发明专利技术通过在视频帧上运用卷积神经网络，准确判定镜头边界，实现视频分割，有利于视频管理和检索。本发明专利技术所涉及方法综合运用扩张卷积、自注意力和密集连接等技术，强化了特征提取和传递，提高了镜头边界检测的准确性和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频检索领域，特别地，涉及一种基于扩张卷积和密集连接的镜头边界检测方法。

技术介绍

1、目前，构建视频的一种常见方法是使用镜头构图，其中镜头之间使用不同过渡来分割。过渡的方法包括直接过渡，即直接从一个镜头切换到另一个镜头，以及渐变过渡，如：溶解、淡入淡出、擦除等。然而，由于视频格式本身并未提供有关这些过渡的明确信息，因此镜头边界检测成为视频管理和检索系统中至关重要的步骤。举例来说，在已知项目搜索任务中，镜头信息的准确捕捉可用于实现视频摘要以及内容筛选等功能。在视频检索任务中，镜头边界检测可以将整个视频分割成不同的镜头片段，从而将视频分段存储在数据库中。在视频检索过程中，系统可以针对用户查询的特定镜头内容进行搜索，从而大大减少了搜索的范围，提高了检索效率。

2、镜头边界检测方法可分为两种类型，一种是基于手工特征的镜头边界检测方法，另一种是基于深度学习的镜头边界检测方法。手工特征指的是人针对特定对象构造的特征，主要是相对于机器学习特征而来的。基于手工特征的镜头边界检测方法，包括基于像素（pixel-based）特征的检测方法，基于直方图（histogram-based）特征的检测方法，基于边缘（edge-based）特征的检测方法，基于变换（transform-based）的特征的检测方法，基于运动（motion-based）特征的检测方法等。基于手工特征的镜头边界检测方法有如下缺点：

3、（1）对复杂场景的适应性有限：

4、基于手工特征的镜头边界检测方法通常依赖于人工构造的特征，这

5、（2）通用性差：

6、基于手工特征的方法通常在特定任务和数据集上进行了优化，难以泛化到其他镜头检测问题。这限制了它们在实际应用中的通用性，需要不断重新设计和调整特征提取器。

7、（3）深度学习方法不足：

8、学者s tang, l feng等人在“fast video shot transition localization withdeep structured models”中构建初始滤波、切变检测和渐变检测三部分组成的检测框架，采用了c3dconvnet和 resnet-18网络的级联架构，提高了实时速度，但网络层次加深出现的冗余等问题没有解决。学者s chen, x nie等人在“shot contrastive self-supervisedlearning for scene boundary detection”中提出了一种使用未标记视频数据学习长视频镜头表示的自监督学习方法，速度较快，并使用较少的标签，但对于非电影或电视类型的视频效果不好。学者q li, x chen等人在“shot boundary detection based on globalfeatures and the target features”中提出了一种基于全局特征和目标特征的多步比较方案镜头边界检测算法, 可以解决特征提取过程中由于忽略目标特征而导致的误检和漏检问题，但在特定类型的视频上表现较好，鲁棒性不够高，且多步比较方案的计算复杂度较高。

技术实现思路

1、针对现有技术的不足，本专利技术提出了一种基于扩张卷积和密集连接的镜头边界检测方法，通过卷积神经网络提取视频帧的特征，根据设定的阈值判断该帧是否为镜头边界帧，从而通过镜头边界帧将视频分割为多个镜头，用于后续的视频检索等任务。

2、本专利技术采用如下技术方案：

3、一种基于扩张卷积和密集连接的镜头边界检测方法，通过神经网络模型提取视频帧的特征，输出视频帧为镜头边界帧的概率，根据设定的阈值判断该帧是否为镜头边界帧，从而通过镜头边界帧将视频分割为多个镜头，用于后续的视频检索等任务。

4、进一步的，所述神经网络模型包含三个混合卷积单元，即scdnn单元；三个单元通过密集连接卷积网络连接；所述sdcnn内部，包含了两个ddcnn层与一个空间平均池化层；所述ddcnn层内部，包含了两个扩张卷积层，并且在时间维度上采用了不同的扩张率，输出在通道维度上连接。

5、进一步的，本专利技术设计了三种不同的ddcnn块，分别为ddcnna、ddcnnb、ddcnnc。所述ddcnna是一种将三维 k×k×k卷积分解成2维k×k空间卷积以及核大小为k的一维时间卷积；所述ddcnnb是一种在ddcnna的基础上采用一个共享的二维卷积，而不是空间二维卷积的多个分支；所述ddcnnc与ddcnna相比，是一种使用3d深度可分离卷积代替了三维展开的卷积。

6、进一步的，所述三个混合卷积单元后连接自注意力层；同时，三个平均池化层的输出连接到帧间相似度比较模块；所述模块中，每一帧用与其前后50帧的余弦相似性来表示；相似度向量进一步用密集层进行变换，并连接到从网络的其他部分推断的其他特征。

7、本专利技术采用的以上技术与现有技术相比，具有以下有益效果：

8、1、本专利技术具备更强的特征学习能力。通过引入扩张卷积和密集连接，本专利技术的神经网络模型能够更好地捕获视频帧中的时空特征。扩张卷积允许模型在不同的时间尺度上进行特征提取，从而更好地识别不同类型的镜头边界。而密集连接有助于减轻梯度消失问题，增强了特征传递和学习的深度。

9、2、本专利技术具备更精确的边界检测能力。本专利技术的方法能够输出视频帧为镜头边界帧的概率，而不仅仅是二元分类结果。这意味着可以根据需要调整阈值，以实现更高的精确度或更高的召回率，从而满足不同应用场景下的需求。

10、3、本专利技术拥有多样性的ddcnn块。本专利技术设计了三种不同的ddcnn块，允许根据任务需求选择最合适的块。这种多样性可以在不同的数据集和场景中提供更好的通用性和适应性。

11、4、本专利技术引入了自注意力层。自注意力层有助于模型关注视频帧之间的时空关系，进一步提高了边界检测的准确性。这意味着模型能够更好地理解不同帧之间的关联性，进一步提高了边界检测的性能。

本文档来自技高网...

【技术保护点】

1.一种基于扩张卷积和密集连接的镜头边界检测方法，其特征在于，所述检测方法包括如下步骤：

2.根据权利要求1所述的一种基于扩张卷积和密集连接的镜头边界检测方法，其特征在于，本专利技术设计了三种不同的DDCNN层，分别为DDCNNA、DDCNNB、DDCNNC；所述DDCNNA是一种将三维K×K×K卷积分解成2维K×K空间卷积以及核大小为K的一维时间卷积；所述DDCNNB是一种在DDCNNA的基础上采用一个共享的二维卷积，而不是空间二维卷积的多个分支；所述DDCNNC与DDCNNA相比，是一种使用3D深度可分离卷积代替了三维展开的卷积。

3.根据权利要求1所述的一种基于扩张卷积和密集连接的镜头边界检测方法，其特征在于，所述三个混合卷积单元后连接自注意力层；同时，三个平均池化层的输出连接到帧间相似度比较模块；所述模块中，每一帧用与其前后50帧的余弦相似性来表示；相似度向量进一步用密集层进行变换，并连接到从网络的其他部分推断的其他特征。

【技术特征摘要】

1.一种基于扩张卷积和密集连接的镜头边界检测方法，其特征在于，所述检测方法包括如下步骤：

2.根据权利要求1所述的一种基于扩张卷积和密集连接的镜头边界检测方法，其特征在于，本发明设计了三种不同的ddcnn层，分别为ddcnna、ddcnnb、ddcnnc；所述ddcnna是一种将三维k×k×k卷积分解成2维k×k空间卷积以及核大小为k的一维时间卷积；所述ddcnnb是一种在ddcnna的基础上采用一个共享的二维卷积，...

【专利技术属性】
技术研发人员：陈丹伟，林道阳，纪翀，罗圣美，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人