基于三维密集网络的镜头边界检测方法技术

技术编号：22568333 阅读：43 留言：0更新日期：2019-11-16 13:29

本发明专利技术公开了一种基于三维密集网络的镜头边界检测方法，步骤为：将视频分为帧段后随机分配标签，再将其输入三维密集网络完成分类；三维密集网络包括顺序连接的三维卷积层、最大池化层、四镜头边界检测块和线性层，三维卷积层为输入层，线性层为输出层，镜头边界检测块包括首尾连接的多组重复单元，重复单元包括作为输入的瓶颈层和作为输出的经过三维卷积的密集块，上一组重复单元的输出作为下一组重复单元的输出，镜头边界检测块后均连有过渡层，过渡层包括Batch Normalization、RELU、一卷积和平均池化层。本发明专利技术提高三维卷积结合视频的时空特征，采用密集网络进行特征复用，不仅提高了检测准确度，还降低了计算复杂度。

Shot boundary detection method based on 3D dense network

The invention discloses a shot boundary detection method based on three-dimensional dense network, the steps are: divide video into frame segments, randomly assign labels, and input them into three-dimensional dense network to complete classification; three-dimensional dense network includes three-dimensional convolution layer, maximum pooling layer, four shot boundary detection block and linear layer connected in sequence, three-dimensional convolution layer is input layer and linear layer is output layer The shot boundary detection block includes a plurality of groups of repetition units connected head and tail, the repetition unit includes a bottleneck layer as input and a dense block after three-dimensional convolution as output, the output of the previous group of repetition units is the output of the next group of repetition units, the shot boundary detection block is connected with a transition layer, and the transition layer includes batch normalization, relu, a convolution and average pooling layer. The invention improves the space-time characteristics of 3D convolution combined with video, adopts dense network for feature multiplexing, not only improves the detection accuracy, but also reduces the calculation complexity.

全部详细技术资料下载

【技术实现步骤摘要】
基于三维密集网络的镜头边界检测方法
本专利技术属于视频内容分析
，涉及一种可用于视频分析与检索中的镜头边界检测技术，特别涉及一种基于三维密集卷积网络(3DDenseNet)的镜头边界检测方法。
技术介绍
计算机和多媒体技术的迅速发展，产生大量视频数据。如何在大量视频中找到所需信息的视频检索技术成为研究的热点问题。视频检索的第一步是提取特征，提取特征首先要对视频镜头进行分割，镜头边界检测就是一种视频分割的重要方式。一般镜头转换方式分为两种：渐变(Gradual)和切变(Shape)。渐变是指相邻镜头之间逐渐发生变化，延续十几或者几十帧；切变是指下一个镜头在上一个镜头结束后立刻出现。镜头边界检测目前广泛应用于数字电视、交通监控、电子警察、银行监控、商业信息管理和国家安全等相关行业。商业应用可以带来巨大的经济利益，国家安全的应用可以维护社会的稳定和发展。常用的镜头边界检测方法有直方图法、阈值法、互信息法、支持向量机法和深度学习法等。本领域技术人员针对以上方法做了许多研究工作。《FastVideoShotBoundaryDetectionBasedonSVDandPatternMatching》(InternationalWorkshoponSystems.IEEE,2007.)提出了提取视频帧的HSV域颜色直方图作为特征，使用奇异值分解来描述颜色直方图，其计算复杂度较低，提升了检测的速度，但检测精度不理想；《Informationtheory-basedshotcut/fadedetectionandvide...

【技术保护点】
1.基于三维密集网络的镜头边界检测方法，其特征在于，步骤如下：/n(1)将视频分为帧段后，随机分配标签；/n(2)将分配好标签的帧段输入三维密集网络，输出分类完成的帧段；/n所述三维密集网络包括顺序连接的三维卷积层、最大池化层、四个镜头边界检测块和线性层，三维卷积层为输入层，线性层为输出层，所述镜头边界检测块包括首尾连接的多组重复单元，重复单元包括作为输入的瓶颈层和作为输出的经过三维卷积的密集块，上一组重复单元的输出作为下一组重复单元的输出，每个镜头边界检测块后均连有过渡层，所述过渡层包括Batch Normalization、RELU、一个1×1的卷积和2×2的平均池化层。/n

【技术特征摘要】
1.基于三维密集网络的镜头边界检测方法，其特征在于，步骤如下：
(1)将视频分为帧段后，随机分配标签；
(2)将分配好标签的帧段输入三维密集网络，输出分类完成的帧段；
所述三维密集网络包括顺序连接的三维卷积层、最大池化层、四个镜头边界检测块和线性层，三维卷积层为输入层，线性层为输出层，所述镜头边界检测块包括首尾连接的多组重复单元，重复单元包括作为输入的瓶颈层和作为输出的经过三维卷积的密集块，上一组重复单元的输出作为下一组重复单元的输出，每个镜头边界检测块后均连有过渡层，所述过渡层包括BatchNormalization、RELU、一个1×1的卷积和2×2的平均池化层。

2.根据权利要求1所述的基于三维密集网络的镜头边界检测方法，其特征在于，所述瓶颈层包括BatchNormalization、RELU和一个1×1×1的卷积。

3.根据权利要求1所述的基于三维密集网络的镜头边界检测方法，其特征在于，所述帧段标签共有三类，具体为渐变、切变和不变。

4.根据权利要求3所述的基于三维密集网络的镜头边界检测方法，其特征在于，所述分类完成的帧段还需进行处理才能得到最终的三类帧段，具体步骤为：
(i)合并分类完成的帧段中的具有相同标签的帧段；
(ii)对标记为渐变的帧段进行二次检测，检测每段首帧至尾帧的颜色直方图，测量直方图之间的巴氏距离，距离足够小则认定为是不变段；
(iii)合并步骤(ii)处理后的帧段，输出最终的三类帧段。
...

【专利技术属性】
技术研发人员：赵晓丽，张翔，张嘉祺，方志军，李国平，商习武，王国中，
申请(专利权)人：上海工程技术大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人