基于三维密集网络的镜头边界检测方法技术

技术编号:22568333 阅读:43 留言:0更新日期:2019-11-16 13:29
本发明专利技术公开了一种基于三维密集网络的镜头边界检测方法,步骤为:将视频分为帧段后随机分配标签,再将其输入三维密集网络完成分类;三维密集网络包括顺序连接的三维卷积层、最大池化层、四镜头边界检测块和线性层,三维卷积层为输入层,线性层为输出层,镜头边界检测块包括首尾连接的多组重复单元,重复单元包括作为输入的瓶颈层和作为输出的经过三维卷积的密集块,上一组重复单元的输出作为下一组重复单元的输出,镜头边界检测块后均连有过渡层,过渡层包括Batch Normalization、RELU、一卷积和平均池化层。本发明专利技术提高三维卷积结合视频的时空特征,采用密集网络进行特征复用,不仅提高了检测准确度,还降低了计算复杂度。

Shot boundary detection method based on 3D dense network

The invention discloses a shot boundary detection method based on three-dimensional dense network, the steps are: divide video into frame segments, randomly assign labels, and input them into three-dimensional dense network to complete classification; three-dimensional dense network includes three-dimensional convolution layer, maximum pooling layer, four shot boundary detection block and linear layer connected in sequence, three-dimensional convolution layer is input layer and linear layer is output layer The shot boundary detection block includes a plurality of groups of repetition units connected head and tail, the repetition unit includes a bottleneck layer as input and a dense block after three-dimensional convolution as output, the output of the previous group of repetition units is the output of the next group of repetition units, the shot boundary detection block is connected with a transition layer, and the transition layer includes batch normalization, relu, a convolution and average pooling layer. The invention improves the space-time characteristics of 3D convolution combined with video, adopts dense network for feature multiplexing, not only improves the detection accuracy, but also reduces the calculation complexity.

【技术实现步骤摘要】
基于三维密集网络的镜头边界检测方法
本专利技术属于视频内容分析
,涉及一种可用于视频分析与检索中的镜头边界检测技术,特别涉及一种基于三维密集卷积网络(3DDenseNet)的镜头边界检测方法。
技术介绍
计算机和多媒体技术的迅速发展,产生大量视频数据。如何在大量视频中找到所需信息的视频检索技术成为研究的热点问题。视频检索的第一步是提取特征,提取特征首先要对视频镜头进行分割,镜头边界检测就是一种视频分割的重要方式。一般镜头转换方式分为两种:渐变(Gradual)和切变(Shape)。渐变是指相邻镜头之间逐渐发生变化,延续十几或者几十帧;切变是指下一个镜头在上一个镜头结束后立刻出现。镜头边界检测目前广泛应用于数字电视、交通监控、电子警察、银行监控、商业信息管理和国家安全等相关行业。商业应用可以带来巨大的经济利益,国家安全的应用可以维护社会的稳定和发展。常用的镜头边界检测方法有直方图法、阈值法、互信息法、支持向量机法和深度学习法等。本领域技术人员针对以上方法做了许多研究工作。《FastVideoShotBoundaryDetectionBasedonSVDandPatternMatching》(InternationalWorkshoponSystems.IEEE,2007.)提出了提取视频帧的HSV域颜色直方图作为特征,使用奇异值分解来描述颜色直方图,其计算复杂度较低,提升了检测的速度,但检测精度不理想;《Informationtheory-basedshotcut/fadedetectionandvideosummarization》(TransactionsonCircuits&SystemsforVideoTechnology,2005,16(1):82-91.)使用互信息和联合熵的方法描述视频帧间相似性,比较相邻帧的相似性和全局阈值的关系找到镜头,此方法没有考虑到局部内容的变化使得准确率受到影响;《ShotBoundaryDetectionbyaHierarchicalSupervisedApproach》(InternationalWorkshoponSystems.IEEE,2007.)利用支持向量机作为一个分类器区分镜头边界和非镜头边界,效果并不理想;《LearningSpatiotemporalFeatureswith3DConvolutionalNetworks》(InternationalConferenceonComputerVision(ICCV),2015,4489-4497.)提出了3D卷积网络更适合在大规模视频数据集上学习,易于训练和使用;《Large-scale,FastandAccurateShotBoundaryDetectionthroughSpatio-temporalConvolutionalNeuralNetworks》(arXivpreprintarXiv:1705.03281,2017.)通过一个C3D网络,以固定长度的段作为输入,并将其分为渐变、切变和不变三类,该方法验证了ConvNet在该任务中的有效性,但是处理不同尺度的渐变时,无法定位镜头边界;《RidiculouslyFastShotBoundaryDetectionwithFullyConvolutionalNeuralNetworks》(arXivpreprintarXiv:1705.08214,2017.)采用全卷积网络,它以整个视频序列作为输入,并在过渡中将正标签分配给帧,从而检测镜头边界,但并没有解决尺度不同的定位问题;《FastVideoShotTransitionLocalizationwithDeepStructuredModels》(arXivpreprintarXiv:1808.04234,2018.)构建初始滤波、切变检测和渐变检测三部分组成的检测框架,采用了C3DConvNet和ResNet-18网络的级联架构,提高了实时速度,但网络层次加深出现的冗余等问题没有解决。深度学习的卷积神经网络能够更好地理解图像的高层语义信息,将其用于视频镜头边界检测可以取得很好的检测结果。目前的特征提取网络主要使用2D卷积,通常用来对图像进行处理,但当对视频进行分析时会忽略时序信息,造成帧间信息的丢失,虽然随着网络模型深度的加深即采用3D卷积进行特征提取,检测效果会越好,但网络层次加深会导致计算量大及效率降低等问题。因此,开发一种计算量小、效率高且检测效果好的镜头边界检测方法极具现实意义。
技术实现思路
本专利技术的目的在于克服现有技术检测效果不佳、计算量大且效率低下的缺陷,提供一种计算量小、效率高且检测效果好的镜头边界检测方法。为实现上述目的,本专利技术提供如下技术方案:基于三维密集网络的镜头边界检测方法,步骤如下:(1)将视频分为帧段后,随机分配标签;(2)将分配好标签的帧段输入三维密集网络中训练,输出分类完成的帧段;所述三维密集网络(3DDenseNet)包括顺序连接的三维卷积层(Conv3D)、最大池化层(MaxPooling)、四个镜头边界检测块(SBDBlock)和线性层(Linear,输出3类特征),三维卷积层为输入层,线性层为输出层,所述镜头边界检测块(SBDBlock)包括首尾连接的多组重复单元,重复单元包括作为输入的瓶颈层(Bottleneck)和作为输出的经过三维卷积的密集块(DenseBlock),上一组重复单元的输出作为下一组重复单元的输出,采用将3D卷积取代DenseBlock原有的2D卷积,三维卷积用来结合视频的时空特征,提高检测的准确率,每个镜头边界检测块后均连有过渡层(Transition),所述过渡层(Transition)包括BatchNormalization(批归一化,BN)、RELU(激活函数)、一个1×1的卷积和2×2的平均池化层(AvgPooling)。传统的特征提取网络使用2D卷积,通常用来对图像进行处理,但当对视频进行分析时会忽略时序信息,造成帧间信息的丢失。本专利技术采用了由2D卷积拓展的3D卷积进行特征提取,加入了时间维度,可以直接对视频的时间和空间信息进行提取,捕捉视频的运动信息。2D卷积针对单通道,输入图像的通道为1,输入的大小为(1,height,weight),卷积核尺寸为(1,k_h,k_w),卷积核在输入图像的空间维度上进行滑窗操作,每次滑窗与(k_h,k_w)窗口内的值进行卷积操作,得到输出图像中的一个值。针对多通道,假设输入图像的通道为3,输入的大小为(3,height,weight),卷积核尺寸为(3,k_h,k_w),卷积核在输入图像上的空间维度上进行滑窗操作,每次滑窗和3个通道上的(k_h,k_w)窗口内的所有值进行卷积操作,得到输出图像的一个值。3D卷积同样分为单通道和多通道。其中单通道与2D卷积的不同之处在于输入的大小为(1,time,height,weight),多了一个时间信息。卷积核也增加了一个k_t维度,因此卷积核在输入视频的空间维度和时间维度上均进行滑窗操作。多通本文档来自技高网
...

【技术保护点】
1.基于三维密集网络的镜头边界检测方法,其特征在于,步骤如下:/n(1)将视频分为帧段后,随机分配标签;/n(2)将分配好标签的帧段输入三维密集网络,输出分类完成的帧段;/n所述三维密集网络包括顺序连接的三维卷积层、最大池化层、四个镜头边界检测块和线性层,三维卷积层为输入层,线性层为输出层,所述镜头边界检测块包括首尾连接的多组重复单元,重复单元包括作为输入的瓶颈层和作为输出的经过三维卷积的密集块,上一组重复单元的输出作为下一组重复单元的输出,每个镜头边界检测块后均连有过渡层,所述过渡层包括Batch Normalization、RELU、一个1×1的卷积和2×2的平均池化层。/n

【技术特征摘要】
1.基于三维密集网络的镜头边界检测方法,其特征在于,步骤如下:
(1)将视频分为帧段后,随机分配标签;
(2)将分配好标签的帧段输入三维密集网络,输出分类完成的帧段;
所述三维密集网络包括顺序连接的三维卷积层、最大池化层、四个镜头边界检测块和线性层,三维卷积层为输入层,线性层为输出层,所述镜头边界检测块包括首尾连接的多组重复单元,重复单元包括作为输入的瓶颈层和作为输出的经过三维卷积的密集块,上一组重复单元的输出作为下一组重复单元的输出,每个镜头边界检测块后均连有过渡层,所述过渡层包括BatchNormalization、RELU、一个1×1的卷积和2×2的平均池化层。


2.根据权利要求1所述的基于三维密集网络的镜头边界检测方法,其特征在于,所述瓶颈层包括BatchNormalization、RELU和一个1×1×1的卷积。


3.根据权利要求1所述的基于三维密集网络的镜头边界检测方法,其特征在于,所述帧段标签共有三类,具体为渐变、切变和不变。


4.根据权利要求3所述的基于三维密集网络的镜头边界检测方法,其特征在于,所述分类完成的帧段还需进行处理才能得到最终的三类帧段,具体步骤为:
(i)合并分类完成的帧段中的具有相同标签的帧段;
(ii)对标记为渐变的帧段进行二次检测,检测每段首帧至尾帧的颜色直方图,测量直方图之间的巴氏距离,距离足够小则认定为是不变段;
(iii)合并步骤(ii)处理后的帧段,输出最终的三类帧段。
...

【专利技术属性】
技术研发人员:赵晓丽张翔张嘉祺方志军李国平商习武王国中
申请(专利权)人:上海工程技术大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1