当前位置: 首页 > 专利查询>上海大学专利>正文

一种幻灯片切换检测方法、系统、终端及存储介质技术方案

技术编号:21454673 阅读:23 留言:0更新日期:2019-06-26 05:00
本发明专利技术提供一种幻灯片切换检测方法,包括:在卷积神经网络结构后连接一个三分类输出层,用以获得视频帧卷的分类信息,得到三分类卷积神经网络模型;在三分类卷积神经网络模型的结构、3D ConvNet网络中的3D卷积模块和ResNet网络中的残差模块的基础上设计时、空残差网络模型;利用3D卷积模块来提取视频帧的时、空特征,将残差模块融入到3D卷积模块中得到3D卷积残差模块,构建用于视频帧卷分类的时、空残差网络模型。本发明专利技术还提供对应的检测系统、终端、计算机可读存储介质。本发明专利技术准确性更好,克服演讲视频有镜头移动、演讲者移动和多个PTZ镜头切换干扰,并且比现有方法精确度高。

【技术实现步骤摘要】
一种幻灯片切换检测方法、系统、终端及存储介质
本专利技术涉及一种视频信息处理方法,尤其是一种基于时、空残差深度学习网络模型的幻灯片切换检测方法及系统。
技术介绍
随着信息化浪潮和多媒体技术的发展,视频信息的直观性、确切性、高效性使得数字视频的应用越来越广泛,而互联网将这种视觉盛宴又紧密地联系在了一起。目前,在线学习已经成为一个重要的获取知识的方式,人们用智能化设备在会议室或者教室中录制了各种形式的学习视频,又通过互联网将其传播给更多的人。然而这些视频未经任何结构化处理,学习网站将整个视频呈现给用户。如果用户对某个知识点感兴趣,往往需要浏览整个视频才能找到对应的知识点,这样会耗费用户的大量时间和精力。据统计数据,YouTub视频上传大约是每分钟400小时的视频量。如果这些视频都未经处理,那么大量的学习者会被这些学习视频淹没,并降低他们的学习兴趣。因此,对于在线教育或者其他应用来说,自动化提取演讲视频中的代表性信息并作演讲视频摘要是非常重要的。其中幻灯片切换检测是演讲视频摘要中最为关键的技术之一,是很重要的研究课题。演讲视频有很大一部分视频类型是带幻灯片播放的视频,在这类视频中幻灯片切换检测是演讲视频摘要的一个重要研究点。通过PTZ(pan-tilt-zoom)相机将包含演讲者、投影幻灯片、观众录制成演讲视频。根据视频录制方式的不同,可以将演讲视频分成三种类型:静止的相机镜头录制、移动的相机镜头录制和相机镜头切换录制。由于演讲视频不仅记录了投影区域,也同时记录了演讲者和观众,而演讲者和观众这些背景对幻灯片切换检测造成一定的干扰,如相机镜头移动,相机镜头切换和演讲者的移动等。而且,幻灯片切换往往发生在一个很短的时间内投影区域内容的变化,很难用人工去识别切换时刻。因此演讲视频幻灯片切换检测是一个有意义且有挑战性的工作。由于复杂的噪声干扰,针对不同类型的视频国内外学者也提出了一些检测的方法。一些方法提出利用视觉特征检测相邻帧的图像相似度,例如颜色直方图,SIFT,HOG和小波等。但是这些方法并没有把演讲者的移动、镜头的移动和镜头的切换这些干扰考虑进去,比如镜头从电脑屏幕切换到演讲者,这种情况下会造成视频的变化。还有一部分方法针对的是特定视频类型,如没有镜头切换的单镜头和固定镜头拍摄。这些方法都有各自的局限性。本申请人之前申请的中国专利,申请号为:201710878115.4,公开了一种基于稀疏时变图的幻灯片切换检测方法。对多摄像机拍摄的有演讲者,幻灯片和观众的演讲视频,首先通过特征点检测和匹配将视频分段,通过对每个时间点将每段视频作为节点建立稀疏图,可以将幻灯片切换检测问题转化为推测图邻接矩阵问题。邻接矩阵间的变化反映出了幻灯片切换。该专利申请在处理静止镜头以及镜头切换类型的演讲视频上效果较好,但是却在处理演讲视频中有复杂镜头移动,如镜头移动、缩放、切换等同时存在的情况下误差较大。另外,该专利申请是基于传统图像特征点,忽略了相邻帧之间的切换信息。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于时、空残差网络模型的幻灯片切换检测方法、系统、终端及存储介质,能有效处理镜头移动/缩放、演讲者移动、镜头切换等干扰下的幻灯片切换检测问题。相比现有技术,本专利技术利用时、空残差网络模型检测幻灯片切换,能克服演讲视频有镜头移动/缩放、演讲者移动和多个PTZ镜头切换等的干扰,方法精确度高,处理演讲视频种类的范围广。本专利技术采用一种将卷积核从2D延伸到3D的3DConvNet卷积神经网络来提取视频的空间和时间特征。随着叠加的卷积层数的增多,3DConvNet会耗费更多的内存,这会对模型的训练造成一定的困难。为了解决这个问题,本专利技术采用了残差网络模型(ResidualNetwork,ResNet)。本专利技术提出的新的卷积网络模型不仅节省了训练时间,也更易于训练得到更好的幻灯片切换检测结果。根据本专利技术的第一方面,提供一种基于时、空残差网络模型的幻灯片切换检测方法,包括:将通过单个或多个镜头记录的包含幻灯片、演讲者和/或观众的视频分割成多个包含视频帧的视频帧卷;采用提取图片空域特征的网络结构的设计原则设计卷积神经网络结构;在所述卷积神经网络结构后连接一个三分类输出层,该三分类输出层用以获得视频帧卷的分类信息,得到三分类卷积神经网络模型;在三分类网络模型的结构、3DConvNet网络中的3D卷积模块和残差网络模型ResNet网络中的残差模块的基础上设计时、空残差网络模型;利用3DConvNet网络中的3D卷积模块来提取所述视频帧的时、空特征,将残差网络模型ResNet中的残差模块融入到3DConvNet网络中的3D卷积模块中得到3D卷积残差模块,构建用于视频帧卷分类的时、空残差网络模型;其中:将训练视频分割成多个包含视频帧的视频帧卷,将这些视频帧卷分类后送入到时、空残差网络模型中进行训练,得到训练好的时、空残差网络模型;将测试视频的视频帧卷送入训练好的时、空残差网络模型中获得分类结果,检测出幻灯片切换时刻。优选地,所述三分类卷积神经网络模型的结构为12层卷积神经网络结构,包含8层卷积层和4层全连接层;随着网络加深,图像的宽度和高度都在以一定的规律不断减小,每次池化后图像的宽度和高度刚好缩小一半,信道数目不断增加一倍;最后的输出层为三分类输出层用以获得视频帧卷的分类信息。网络结构很规整,没有那么多的超参数,专注于构建简单的网络。优选地,所述提取图片空域特征的网络结构的设计原则,主要遵循了以下两种设计原则:-如果3D卷积残差模块输入和输出的时、空特征图尺寸相同,卷积神经网络的卷积核的通道数不发生变化;-如果3D卷积残差模块输出的时、空特征图的尺寸是输入的时、空特征图尺寸的一半,卷积神经网络的卷积核的通道数数量加倍以保证时间复杂度的一致性。优选地,所述3DConvNet网络中的3D卷积模块应用3D卷积层和3D池化层来模型化提取所述视频帧的时、空特征图,所述残差网络模型ResNet网络的残差模块应用短连接和恒等映射提高模型学习效率;将所述残差网络模型ResNet中的残差模块融入到3DConvNet网络中的3D卷积模块得到3D卷积残差模块;所述3D卷积残差模块的短连接中包含了一个1×1的3D卷积层,用以保证3D卷积残差模块的输出和1×1的3D卷积层映射之后输出的维度一致。优选地,所述3D卷积残差模块的短连接中包含了一个1×1的3D卷积层,用以保证3D卷积残差模块的输出和1×1的3D卷积层映射之后输出的维度一致的方法是:在所述3D卷积残差模块中包含两层卷积层,因此,残差映射F(x)表示为F(x)=ω2σ(ω1x+b1)+b2其中,x表示输入,ω1表示第一层卷积层的权重系数;ω2表示第二层卷积层的权重系数;b1表示第一层卷积层的偏差量;b2表示第二层卷积层的偏差量;σ表示RELU的激活函数:其中,x表示输入;为了使输入x和残差映射F(x)的维度相同,添加了1×1的3D卷积层在短连接上,得到加权的映射H(x),表示为H(x)=Wsx其中,Ws是加权值矩阵,用于匹配输入x和残差映射F(x)的维度;则映射方程Z(X)变为:Z(X)=F(x)+H(x)。优选地,所述时、空残差网络模型,设有八层卷积层和四层全连接层,卷积层在前,全连接层在后,每层本文档来自技高网
...

【技术保护点】
1.一种基于时、空残差网络模型的幻灯片切换检测方法,其特征在于,包括:将通过单个或多个镜头记录的包含幻灯片、演讲者和/或观众的视频分割成多个包含视频帧的视频帧卷;采用提取图片空域特征的网络结构的设计原则设计卷积神经网络结构;在所述卷积神经网络结构后连接一个三分类输出层,该三分类输出层用以获得视频帧卷的分类信息,得到三分类卷积神经网络模型;在三分类卷积神经网络模型的结构、3D ConvNet网络中的3D卷积模块和残差网络模型ResNet网络中的残差模块的基础上设计时、空残差网络模型;利用3D ConvNet网络中的3D卷积模块来提取所述视频帧的时、空特征,将残差网络模型ResNet中的残差模块融入到3D ConvNet网络中的3D卷积模块中得到3D卷积残差模块,构建用于视频帧卷分类的时、空残差网络模型;其中:将训练视频分割成多个包含视频帧的视频帧卷,对这些视频帧卷分类后送入到时、空残差网络模型中进行训练,得到训练好的时、空残差网络模型;将测试视频的视频帧卷送入训练好的时、空残差网络模型中获得分类结果,检测出幻灯片切换时刻。

【技术特征摘要】
1.一种基于时、空残差网络模型的幻灯片切换检测方法,其特征在于,包括:将通过单个或多个镜头记录的包含幻灯片、演讲者和/或观众的视频分割成多个包含视频帧的视频帧卷;采用提取图片空域特征的网络结构的设计原则设计卷积神经网络结构;在所述卷积神经网络结构后连接一个三分类输出层,该三分类输出层用以获得视频帧卷的分类信息,得到三分类卷积神经网络模型;在三分类卷积神经网络模型的结构、3DConvNet网络中的3D卷积模块和残差网络模型ResNet网络中的残差模块的基础上设计时、空残差网络模型;利用3DConvNet网络中的3D卷积模块来提取所述视频帧的时、空特征,将残差网络模型ResNet中的残差模块融入到3DConvNet网络中的3D卷积模块中得到3D卷积残差模块,构建用于视频帧卷分类的时、空残差网络模型;其中:将训练视频分割成多个包含视频帧的视频帧卷,对这些视频帧卷分类后送入到时、空残差网络模型中进行训练,得到训练好的时、空残差网络模型;将测试视频的视频帧卷送入训练好的时、空残差网络模型中获得分类结果,检测出幻灯片切换时刻。2.根据权利要求1所述的基于时、空残差网络模型的幻灯片切换检测方法,其特征在于,所述三分类卷积神经网络模型的结构为12层卷积神经网络结构,包含8层卷积层和4层全连接层;随着网络加深,图像的宽度和高度不断减小,每次池化后图像的宽度和高度刚好缩小一半,信道数目增加一倍;最后的输出层为三分类输出层;和/或,所述提取图片空域特征的网络结构的设计原则,包括:-如果3D卷积残差模块输入和输出的时、空特征图尺寸相同,卷积神经网络的卷积核的通道数不发生变化;-如果3D卷积残差模块输出的时、空特征图的尺寸是输入的时、空特征图尺寸的一半,卷积神经网络的卷积核的通道数数量加倍以保证时间复杂度的一致性。3.根据权利要求1所述的基于时、空残差网络模型的幻灯片切换检测方法,其特征在于,所述3DConvNet网络中的3D卷积模块应用3D卷积层和3D池化层来模型化提取所述视频帧的时、空特征图,所述残差网络模型ResNet网络的残差模块应用短连接和恒等映射提高模型学习效率;将所述残差网络模型ResNet中的残差模块融入到3DConvNet网络中的3D卷积模块得到3D卷积残差模块;所述3D卷积残差模块的短连接中包含了一个1×1的3D卷积层,用以保证3D卷积残差模块的输出和1×1的3D卷积层映射之后输出的维度一致。4.根据权利要求3所述的基于时、空残差网络模型的幻灯片切换检测方法,其特征在于,所述3D卷积残差模块的短连接中包含了一个1×1的3D卷积层,用以保证3D卷积残差模块的输出和1×1的3D卷积层映射之后输出的维度一致的方法是:在所述3D卷积残差模块中包含两层卷积层,因此,残差映射F(x)表示为F(x)=ω2σ(ω1x+b1)+b2其中,x表示输入,ω1表示第一层卷积层的权重系数;ω2表示第二层卷积层的权重系数;b1表示第一层卷积层的偏差量;b2表示第二层卷...

【专利技术属性】
技术研发人员:马然刘致金李凯沈礼权安平
申请(专利权)人:上海大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1