一种幻灯片切换检测方法、系统、终端及存储介质技术方案

技术编号：21454673 阅读：23 留言：0更新日期：2019-06-26 05:00

本发明专利技术提供一种幻灯片切换检测方法，包括：在卷积神经网络结构后连接一个三分类输出层，用以获得视频帧卷的分类信息，得到三分类卷积神经网络模型；在三分类卷积神经网络模型的结构、3D ConvNet网络中的3D卷积模块和ResNet网络中的残差模块的基础上设计时、空残差网络模型；利用3D卷积模块来提取视频帧的时、空特征，将残差模块融入到3D卷积模块中得到3D卷积残差模块，构建用于视频帧卷分类的时、空残差网络模型。本发明专利技术还提供对应的检测系统、终端、计算机可读存储介质。本发明专利技术准确性更好，克服演讲视频有镜头移动、演讲者移动和多个PTZ镜头切换干扰，并且比现有方法精确度高。

全部详细技术资料下载

【技术实现步骤摘要】
一种幻灯片切换检测方法、系统、终端及存储介质
本专利技术涉及一种视频信息处理方法，尤其是一种基于时、空残差深度学习网络模型的幻灯片切换检测方法及系统。
技术介绍
随着信息化浪潮和多媒体技术的发展，视频信息的直观性、确切性、高效性使得数字视频的应用越来越广泛，而互联网将这种视觉盛宴又紧密地联系在了一起。目前，在线学习已经成为一个重要的获取知识的方式，人们用智能化设备在会议室或者教室中录制了各种形式的学习视频，又通过互联网将其传播给更多的人。然而这些视频未经任何结构化处理，学习网站将整个视频呈现给用户。如果用户对某个知识点感兴趣，往往需要浏览整个视频才能找到对应的知识点，这样会耗费用户的大量时间和精力。据统计数据，YouTub视频上传大约是每分钟400小时的视频量。如果这些视频都未经处理，那么大量的学习者会被这些学习视频淹没，并降低他们的学习兴趣。因此，对于在线教育或者其他应用来说，自动化提取演讲视频中的代表性信息并作演讲视频摘要是非常重要的。其中幻灯片切换检测是演讲视频摘要中最为关键的技术之一，是很重要的研究课题。演讲视频有很大一部分视频类型是带幻灯片播放的视频，在这类视频中幻灯片切换检测是演讲视频摘要的一个重要研究点。通过PTZ(pan-tilt-zoom)相机将包含演讲者、投影幻灯片、观众录制成演讲视频。根据视频录制方式的不同，可以将演讲视频分成三种类型：静止的相机镜头录制、移动的相机镜头录制和相机镜头切换录制。由于演讲视频不仅记录了投影区域，也同时记录了演讲者和观众，而演讲者和观众这些背景对幻灯片切换检测造成一定的干扰，如相机镜头移动，相机镜头切换和演...

【技术保护点】
1.一种基于时、空残差网络模型的幻灯片切换检测方法，其特征在于，包括：将通过单个或多个镜头记录的包含幻灯片、演讲者和/或观众的视频分割成多个包含视频帧的视频帧卷；采用提取图片空域特征的网络结构的设计原则设计卷积神经网络结构；在所述卷积神经网络结构后连接一个三分类输出层，该三分类输出层用以获得视频帧卷的分类信息，得到三分类卷积神经网络模型；在三分类卷积神经网络模型的结构、3D ConvNet网络中的3D卷积模块和残差网络模型ResNet网络中的残差模块的基础上设计时、空残差网络模型；利用3D ConvNet网络中的3D卷积模块来提取所述视频帧的时、空特征，将残差网络模型ResNet中的残差模块融入到3D ConvNet网络中的3D卷积模块中得到3D卷积残差模块，构建用于视频帧卷分类的时、空残差网络模型；其中：将训练视频分割成多个包含视频帧的视频帧卷，对这些视频帧卷分类后送入到时、空残差网络模型中进行训练，得到训练好的时、空残差网络模型；将测试视频的视频帧卷送入训练好的时、空残差网络模型中获得分类结果，检测出幻灯片切换时刻。

【技术特征摘要】
1.一种基于时、空残差网络模型的幻灯片切换检测方法，其特征在于，包括：将通过单个或多个镜头记录的包含幻灯片、演讲者和/或观众的视频分割成多个包含视频帧的视频帧卷；采用提取图片空域特征的网络结构的设计原则设计卷积神经网络结构；在所述卷积神经网络结构后连接一个三分类输出层，该三分类输出层用以获得视频帧卷的分类信息，得到三分类卷积神经网络模型；在三分类卷积神经网络模型的结构、3DConvNet网络中的3D卷积模块和残差网络模型ResNet网络中的残差模块的基础上设计时、空残差网络模型；利用3DConvNet网络中的3D卷积模块来提取所述视频帧的时、空特征，将残差网络模型ResNet中的残差模块融入到3DConvNet网络中的3D卷积模块中得到3D卷积残差模块，构建用于视频帧卷分类的时、空残差网络模型；其中：将训练视频分割成多个包含视频帧的视频帧卷，对这些视频帧卷分类后送入到时、空残差网络模型中进行训练，得到训练好的时、空残差网络模型；将测试视频的视频帧卷送入训练好的时、空残差网络模型中获得分类结果，检测出幻灯片切换时刻。2.根据权利要求1所述的基于时、空残差网络模型的幻灯片切换检测方法，其特征在于，所述三分类卷积神经网络模型的结构为12层卷积神经网络结构，包含8层卷积层和4层全连接层；随着网络加深，图像的宽度和高度不断减小，每次池化后图像的宽度和高度刚好缩小一半，信道数目增加一倍；最后的输出层为三分类输出层；和/或，所述提取图片空域特征的网络结构的设计原则，包括：-如果3D卷积残差模块输入和输出的时、空特征图尺寸相同，卷积神经网络的卷积核的通道数不发生变化；-如果3D卷积残差模块输出的时、空特征图的尺寸是输入的时、空特征图尺寸的一半，卷积神经网络的卷积核的通道数数量加倍以保证时间复杂度的一致性。3.根据权利要求1所述的基于时、空残差网络模型的幻灯片切换检测方法，其特征在于，所述3DConvNet网络中的3D卷积模块应用3D卷积层和3D池化层来模型化提取所述视频帧的时、空特征图，所述残差网络模型ResNet网络的残差模块应用短连接和恒等映射提高模型学习效率；将所述残差网络模型ResNet中的残差模块融入到3DConvNet网络中的3D卷积模块得到3D卷积残差模块；所述3D卷积残差模块的短连接中包含了一个1×1的3D卷积层，用以保证3D卷积残差模块的输出和1×1的3D卷积层映射之后输出的维度一致。4.根据权利要求3所述的基于时、空残差网络模型的幻灯片切换检测方法，其特征在于，所述3D卷积残差模块的短连接中包含了一个1×1的3D卷积层，用以保证3D卷积残差模块的输出和1×1的3D卷积层映射之后输出的维度一致的方法是：在所述3D卷积残差模块中包含两层卷积层，因此，残差映射F(x)表示为F(x)＝ω2σ(ω1x+b1)+b2其中，x表示输入，ω1表示第一层卷积层的权重系数；ω2表示第二层卷积层的权重系数；b1表示第一层卷积层的偏差量；b2表示第二层卷...

【专利技术属性】
技术研发人员：马然，刘致金，李凯，沈礼权，安平，
申请(专利权)人：上海大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人