一种基于深度学习多层次分割新闻视频的通用方法技术

技术编号：15295572 阅读：245 留言：0更新日期：2017-05-11 12:56

一种基于深度学习多层次分割新闻视频的通用方法属于计算机人工智能和视频处理领域。本发明专利技术首先根据频道标识符(logo)及主持人脸的特点，进行针对性的方式处理，提高后续训练及检测效果；然后，考虑到多类新闻视频之间的差异性，本文率先提出预先进行新闻logo识别，将识别后的频道再输入至各自的人脸检测通道中依次识别的方法，进而提高了视频分割的通用性；最后，基于主持环节的共同点，本文提出采用人工特征及时间阈值的交叉检测进行精筛选，进而最终检测到各频道的主持环节，实现分割多类新闻视频的通用方法。本方法大大增强了分割各类新闻视频的普适性，进而更好地代替手动分割视频方法，极大地减少了人力成本，提高视频处理的效率。

A general method for multi level segmentation of news video based on depth learning

The invention relates to a general method for multi level segmentation of news video based on deep learning, which belongs to the field of computer artificial intelligence and video processing. According to the invention first channel identifier (logo) characteristics and the host face, targeted manner, improve the follow-up training and testing effect; then, considering the differences between the types of news video, this paper first proposed the news logo recognition in advance, will know the channel input method to their face detection in order to identify the channel, thus improving the versatility of video segmentation; finally, based on the common host link is proposed in this paper, using artificial crossing detection characteristics and time threshold for fine screening, and finally detected host link of each channel, realize the general multi class segmentation method of news video. The method can greatly enhance the universality of the segmentation of various kinds of news video, and then replace the manual video segmentation method, which greatly reduces the labor cost and improves the efficiency of video processing.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机人工智能和视频处理领域，具体来说，涉及到一种基于深度学习多层次分割新闻视频的通用方法。
技术介绍
多媒体技术和互联网的发展给我们的日常生活带来了很多的视频资源，如何对海量的数字媒体进行有效的管理、组织、检索成为了图像处理领域里的热门研究课题。传统的方法一般是采用人工手段对视频各部分的段落进行手动的事件分割，并对分割后的事件加入人为描述信息，但是这样不仅耗时而且掺杂了许许多多人为的主观因素。事件分割作为视频标注检索的首要工作，起到了关键的作用。新闻视频与人类的日常生活密切相关，新闻视频均由多段独立的新闻事件组成，事件与事件之间会存在主持人播报环节，由于新闻事件之间的复杂性，因此希望通过利用主持人播报环节找到事件之间的分割点。同一频道的主持人位置相对固定，但背景不同；然而在不同频道之间，主持人所处位置却也不同。因此，需要一种通用的方法来解决多类新闻频道之间的事件分割问题。另外，深度学习作为当下热门人工智能方法在图像处理领域发挥了至关重要的作用，并且在图像处理领域也取得了傲人的成绩。因此，本方法主要是基于深度学习的多层次分割新闻视频的通用方法。事件分割本身是视频标注检索的首要工作，面向多类频道的分割方法能够提高新闻视频分割的普适性。基于深度学习能够减少人工提取特征的局限性，进而提高了方法的准确率。本方法旨在面向多类新闻视频时能够起到自动分割新闻事件的作用，在保证准确率的前提下，提高时效性，节省人力成本，极大地提高工作效率。
技术实现思路
本专利技术首先根据频道标识符(logo)及主持人脸的特点，有别于统一的数据处理方式，对其进行针对性的方式处理...
一种基于深度学习多层次分割新闻视频的通用方法

【技术保护点】
一种基于深度学习多层次分割新闻视频的通用方法，其特征在于，包括以下步骤：1)、训练数据的准备、扩张及预处理具体步骤如下：(1.1)获取数据首先将获取到的视频拆分成帧；设定一个固定大小M*M的滑动窗口在获取的人脸图片上进行滑动，当窗口与人脸的交集大于60％，视为正样本；只有当窗口与人脸交集在15％‑30％之间，才将其视为负样本；对于logo区域的提取，采用固定大小n*n的矩形窗口在视频logo处统一进行截取，得到logo的图片；(1.2)数据扩张针对新闻logo图片，对其采用图像锐化的方式进行处理同时保留了锐化之前的logo图像；对(1.1)中得到的人脸图片裁剪，然后放大到原来尺寸的方法，这样不仅会加强人脸的细节部分，还会将原来数据集扩大；针对主持人头部扭转的情况，将所有人脸数据进行左右各45度方向的旋转；(1.3)预处理将logo及人脸图片进行同样的去均值处理，求得所有图片像素矩阵的均值，作为中心，然后将输入图片减去均值，再做后续操作；(1.4)标注数据集最后，将(1.1)(1.2)(1.3)步骤得到的人脸数据分为正样本和负样本两类进行标注；对于得到的logo数据，根据需要检测的类别，...

【技术特征摘要】
1.一种基于深度学习多层次分割新闻视频的通用方法，其特征在于，包括以下步骤：1)、训练数据的准备、扩张及预处理具体步骤如下：(1.1)获取数据首先将获取到的视频拆分成帧；设定一个固定大小M*M的滑动窗口在获取的人脸图片上进行滑动，当窗口与人脸的交集大于60％，视为正样本；只有当窗口与人脸交集在15％-30％之间，才将其视为负样本；对于logo区域的提取，采用固定大小n*n的矩形窗口在视频logo处统一进行截取，得到logo的图片；(1.2)数据扩张针对新闻logo图片，对其采用图像锐化的方式进行处理同时保留了锐化之前的logo图像；对(1.1)中得到的人脸图片裁剪，然后放大到原来尺寸的方法，这样不仅会加强人脸的细节部分，还会将原来数据集扩大；针对主持人头部扭转的情况，将所有人脸数据进行左右各45度方向的旋转；(1.3)预处理将logo及人脸图片进行同样的去均值处理，求得所有图片像素矩阵的均值，作为中心，然后将输入图片减去均值，再做后续操作；(1.4)标注数据集最后，将(1.1)(1.2)(1.3)步骤得到的人脸数据分为正样本和负样本两类进行标注；对于得到的logo数据，根据需要检测的类别，对其标注；2)、两类深度网络的构建与训练(2.1)构建logo卷积神经网络；卷积神经网络整体包含了输入层、卷积层、池化层、全连接层以及最后的softmax分类器；网络输入层的输入固定为n*n像素点大小；共由两层卷积层，两层Max池化层交替组合而成，然后连接全连接层，最后一层本文将根据频道种类数O，设计出输出为O类的softmax分类器进行分类；(2.2)构建人脸卷积神经网络对于人脸卷积神经网络输入层的输入固定为M*M像素点大小；人脸网络是由四层卷积层，两层Max池化层交替连接而成的，最后一层的卷积层选择用两个特征核进行全卷积滑动，输出两张全局特征图，进而输出至softmax二分类器中进行检...

【专利技术属性】
技术研发人员：蔡轶珩，崔益泽，高旭蓉，邱长炎，王雪艳，孔欣然，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人