一种基于深度学习多层次分割新闻视频的通用方法技术

技术编号:15295572 阅读:245 留言:0更新日期:2017-05-11 12:56
一种基于深度学习多层次分割新闻视频的通用方法属于计算机人工智能和视频处理领域。本发明专利技术首先根据频道标识符(logo)及主持人脸的特点,进行针对性的方式处理,提高后续训练及检测效果;然后,考虑到多类新闻视频之间的差异性,本文率先提出预先进行新闻logo识别,将识别后的频道再输入至各自的人脸检测通道中依次识别的方法,进而提高了视频分割的通用性;最后,基于主持环节的共同点,本文提出采用人工特征及时间阈值的交叉检测进行精筛选,进而最终检测到各频道的主持环节,实现分割多类新闻视频的通用方法。本方法大大增强了分割各类新闻视频的普适性,进而更好地代替手动分割视频方法,极大地减少了人力成本,提高视频处理的效率。

A general method for multi level segmentation of news video based on depth learning

The invention relates to a general method for multi level segmentation of news video based on deep learning, which belongs to the field of computer artificial intelligence and video processing. According to the invention first channel identifier (logo) characteristics and the host face, targeted manner, improve the follow-up training and testing effect; then, considering the differences between the types of news video, this paper first proposed the news logo recognition in advance, will know the channel input method to their face detection in order to identify the channel, thus improving the versatility of video segmentation; finally, based on the common host link is proposed in this paper, using artificial crossing detection characteristics and time threshold for fine screening, and finally detected host link of each channel, realize the general multi class segmentation method of news video. The method can greatly enhance the universality of the segmentation of various kinds of news video, and then replace the manual video segmentation method, which greatly reduces the labor cost and improves the efficiency of video processing.

【技术实现步骤摘要】

本专利技术属于计算机人工智能和视频处理领域,具体来说,涉及到一种基于深度学习多层次分割新闻视频的通用方法
技术介绍
多媒体技术和互联网的发展给我们的日常生活带来了很多的视频资源,如何对海量的数字媒体进行有效的管理、组织、检索成为了图像处理领域里的热门研究课题。传统的方法一般是采用人工手段对视频各部分的段落进行手动的事件分割,并对分割后的事件加入人为描述信息,但是这样不仅耗时而且掺杂了许许多多人为的主观因素。事件分割作为视频标注检索的首要工作,起到了关键的作用。新闻视频与人类的日常生活密切相关,新闻视频均由多段独立的新闻事件组成,事件与事件之间会存在主持人播报环节,由于新闻事件之间的复杂性,因此希望通过利用主持人播报环节找到事件之间的分割点。同一频道的主持人位置相对固定,但背景不同;然而在不同频道之间,主持人所处位置却也不同。因此,需要一种通用的方法来解决多类新闻频道之间的事件分割问题。另外,深度学习作为当下热门人工智能方法在图像处理领域发挥了至关重要的作用,并且在图像处理领域也取得了傲人的成绩。因此,本方法主要是基于深度学习的多层次分割新闻视频的通用方法。事件分割本身是视频标注检索的首要工作,面向多类频道的分割方法能够提高新闻视频分割的普适性。基于深度学习能够减少人工提取特征的局限性,进而提高了方法的准确率。本方法旨在面向多类新闻视频时能够起到自动分割新闻事件的作用,在保证准确率的前提下,提高时效性,节省人力成本,极大地提高工作效率。
技术实现思路
本专利技术首先根据频道标识符(logo)及主持人脸的特点,有别于统一的数据处理方式,对其进行针对性的方式处理,提高后续训练及检测效果;然后,考虑到多类新闻视频之间的差异性,本文率先提出预先进行新闻logo识别,将识别后的频道再输入至各自的人脸检测通道中依次识别的方法,进而提高了视频分割的通用性;最后,基于主持环节的共同点,本文提出采用人工特征及时间阈值的交叉检测进行精筛选,进而最终检测到各频道的主持环节,实现分割多类新闻视频的通用方法。本方法大大增强了分割各类新闻视频的普适性,进而更好地代替手动分割视频方法,极大地减少了人力成本,提高视频处理的效率。本专利技术采用的技术方案是:一种基于深度学习多层次分割新闻视频的通用方法,其特征在于,包括以下步骤:1、训练数据的准备、扩张及预处理本文应用两种不同的深度网络模型进行训练检测,需要大量的logo数据以及人脸数据进行训练,因此,需要针对不同的数据类型,进行不同方式的数据获取及扩张,增强训练模型的鲁棒性,提高检测效果。具体步骤如下:(1.1)获取数据首先将获取到的视频拆分成帧序列。本文针对人脸图片的特性,提出一种提取人脸正样本和负样本的方法:设定一个固定大小M*M的滑动窗口在获取的人脸图片上进行滑动,当窗口与人脸的交集大于60%,视为正样本;本文为保证网络能够收敛,负样本之间需要存在共性,故提出只有当窗口与人脸交集在15%-30%之间,才将其视为负样本。对于logo区域的提取,本文采用固定大小n*n的矩形窗口在视频logo处统一进行截取,得到logo的图片。(1.2)数据扩张由于训练深度网络需要大量的数据,仅将视频中获取到的图片用于训练远远不够。于是需要对训练数据进行不同方式的数据扩张,加大数据量,提高训练及检测效果。针对新闻logo图片,我们对其采用图像锐化的方式进行处理同时保留了锐化之前的logo图像。本方法扩大了数据量,加快网络的收敛速度,从而提高了检测效果。针对人脸图片,本文对(1.1)中得到的所有人脸样本进行不同比例的裁剪,然后放大到原来尺寸M*M,这样不仅会加强人脸的细节部分,还会将原来数据集扩大。针对主持人头部扭转的情况,本实验将所有人脸数据进行左右各45度方向的旋转,这样不仅增强了训练结果的旋转鲁棒性,又将数据扩大。(1.3)预处理本文将logo图片及人脸样本进行同样的去均值处理,求得所有图片像素矩阵的均值,作为中心,然后将输入图片减去均值,再做后续操作。去均值操作能够进一步提高训练效果。(1.4)标注数据集最后,将(1.1)(1.2)(1.3)步骤得到的人脸数据分为正样本和负样本两类进行标注;对于得到的logo图片,根据需要检测的类别,对其进行标注。2、两类深度网络的构建与训练本文涉及到logo图片的识别及主持人脸的检测,所以根据图像类型的不同,大小的不同,特征的不同,采用两种不同的网络进行训练,以便得到最优的检测结果。基于logo图片形状规则,大小与种类固定的特性,本文提出,对构建的网络,根据需要分割的视频类数O,预先设置输出为O类的分类器。相比之下,人脸的训练数据包含了更大的差异性,需要采用更加深度的网络进行训练,对于人脸网络的分类器,本文只需要对人脸做出检测(只要检测出是否存在人脸即可),故采用二分类的分类器。综上所述,本文提出采用两种不同的深度网络进行训练与检测,具体内容如下:(2.1)构建logo卷积神经网络。卷积神经网络整体包含了输入层、卷积层、池化层、全连接层以及最后的softmax分类器。网络输入层的输入固定为n*n像素点大小。共由两层卷积层,两层Max池化层交替组合而成,然后连接全连接层,最后一层本文将根据频道种类数O,设计出输出为O类的softmax分类器进行分类。(2.2)构建人脸卷积神经网络对于人脸卷积神经网络输入层的输入固定为M*M像素点大小。人脸网络是由四层卷积层,两层Max池化层交替连接而成的,最后一层的卷积层选择用两个特征核进行全卷积滑动,输出两张全局特征图,进而输出至softmax二分类器中进行检测。(2.3)训练卷积神经网络。向两个构建完成的网络输入训练图片,根据卷积神经网络算法逐层计算后,得到输出值,反向传播,计算每个输出值与对应图片所属类别的误差,根据最小误差准则,修正网络每层的参数,将误差最小化,逐渐使训练的网络收敛,分别得到logo识别模型以及人脸检测模型用于以后的环节当中。3、频道种类的识别由于视频种类多样,想找到一种通用的方法对所有种类的视频进行事件的自动分割并不可能,因此需要大量的人力用于手动分割视频事件,这样不仅消耗了大量的人工成本,而且效率也不高。不同新闻视频之间存在明显的差异性及共同点。新闻视频的差异性表现在不同频道的主持人位置及大小范围的各不相同。针对差异性,本文率先提出一种预先识别频道类别,根据频道类别再进行主持人播报场景检测的方法。另一方面新闻视频的共性表现在:1、所有新闻视频logo出现的位置相同;2、所有新闻均是播报环节与事件环节依次更替进行。针对这些共性,本文提出:1、根据每个新闻视频logo位置的不变性,即可统一对所有新闻视频固定位置范围进行logo的识别。2、只要识别出主持人播报环节即可将左右视频段视为事件环节,进而实现新闻视频的自动分割。本方法利用(2.3)训练生成的logo识别模型对待检测视频的固定矩形框区域(也就是logo所在的n*n像素区域)进行频道类别的识别。logo卷积神经网络预先识别出频道类别,将识别后的频道输入至主持人脸检测环节当中,实现后续操作。本方法能够在保证分割效率的基础上,使分割变得更加便捷、高效,能够对更多频道的视频进行自动分割,提高分割视频方法的通用性。4、主持人场景的检测及分割本文根据频道识别后本文档来自技高网...
一种基于深度学习多层次分割新闻视频的通用方法

【技术保护点】
一种基于深度学习多层次分割新闻视频的通用方法,其特征在于,包括以下步骤:1)、训练数据的准备、扩张及预处理具体步骤如下:(1.1)获取数据首先将获取到的视频拆分成帧;设定一个固定大小M*M的滑动窗口在获取的人脸图片上进行滑动,当窗口与人脸的交集大于60%,视为正样本;只有当窗口与人脸交集在15%‑30%之间,才将其视为负样本;对于logo区域的提取,采用固定大小n*n的矩形窗口在视频logo处统一进行截取,得到logo的图片;(1.2)数据扩张针对新闻logo图片,对其采用图像锐化的方式进行处理同时保留了锐化之前的logo图像;对(1.1)中得到的人脸图片裁剪,然后放大到原来尺寸的方法,这样不仅会加强人脸的细节部分,还会将原来数据集扩大;针对主持人头部扭转的情况,将所有人脸数据进行左右各45度方向的旋转;(1.3)预处理将logo及人脸图片进行同样的去均值处理,求得所有图片像素矩阵的均值,作为中心,然后将输入图片减去均值,再做后续操作;(1.4)标注数据集最后,将(1.1)(1.2)(1.3)步骤得到的人脸数据分为正样本和负样本两类进行标注;对于得到的logo数据,根据需要检测的类别,对其标注;2)、两类深度网络的构建与训练(2.1)构建logo卷积神经网络;卷积神经网络整体包含了输入层、卷积层、池化层、全连接层以及最后的softmax分类器;网络输入层的输入固定为n*n像素点大小;共由两层卷积层,两层Max池化层交替组合而成,然后连接全连接层,最后一层本文将根据频道种类数O,设计出输出为O类的softmax分类器进行分类;(2.2)构建人脸卷积神经网络对于人脸卷积神经网络输入层的输入固定为M*M像素点大小;人脸网络是由四层卷积层,两层Max池化层交替连接而成的,最后一层的卷积层选择用两个特征核进行全卷积滑动,输出两张全局特征图,进而输出至softmax二分类器中进行检测;(2.3)训练卷积神经网络;向两个构建完成的网络输入训练图片,根据卷积神经网络算法逐层计算后,得到输出值,反向传播,计算每个输出值与对应图片所属类别的误差,根据最小误差准则,修正网络每层的参数,将误差最小化,逐渐使训练的网络收敛,分别得到训练模型,用于以后的检测当中;3)、频道种类的识别预先识别频道类别,根据频道类别再进行主持人播报场景检测的方法;另一方面新闻视频的共性表现在:所有新闻视频logo出现的位置相同;所有新闻均是播报环节与事件环节依次更替进行;根据每个新闻视频logo位置的不变性,统一对所有新闻视频固定位置范围进行logo的识别;将识别后的频道输入,然后识别出主持人播报环节即可将左右视频段视为事件环节,进而实现新闻视频的自动分割;4)、主持人场景的检测及分割场景检测根据频道特性,分为初步检测和二次筛选两个部分;具体内容如下:(4.1)基于深度网络的初步检测根据频道类别提前设定好固定位置及大小的人脸检测矩形框,采用(2.3)中训练好的人脸卷积神经网络对矩形框内的人脸进行检测;如果出现人脸,则初步判断为主持播报场景,进而采集到多个主持播报场景的候选视频段;(4.2)基于颜色特征及时间阈值的交叉筛选首先,依据不同的新闻频道,在每个通道中为不同节目的主持人的衣着位置设定好矩形框以将衣着范围确定;然后,对矩形框内区域进行RGB空间的颜色特征提取,计算每个候选视频段中的平均颜色特征向量;最后,利用欧式距离度量每个视频段的平均颜色特征向量与所有候选视频段的平均颜色特征向量之间的距离,当距离均小于阈值且检测出的视频段持续时间大于时间阈值时,则确定该视频段为主持人播报场景;通过基于两类深度网络的初筛选以及基于颜色特征和时间阈值的交叉检测,自动筛选得到了最终的主持人播报场景;(4.3)视频分割对整个视频中主持播报场景时域两边的视频段自动判断为新闻事件场景,从而进行时域上的分割。...

【技术特征摘要】
1.一种基于深度学习多层次分割新闻视频的通用方法,其特征在于,包括以下步骤:1)、训练数据的准备、扩张及预处理具体步骤如下:(1.1)获取数据首先将获取到的视频拆分成帧;设定一个固定大小M*M的滑动窗口在获取的人脸图片上进行滑动,当窗口与人脸的交集大于60%,视为正样本;只有当窗口与人脸交集在15%-30%之间,才将其视为负样本;对于logo区域的提取,采用固定大小n*n的矩形窗口在视频logo处统一进行截取,得到logo的图片;(1.2)数据扩张针对新闻logo图片,对其采用图像锐化的方式进行处理同时保留了锐化之前的logo图像;对(1.1)中得到的人脸图片裁剪,然后放大到原来尺寸的方法,这样不仅会加强人脸的细节部分,还会将原来数据集扩大;针对主持人头部扭转的情况,将所有人脸数据进行左右各45度方向的旋转;(1.3)预处理将logo及人脸图片进行同样的去均值处理,求得所有图片像素矩阵的均值,作为中心,然后将输入图片减去均值,再做后续操作;(1.4)标注数据集最后,将(1.1)(1.2)(1.3)步骤得到的人脸数据分为正样本和负样本两类进行标注;对于得到的logo数据,根据需要检测的类别,对其标注;2)、两类深度网络的构建与训练(2.1)构建logo卷积神经网络;卷积神经网络整体包含了输入层、卷积层、池化层、全连接层以及最后的softmax分类器;网络输入层的输入固定为n*n像素点大小;共由两层卷积层,两层Max池化层交替组合而成,然后连接全连接层,最后一层本文将根据频道种类数O,设计出输出为O类的softmax分类器进行分类;(2.2)构建人脸卷积神经网络对于人脸卷积神经网络输入层的输入固定为M*M像素点大小;人脸网络是由四层卷积层,两层Max池化层交替连接而成的,最后一层的卷积层选择用两个特征核进行全卷积滑动,输出两张全局特征图,进而输出至softmax二分类器中进行检...

【专利技术属性】
技术研发人员:蔡轶珩崔益泽高旭蓉邱长炎王雪艳孔欣然
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1