当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于多流神经网络的实时视频分类方法及装置制造方法及图纸

技术编号:18238212 阅读:97 留言:0更新日期:2018-06-17 01:40
本公开涉及一种基于多流神经网络的实时视频分类方法及装置,包括从待分类视频中提取视频帧和运动矢量;利用光流神经网络,提取所述待分类视频的光流;利用所述光流调整所述运动矢量;将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络,并根据所述多流神经网络的输出结果确定所述待分类视频的类别。通过引入光流神经网络节省了光流的提取时间,根据本公开实施例的视频分类方法及装置能够节省光流的提取时间,提高了视频分类的实时性。 1

A real-time video classification method and device based on multi stream neural network

The present disclosure relates to a real-time video classification method and device based on a multi stream neural network, including extracting video frames and motion vectors from an unclassified video, extracting the optical flow of the unclassified video by using a optical flow neural network, adjusting the motion vector by the optical flow, and using the video frame, the extracted optical flow and the modulation. The whole motion vector is input into the multi stream neural network, and the classification of the classified video is determined according to the output result of the multi neural network. The extraction time of optical flow is saved by introducing optical flow neural network. The video classification method and device based on this public embodiment can save the extraction time of the optical flow, and improve the real-time performance of the video classification. One

【技术实现步骤摘要】
一种基于多流神经网络的实时视频分类方法及装置
本公开涉及计算机视觉
,尤其涉及一种视频分类方法及装置。
技术介绍
视频分类是指对于给定的视频,使机器能够正确识别出视频中的内容。视频分类可以应用在虚拟游戏、智能驾驶、社区监控、资源分类等方面。相关技术中,基于神经网络的视频分类方法采用的是双流网络结构。一方面,以RGB为输入,编码视频帧的纹理信息;另一方面,以相邻帧的光流为输入,编码视频的运动信息。这两个流的预测结果求和,最大值对应的分类结果,为视频对应的分类结果。然而,上述双流网络结构中光流的提取比较耗时,难以进行实时监测。
技术实现思路
有鉴于此,本公开提出了一种视频分类方法及装置,能够节省视频分类的时间。根据本公开的一方面,提供了一种一种视频分类方法,包括:从待分类视频中提取视频帧和运动矢量;利用光流神经网络,提取所述待分类视频的光流;利用所述光流调整所述运动矢量;将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络,并根据所述多流神经网络的输出结果确定所述待分类视频的类别。在一种可能的实现方式中,所述方法还包括:以相邻视频帧和与相邻视频帧对应的运动矢量为输入,以与相邻视频帧对应的光流为真值,训练所述光流神经网络。在一种可能的实现方式中,利用所述光流调整所述运动矢量,包括:针对视频帧的每个点,若该点对应邻域内的第一光流均小于或等于光流阈值,则将所述邻域内的光流的平均值作为该点的运动矢量。在一种可能的实现方式中,所述多流神经网络包括第一子网络、第二子网络和第三子网络,所述方法还包括:分别以视频帧、提取的光流和调整后的运动矢量为输入,视频类别为真值,训练多流神经网络的第一子网络、第二子网络和第三子网络。在一种可能的实现方式中,将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络中,确定所述待分类视频的类别,包括:分别将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络的第一子网络、第二子网络和第三子网络中,得到各子网络对应的分类概率;针对每一类别的分类概率,将各子网络对应的分类概率中与该类别对应的分类概率求和得到该类别对应的分类概率之和,将分类概率之和的最大值对应的类别作为所述待分类视频的类别。根据本公开的另一方面,提供了一种视频分类装置,包括:视频帧和运动矢量提取模块,用于从待分类视频中提取视频帧和运动矢量;光流提取模块,用于利用光流神经网络,提取所述待分类视频的光流;运动矢量调整模块,用于利用所述光流调整所述运动矢量;类别确定模块,用于将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络,并根据所述多流神经网络的输出结果确定所述待分类视频的类别。在一种可能的实现方式中,所述装置还包括:光流神经网络训练模块,用于以相邻视频帧和与相邻视频帧对应的运动矢量为输入,以与相邻视频帧对应的光流为真值,训练所述光流神经网络。在一种可能的实现方式中,所述运动矢量调整模块包括:运动矢量调整单元,用于针对视频帧的每个点,若该点对应邻域内的第一光流均小于或等于光流阈值,则将所述邻域内的光流的平均值作为该点的运动矢量。在一种可能的实现方式中,所述多流神经网络包括第一子网络、第二子网络和第三子网络,所述装置还包括:多流神经网络训练模块,用于分别以视频帧、提取的光流和调整后的运动矢量为输入,视频类别为真值,训练多流神经网络的第一子网络、第二子网络和第三子网络。在一种可能的实现方式中,所述类别确定模块包括:多流神经网络输入单元,用于分别将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络的第一子网络、第二子网络和第三子网络中,得到各子网络对应的分类概率;类别确定单元,用于针对每一类别的分类概率,将各子网络对应的分类概率中与该类别对应的分类概率求和得到该类别对应的分类概率之和,将分类概率之和的最大值对应的类别作为所述待分类视频的类别。通过从待分类视频中提取视频帧和运动矢量,利用光流神经网络提取所述分类视频的光流,利用所述光流调整所述运动矢量,将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络,并根据所述多流神经网络的输出结果确定所述待分类视频的类别,根据本公开的各方面实施例的视频分类方法及装置能够通过引入光流神经网络节省了光流的提取时间,从而节省了视频分类的时间,提高了视频分类的实时性。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。图1示出根据本公开一实施例的视频分类方法的流程图;图2示出根据本公开一实施例的视频分类方法的流程图;图3a示出根据本公开一实施例的利用光流调整所述运动矢量的示意图;图3b示出根据本公开一实施例的利用光流调整所述运动矢量的示意图;图3c示出根据本公开一实施例的多流神经网络的结构示意图;图4示出根据本公开一实施例的视频分类方法的流程图;图5示出根据本公开一实施例的视频分类方法的流程图;图6示出根据本公开一实施例的视频分类方法的流程图;图7示出根据本公开一实施例的视频分类装置的框图;图8示出根据本公开一实施例的视频分类装置的框图;图9示出根据本公开一实施例的视频分类装置的框图。具体实施方式以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。图1示出根据本公开一实施例的视频分类方法的流程图。该方法可以应用于计算机、移动终端或平板电脑等终端设备。如图1所示,该方法可以包括:步骤S11,从待分类视频中提取视频帧和运动矢量。步骤S12,利用光流神经网络,提取所述待分类视频的光流。步骤S13,利用所述光流调整所述运动矢量。步骤S14,将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络,并根据所述多流神经网络的输出结果确定所述待分类视频的类别。根据本公开实施例的视频分类方法能够,通过引入光流神经网络提取视频的光流节省了光流的提取时间,从而节省了视频分类的时间,提高了视频分类的实时性;通过以视频帧、光流、运动矢量作为多流神经网络的输入,并将对应的输出融合,提高了视频分类的精度;通过光流调整运动矢量,对运动矢量进行噪声过滤,进一步提高了视频分类的精度。其中,待分类视频可以用于表示需要进行分类的视频,待分类视频可以为任意视频,例如可以为压缩编码后的视频,本公开对待分类视频不做限定。视频是由静止的画面组成的,这些静止的画面可以称为视频帧。在一个示例中,从待分类视频中提取的视频帧可以为RGB格式的视频帧。运动矢量是视频编码的过程中用来表示前一帧的某个块和后一帧和该块在空间上最相似的相同大小块之间的坐标位移,它在一定程度上反应了物体的运动信本文档来自技高网...
一种基于多流神经网络的实时视频分类方法及装置

【技术保护点】
1.一种视频分类方法,其特征在于,包括:

【技术特征摘要】
1.一种视频分类方法,其特征在于,包括:从待分类视频中提取视频帧和运动矢量;利用光流神经网络,提取所述待分类视频的光流;利用所述光流调整所述运动矢量;将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络,并根据所述多流神经网络的输出结果确定所述待分类视频的类别。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:以相邻视频帧和与相邻视频帧对应的运动矢量为输入,以与相邻视频帧对应的光流为真值,训练所述光流神经网络。3.根据权利要求1所述的方法,其特征在于,利用所述光流调整所述运动矢量,包括:针对视频帧的每个点,若该点对应邻域内的第一光流均小于或等于光流阈值,则将所述邻域内的光流的平均值作为该点的运动矢量。4.根据权利要求1所述的方法,其特征在于,所述多流神经网络包括第一子网络、第二子网络和第三子网络,所述方法还包括:分别以视频帧、提取的光流和调整后的运动矢量为输入,视频类别为真值,训练多流神经网络的第一子网络、第二子网络和第三子网络。5.根据权利要求4所述的方法,其特征在于,将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络中,确定所述待分类视频的类别,包括:分别将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络的第一子网络、第二子网络和第三子网络中,得到各子网络对应的分类概率;针对每一类别的分类概率,将各子网络对应的分类概率中与该类别对应的分类概率求和得到该类别对应的分类概率之和,将分类概率之和的最大值对应的类别作为所述待分类视频的类别。6.一种视频分类装置,其特征在于,包括:视频帧和运动矢量提取模块,用于从待分类视频中提取视频帧和运动矢量;光流提取模块,用于利用光流神经网络,提取所述待分类视频的光流;运动矢量调整模块,用于利用所述光流调...

【专利技术属性】
技术研发人员:季向阳杨武魁陈孝罡
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1