The present disclosure relates to a real-time video classification method and device based on a multi stream neural network, including extracting video frames and motion vectors from an unclassified video, extracting the optical flow of the unclassified video by using a optical flow neural network, adjusting the motion vector by the optical flow, and using the video frame, the extracted optical flow and the modulation. The whole motion vector is input into the multi stream neural network, and the classification of the classified video is determined according to the output result of the multi neural network. The extraction time of optical flow is saved by introducing optical flow neural network. The video classification method and device based on this public embodiment can save the extraction time of the optical flow, and improve the real-time performance of the video classification. One
【技术实现步骤摘要】
一种基于多流神经网络的实时视频分类方法及装置
本公开涉及计算机视觉
,尤其涉及一种视频分类方法及装置。
技术介绍
视频分类是指对于给定的视频,使机器能够正确识别出视频中的内容。视频分类可以应用在虚拟游戏、智能驾驶、社区监控、资源分类等方面。相关技术中,基于神经网络的视频分类方法采用的是双流网络结构。一方面,以RGB为输入,编码视频帧的纹理信息;另一方面,以相邻帧的光流为输入,编码视频的运动信息。这两个流的预测结果求和,最大值对应的分类结果,为视频对应的分类结果。然而,上述双流网络结构中光流的提取比较耗时,难以进行实时监测。
技术实现思路
有鉴于此,本公开提出了一种视频分类方法及装置,能够节省视频分类的时间。根据本公开的一方面,提供了一种一种视频分类方法,包括:从待分类视频中提取视频帧和运动矢量;利用光流神经网络,提取所述待分类视频的光流;利用所述光流调整所述运动矢量;将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络,并根据所述多流神经网络的输出结果确定所述待分类视频的类别。在一种可能的实现方式中,所述方法还包括:以相邻视频帧和与相邻视频帧对应的运动矢量为输入,以与相邻视频帧对应的光流为真值,训练所述光流神经网络。在一种可能的实现方式中,利用所述光流调整所述运动矢量,包括:针对视频帧的每个点,若该点对应邻域内的第一光流均小于或等于光流阈值,则将所述邻域内的光流的平均值作为该点的运动矢量。在一种可能的实现方式中,所述多流神经网络包括第一子网络、第二子网络和第三子网络,所述方法还包括:分别以视频帧、提取的光流和调整后的运动矢量为输入,视频类别为真值, ...
【技术保护点】
1.一种视频分类方法,其特征在于,包括:
【技术特征摘要】
1.一种视频分类方法,其特征在于,包括:从待分类视频中提取视频帧和运动矢量;利用光流神经网络,提取所述待分类视频的光流;利用所述光流调整所述运动矢量;将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络,并根据所述多流神经网络的输出结果确定所述待分类视频的类别。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:以相邻视频帧和与相邻视频帧对应的运动矢量为输入,以与相邻视频帧对应的光流为真值,训练所述光流神经网络。3.根据权利要求1所述的方法,其特征在于,利用所述光流调整所述运动矢量,包括:针对视频帧的每个点,若该点对应邻域内的第一光流均小于或等于光流阈值,则将所述邻域内的光流的平均值作为该点的运动矢量。4.根据权利要求1所述的方法,其特征在于,所述多流神经网络包括第一子网络、第二子网络和第三子网络,所述方法还包括:分别以视频帧、提取的光流和调整后的运动矢量为输入,视频类别为真值,训练多流神经网络的第一子网络、第二子网络和第三子网络。5.根据权利要求4所述的方法,其特征在于,将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络中,确定所述待分类视频的类别,包括:分别将所述视频帧、提取的光流和调整后的运动矢量输入多流神经网络的第一子网络、第二子网络和第三子网络中,得到各子网络对应的分类概率;针对每一类别的分类概率,将各子网络对应的分类概率中与该类别对应的分类概率求和得到该类别对应的分类概率之和,将分类概率之和的最大值对应的类别作为所述待分类视频的类别。6.一种视频分类装置,其特征在于,包括:视频帧和运动矢量提取模块,用于从待分类视频中提取视频帧和运动矢量;光流提取模块,用于利用光流神经网络,提取所述待分类视频的光流;运动矢量调整模块,用于利用所述光流调...
【专利技术属性】
技术研发人员:季向阳,杨武魁,陈孝罡,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。