基于非局部神经网络的视频分类方法、装置及设备制造方法及图纸

技术编号:20177770 阅读:26 留言:0更新日期:2019-01-23 00:40
本发明专利技术提出了一种基于非局部神经网络的视频分类方法、装置及设备,其中,方法包括:获取待分类视频,并从待分类视频中提取N帧图像帧,其中,N为正整数;分别提取N帧图像帧中的图像特征,并将N帧图像帧中的图像特征输入到非局部神经网络中进行处理,以生成N帧图像帧的关联性特征和N帧图像的图像识别结果;根据N帧图像帧的关联性特征和图像识别结果确定待分类视频的类别。由此,通过非局部神经网络获取N帧图像帧的关联性特征和图像识别结果,进而根据关联性特征和图像识别结果确定视频的类别,能够有效的捕捉视频中多帧之间的关系,提高了视频分类的准确性,并且降低参数规模的冗余,提高了处理效率。

【技术实现步骤摘要】
基于非局部神经网络的视频分类方法、装置及设备
本专利技术涉及视频处理
,尤其涉及一种基于非局部神经网络的视频分类方法、装置及设备。
技术介绍
随着深度学习的发展,越来越多的深度学习方法被应用到视频分类中,并且取得了很大的进展。由于一个视频会包含多帧,帧与帧之间有着很强的关系,如何捕捉多帧之间的关系是视频分类里一个研究热点。相关技术中,通常采用递归型卷积神经网络捕捉多帧之间的关系,进而实现视频分类。然而,由于递归型卷积神经网络结构包含大量的参数,导致参数规模冗余,在进行视频分类时效率非常低下。并且,传统的神经网络捕捉多帧之间关系的准确性还有进一步提升的空间。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种基于非局部神经网络的视频分类方法,通过非局部神经网络获取N帧图像帧的关联性特征和图像识别结果,进而根据关联性特征和图像识别结果确定视频的类别,能够有效的捕捉视频中多帧之间的关系,提高了视频分类的准确性,并且降低了参数规模的冗余,提高了处理效率。本专利技术的第二个目的在于提出一种基于非局部神经网络的视频分类装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本专利技术第一方面实施例提出了一种基于非局部神经网络的视频分类方法,包括:获取待分类视频,并从所述待分类视频中提取N帧图像帧,其中,N为正整数;分别提取所述N帧图像帧中的图像特征,并将所述N帧图像帧中的图像特征输入到非局部神经网络中进行处理,以生成所述N帧图像帧的关联性特征和所述N帧图像的图像识别结果;以及根据所述N帧图像帧的关联性特征和所述图像识别结果确定所述待分类视频的类别。本专利技术实施例的基于非局部神经网络的视频分类方法,通过非局部神经网络获取N帧图像帧的关联性特征和图像识别结果,进而根据关联性特征和图像识别结果确定视频的类别,由于非局部神经网络通过非局部的特征获取N帧图像帧之间的关联性,能够有效的捕捉视频中多帧之间的关系,提高了视频分类的准确性。并且,只需要较少的参数就能实现视频分类,降低参数规模的冗余,提高了处理效率。为达上述目的,本专利技术第二方面实施例提出了一种基于非局部神经网络的视频分类装置,包括:获取模块,用于获取待分类视频,并从所述待分类视频中提取N帧图像帧,其中,N为正整数;处理模块,用于分别提取所述N帧图像帧中的图像特征,并将所述N帧图像帧中的图像特征输入到非局部神经网络中进行处理,以生成所述N帧图像帧的关联性特征和所述N帧图像的图像识别结果;以及分类模块,用于根据所述N帧图像帧的关联性特征和所述图像识别结果确定所述待分类视频的类别。本专利技术实施例的基于非局部神经网络的视频分类装置,通过非局部神经网络获取N帧图像帧的关联性特征和图像识别结果,进而根据关联性特征和图像识别结果确定视频的类别,由于非局部神经网络通过非局部的特征获取N帧图像帧之间的关联性,能够有效的捕捉视频中多帧之间的关系,提高了视频分类的准确性。并且,只需要较少的参数就能实现视频分类,降低参数规模的冗余,提高了处理效率。为达上述目的,本专利技术第三方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的基于非局部神经网络的视频分类方法。为达上述目的,本专利技术第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面实施例所述的基于非局部神经网络的视频分类方法。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明图1为本专利技术实施例所提供的一种基于非局部神经网络的视频分类方法的流程示意图;图2为本专利技术实施例所提供的另一种基于非局部神经网络的视频分类方法的流程示意图;图3为本专利技术实施例所提供的一种多帧图像帧中的相关点的示意图;图4为本专利技术实施例所提供的另一种多帧图像帧中的相关点的示意图;图5为本专利技术实施例所提供的另一种基于非局部神经网络的视频分类方法的流程示意图;图6为本专利技术实施例所提供的一种非局部神经网络结构示意图;图7为本专利技术实施例所提供的一种生成紧凑型表达的流程示意图;图8为本专利技术实施例所提供的一种基于非局部神经网络的视频分类装置的结构示意图;图9示出了适于用来实现本专利技术实施例的示例性计算机设备的框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的基于非局部神经网络的视频分类方法、装置及设备。图1为本专利技术实施例所提供的一种基于非局部神经网络的视频分类方法的流程示意图,如图1所示,该方法包括:步骤101,获取待分类视频,并从待分类视频中提取N帧图像帧,其中,N为正整数。本实施例中,在进行视频分类时,需要先获取待分类视频,进而提取待分类视频的所有图像帧,并选取其中N帧图像帧。例如,可以从待分类视频的所有图像帧中随机选取N帧图像帧。再例如,可以从所有图像帧中每隔一帧选取一帧图像帧。其中,N可以根据实际需要自行设置,例如,N为32。步骤102,分别提取N帧图像帧中的图像特征,并将N帧图像帧中的图像特征输入到非局部神经网络中进行处理,以生成N帧图像帧的关联性特征和N帧图像的图像识别结果。作为一种示例,可以提取N帧图像帧的图像特征,并根据图像特征生成图像特征矩阵,将图像特征矩阵输入到非局部神经网络中进行处理。其中,图像特征包括但不限于亮度特征、纹理特征、颜色特征等。在本专利技术的一个实施例中,可以根据图像特征矩阵生成相应的特征空间,通过相关算法获取特征空间中任意两个特征点之间的相似度,进而根据特征点之间的相似度确定N帧图像帧中任意两个像素区域之间的相似度,从而获取N帧图像帧中的相关点,进而根据相关点确定N帧图像帧之间的关联性。其中,获取特征空间中特征点之间的相似度的实现形式包括但不限于点乘法、欧式距离等。在本专利技术的一个实施例中,通过将图像特征矩阵输入到非局部神经网络中进行处理,可以输出相应的图像识别结果。作为一种示例,图像识别结果可以为矩阵的形式,可以通过下述公式输出图像识别结果:g(X)=WgXz=Y+X其中,X为输入的特征矩阵,z为输出的图像识别结果,Wθ,Wg为非局部神经网络的卷积层权重。其中,卷积层权重可以根据大量实验数据获得。作为一种可能的实现方式,可以预先设置特征与图像内容的对应关系,并将矩阵z与预设的特征进行匹配,根据匹配结果确定N帧图像帧的内容。步骤103,根据N帧图像帧的关联性特征和图像识别结果确定待分类视频的类别。在本专利技术的一个实施例中,由于已经获取了N帧图像帧的关联性特征,因此,可以从N帧图像帧中选取关联性较高的图像帧,进而根据图像识别结果获取这些图像帧的内容,并将这些图像帧的内容作为待分类视频的内容,从而对待分类视频进行分类。作为一种示例,从待分类视频中提取了32帧图像帧,并获取了32帧图本文档来自技高网...

【技术保护点】
1.一种基于非局部神经网络的视频分类方法,其特征在于,包括:获取待分类视频,并从所述待分类视频中提取N帧图像帧,其中,N为正整数;分别提取所述N帧图像帧中的图像特征,并将所述N帧图像帧中的图像特征输入到非局部神经网络中进行处理,以生成所述N帧图像帧的关联性特征和所述N帧图像的图像识别结果;以及根据所述N帧图像帧的关联性特征和所述图像识别结果确定所述待分类视频的类别。

【技术特征摘要】
1.一种基于非局部神经网络的视频分类方法,其特征在于,包括:获取待分类视频,并从所述待分类视频中提取N帧图像帧,其中,N为正整数;分别提取所述N帧图像帧中的图像特征,并将所述N帧图像帧中的图像特征输入到非局部神经网络中进行处理,以生成所述N帧图像帧的关联性特征和所述N帧图像的图像识别结果;以及根据所述N帧图像帧的关联性特征和所述图像识别结果确定所述待分类视频的类别。2.如权利要求1所述的基于非局部神经网络的视频分类方法,其特征在于,所述提取所述N帧图像帧的图像特征,包括:提取所述N帧图像帧的图像特征,以生成图像特征矩阵;将所述图像特征矩阵向量化,其中,向量化后的图像特征矩阵作为所述非局部神经网络的输入。3.如权利要求2所述的基于非局部神经网络的视频分类方法,其特征在于,所述将所述N帧图像帧中的图像特征输入到非局部神经网络中进行处理以生成所述N帧图像帧的关联性特征,包括:根据输入的向量化后的图像特征矩阵生成相应的特征空间;计算所述特征空间中第一特征点和第二特征点的第一相似度,其中,所述第一特征点和所述第二特征点为所述特征空间中的任意特征点;根据所述第一相似度确定所述N帧图像帧中第一像素区域和第二像素区域的第二相似度,其中,所述第一像素区域和所述第二像素区域分别与所述第一特征点和所述第二特征点对应;以及根据所述第二相似度确定所述N帧图像帧的关联性特征。4.如权利要求3所述的基于非局部神经网络的视频分类方法,其特征在于,将所述N帧图像帧中的图像特征输入到非局部神经网络中进行处理,以生成所述N帧图像的图像识别结果,包括:通过所述非局部神经网络的卷积层对所述特征空间进行变换,以获取第一特征空间、第二特征空间以及第三特征空间;根据所述第一特征空间、所述第二特征空间和所述第三特征空间分别生成第一向量、第二向量和第三向量;对所述第一向量、所述第二向量和所述第三向量中的任意两个进行Hadamard矩阵操作,生成第四向量;根据所述第四向量生成所述图像识别结果。5.如权利要求4所述的基于非局部神经网络的视频分类方法,其特征在于,所述根据所述第四向量生成所述图像识别结果,包括:通过傅里叶变换对所述第四向量和第五向量进行卷积运算,生成第六向量,其中,所述第五向量为所述第一向量、所述第二向量和所述第三向量中的另一个向量;对所述第六向量进行反傅里叶变换以生成所述图像识别结果。6.如权利要求4所述的基于非局部神经网络的视频分类方法,其特征在于,所述根据所述N帧图像帧的关联性特征和所述图像识别结果确定所述待分类视频的类别,包括:根据所述关联性特征从所述N帧图像帧中选取M帧图像帧,其中,M为小于或等于N的正整数;根据所述图像识别结果获取所述M帧图像帧的内容;根据所述M帧图像帧的内容确定所述待分类视频的类别。7.一种基于非局部神经网络的视频分类装置,其特征在于,包括:获取模块,用于获取待分类...

【专利技术属性】
技术研发人员:岳凯宇孙明周峰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1