一种视频分类方法、装置及设备、存储介质制造方法及图纸

技术编号:24458631 阅读:50 留言:0更新日期:2020-06-10 16:19
本发明专利技术提供一种视频分类方法、装置及设备、存储介质,视频分类方法,包括:将待分类处理的视频帧序列输入至已训练的神经网络中,以由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量,对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量,并对所述第二关联特征向量进行分类得到并输出分类结果;依据所述神经网络输出的分类结果确定所述视频帧序列的类别;其中,所述N为小于所述视频帧序列长度的正整数,所述目标域至少包括空间域。改善对视频在时间域和空间域上的信息表达,有利于提高视频分类准确度。

A video classification method, device, equipment and storage medium

【技术实现步骤摘要】
一种视频分类方法、装置及设备、存储介质
本专利技术涉及视频处理
,尤其涉及的是一种视频分类方法、装置及设备、存储介质。
技术介绍
在一些涉及视频处理的领域中,如安防监控、视频检索、人机交互等领域,需对视频中的场景进行分析,以识别出视频中的事件或行为,如骑车、跳高、击剑、事故、啼哭等,并对发生不同事件或行为的视频进行分类。神经网络的发展对目标识别的准确率带来了很大的提高,于是有了越来越多的应用。现有的视频分类方法中,利用若干卷积网络从输入的视频中提取特征,再将这些卷积网络通过全连接层连接,以利用全连接层依据各个卷积网络提取的特征对视频进行分类。上述方式中,通过卷积网络提取的特征缺少时间和空间上的关联,特征并不能完善地表达视频在时间域和空间域上的信息,导致视频分类不准确的问题。
技术实现思路
有鉴于此,本专利技术提供一种视频分类方法、装置及设备、存储介质,改善对视频在时间域和空间域上的信息表达,有利于提高视频分类准确度。本专利技术第一方面提供一种视频分类方法,包括:将待分类处理的视频帧序列输本文档来自技高网...

【技术保护点】
1.一种视频分类方法,其特征在于,包括:/n将待分类处理的视频帧序列输入至已训练的神经网络中,以由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量,对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量,并对所述第二关联特征向量进行分类得到并输出分类结果;/n依据所述神经网络输出的分类结果确定所述视频帧序列的类别;/n其中,所述N为小于所述视频帧序列长度的正整数,所述目标域至少包括空间域。/n

【技术特征摘要】
1.一种视频分类方法,其特征在于,包括:
将待分类处理的视频帧序列输入至已训练的神经网络中,以由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量,对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量,并对所述第二关联特征向量进行分类得到并输出分类结果;
依据所述神经网络输出的分类结果确定所述视频帧序列的类别;
其中,所述N为小于所述视频帧序列长度的正整数,所述目标域至少包括空间域。


2.如权利要求1所述的视频分类方法,其特征在于,所述神经网络包括至少一个第一关联层;
所述由神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量,包括:
由各个所述第一关联层的卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的二维特征向量,并将所述二维特征向量输出至与卷积子层对应的融合子层;
由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据,并将所述空间域关联数据输出至与非局部均值滤波子层对应的融合子层;
由各个所述第一关联层的融合子层对输入的所述二维特征向量和空间域关联数据对应执行融合处理,得到并输出对应的第一关联特征向量;
其中,所述卷积子层包括二维CNN层;所述N等于1。


3.如权利要求2所述的视频分类方法,其特征在于,由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据,包括:
由非局部均值滤波子层遍历输入的视频帧中需滤波的目标像素;
由所述非局部均值滤波子层针对每个遍历到的目标像素,将该输入的视频帧中以该目标像素为中心的指定大小的区域确定为当前块,逐像素遍历该输入的视频帧并确定以每次遍历到的像素为中心像素且与所述当前块相同大小的参考块,计算所述当前块与每个参考块的相似度得到与参考块对应的相似度权重,将相似度权重加权至对应参考块的中心像素的像素值并对加权后的所有参考块的中心像素的像素值求和,将求和所得值确定为该目标像素滤波后的像素值;
由非局部均值滤波子层将各个目标像素的滤波后的像素值确定为该输入的视频帧对应的空间域关联数据。


4.如权利要求1所述的视频分类方法,其特征在于,所述神经网络包括至少一个第一关联层;所述目标域还包括时间域;
由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量,包括:
由各个第一关联层的所述卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的三维特征向量,并将所述三维特征向量输出至与卷积子层对应的融合子层;
由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据,并将所述时空域关联数据输出至与非局部均值滤波子层对应的融合子层;
由各个所述第一关联层的融合子层对输入的所述三维特征向量和时空域关联数据执行融合处理,得到并输出对应的第一关联特征向量;
其中,所述卷积子层包括三维CNN层;所述N大于1且小于等于所述视频帧序列长度的一半。


5.如权利要求4所述的视频分类方法,其特征在于,由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据,包括:
由非局部均值滤波子层遍历输入的N个视频帧所构成的时空三维数据体中需滤波的目标像素;
由非局部均值滤波子层针对每个遍历到的目标像素,在该时空三维数据体中以该目标像素为中心的指定大小的时空三维区域确定为当前块,逐像素遍历该时空三维数据体并确定以每次遍历到的像素为中心像素且与所述当前块相同大小的参考块,计算所述当前块与每个参考块的相似度得到与参考块对应的相似度权重,将相似度权重加权至对应参考块的中心像素的像素值并对加权后的所有参考块的中心像素的像素值求和,将求和所得值确定为该目标像素滤波后的像素值;
由非局部均值滤波子层将各个目标像素的滤波后的像素值确定为该输入的N个视频帧对应的时空域关联数据。


6.如权利要求2-5中任一项所述的视频分类方法,其特征在于,所述神经网络包括M个第一关联层;
其中,所述待分类处理的视频帧序列被分成M段输入至所述神经网络的各个所述第一关联层中;所述M大于1。


7.如权利要求1-5中任一项所述的视频分类方法,其特征在于,由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量,对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量,并对所述第二关联特征向量进行分类得到并输出分类结果,包括:
由所述神经网络的至少一个第一关联层对输入的所述视频帧序列中每N个视频帧执行特征提取处理得到表征目标特征的特征向量,并对所述特征向量在目标域上执行特征关联处理得到与每N个视频帧对应的第一关联特征向量,将与每N个视频帧对应的第一关联特征向量输出至所述神经网络的第二关联层;
由所述神经网络的第二关联层对所有第一关联层输出的所述第一关联特征向量在时间域上执行特征关联处理得到第二关联特征向量,将所述第二关联特征向量输出至所述神经网络的全连接层;
由所述神经网络的全连接层对所述第二关联层输出的第二关联特征向量执行分类处理,得到并输出分类结果。


8.如权利要求7所述的视频分类方法,其特征在于,所述第二关联层包括循环神经网络RNN层。


9.一种视频分类装置,其特征在于,包括:
分类处理模块,用于将待分类处理的视频帧序列输入至已训练的神经网络中,以由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量,对所有第一关联特征向量在时间域上进行特征...

【专利技术属性】
技术研发人员:许昀璐程战战钮毅
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1