视频方法及装置、电子设备和存储介质制造方法及图纸

技术编号:27093178 阅读:14 留言:0更新日期:2021-01-25 18:27
本公开涉及一种视频方法及装置、电子设备和存储介质,所述方法包括:通过特征提取网络对待处理视频的多个目标视频帧进行特征提取,获得多个目标视频帧的特征图;通过M级动作识别网络对多个目标视频帧的特征图进行动作识别处理,获得多个目标视频帧的动作识别特征;根据多个目标视频帧的动作识别特征,确定待处理视频的分类结果。根据本公开的实施例的视频处理方法,可通过多级动作识别网络获得目标视频帧的动作识别特征,进而获得待处理视频的分类结果,无需通过光流或3D卷积等处理进行动作识别,减小了运算量,提高了处理效率,能够对待处理视频进行在线实时分类,提高了所述视频处理方法的实用性。理方法的实用性。理方法的实用性。

【技术实现步骤摘要】
视频方法及装置、电子设备和存储介质


[0001]本公开涉及计算机视觉
,尤其涉及一种视频方法及装置、电子设备和存储介质。

技术介绍

[0002]视频由多个视频帧组成,可记录动作、行为等信息,应用场景多样化。但视频不仅帧数较多,处理运算量较大,且视频还具有与时间的关联关系,例如,通过多个视频帧中的内容以及各视频帧对应的时间来表现动作或行为等信息。在相关技术中,可通过光流或3D卷积等处理获得时空特征和运动特征等,但光流或3D卷积等处理的运算量较大,处理速度较慢,通常需要进行离线处理,难以在线实时识别视频中记录的动作、行为等信息。

技术实现思路

[0003]本公开提出了一种视频方法及装置、电子设备和存储介质。
[0004]根据本公开的一方面,提供了一种视频处理方法,包括:
[0005]通过特征提取网络对待处理视频的多个目标视频帧进行特征提取,获得所述多个目标视频帧的特征图;
[0006]通过M级动作识别网络对所述多个目标视频帧的特征图进行动作识别处理,获得所述多个目标视频帧的动作识别特征,其中,M为大于或等于1的整数,所述动作识别处理包括基于所述多个目标视频帧的特征图的时空特征提取处理,以及基于所述多个目标视频帧的特征图之间的运动差异信息的运动特征提取处理,所述动作识别特征包括时空特征信息和运动特征信息;
[0007]根据所述多个目标视频帧的动作识别特征,确定所述待处理视频的分类结果。
[0008]根据本公开的实施例的视频处理方法,可通过多级动作识别网络获得目标视频帧的动作识别特征,进而获得待处理视频的分类结果,无需通过光流或3D卷积等处理进行动作识别,减小了运算量,提高了处理效率,能够对待处理视频进行在线实时分类,提高了所述视频处理方法的实用性。
[0009]在一种可能的实现方式中,通过M级动作识别网络对所述多个目标视频帧的特征图进行动作识别,获得所述多个目标视频帧的动作识别特征,包括:
[0010]通过第一级动作识别网络对所述多个目标视频帧的特征图进行处理,获得第一级的动作识别特征;
[0011]通过第i级动作识别网络对第i-1级的动作识别特征进行处理,获得第i级的动作识别特征,i为整数且1<i<M,其中,各级的动作识别特征分别与所述多个目标视频帧的特征图对应;
[0012]通过第M级动作识别网络对第M-1级的动作识别特征进行处理,获得所述多个目标视频帧的动作识别特征。
[0013]在一种可能的实现方式中,通过第i级动作识别网络对第i-1级的动作识别特征进
行处理,获得第i级的动作识别特征,包括:
[0014]对所述第i-1级的动作识别特征进行第一卷积处理,获得第一特征信息,其中,所述第一特征信息分别与所述多个目标视频帧的特征图对应;
[0015]对所述第一特征信息进行时空特征提取处理,获得时空特征信息;
[0016]对所述第一特征信息进行运动特征提取处理,获得运动特征信息;
[0017]至少根据所述时空特征信息和所述运动特征信息,获得所述第i级的动作识别特征。
[0018]在一种可能的实现方式中,至少根据所述时空特征信息和所述运动特征信息,获得所述第i级的动作识别特征,包括:
[0019]根据所述时空特征信息、所述运动特征信息和所述第i-1级的动作识别特征,获得所述第i级的动作识别特征。
[0020]在一种可能的实现方式中,对所述第一特征信息进行时空特征提取处理,获得时空特征信息,包括:
[0021]分别对与所述多个目标视频帧的特征图对应的第一特征信息进行维度重构处理,获得第二特征信息,所述第二特征信息与所述第一特征信息的维度不同;
[0022]对所述第二特征信息的各通道分别进行第二卷积处理,获得第三特征信息,其中,所述第三特征信息表示所述多个目标视频帧的特征图的时间特征;
[0023]对所述第三特征信息进行维度重构处理,获得第四特征信息,所述第四特征信息与所述第一特征信息的维度相同;
[0024]对所述第四特征信息进行空间特征提取处理,获得所述时空特征信息。
[0025]在一种可能的实现方式中,所述第一特征信息包括多个行向量或列向量,
[0026]分别对与所述多个目标视频帧的特征图对应的第一特征信息进行维度重构处理,包括:
[0027]对所述第一特征信息的多个行向量或列向量进行拼接处理,获得所述第二特征信息,其中,所述第二特征信息包括一个行向量或列向量。
[0028]通过这种方式,可获得各通道的时空信息,使得时空信息完整,并通过重构处理改变第一特征信息的维度,可通过计算量较小的方式进行卷积处理,例如,通过1D卷积处理的方式进行第二卷积处理,可简化计算,提高处理效率。
[0029]在一种可能的实现方式中,对所述第一特征信息进行运动特征提取处理,获得运动特征信息,包括:
[0030]对所述第一特征信息的通道进行降维处理,获得第五特征信息,其中,所述第五特征信息分别与所述待处理视频中的各目标视频帧对应;
[0031]将与第k+1个目标视频帧对应的第五特征信息进行第三卷积处理,并与所述第k个目标视频帧对应的第五特征信息相减,获得与第k个目标视频帧对应的第六特征信息,其中,k为整数且1≤k<T,T为目标视频帧的数量,且T为大于1的整数,所述第六特征信息表示与所述第k+1个目标视频帧对应的第五特征信息及与所述第k个目标视频帧对应的第五特征信息之间的运动差异信息;
[0032]将与所述各目标视频帧对应的第六特征信息进行特征提取处理,获得所述运动特征信息。
[0033]通过这种方式,可通过对第五特征信息进行第三卷积处理后与前一个第五特征信息相减的处理获得所述运动特征信息,可简化计算,提高处理效率。
[0034]在一种可能的实现方式中,根据所述时空特征信息、所述运动特征信息和所述第i-1级的动作识别特征,获得所述第i级的动作识别特征,包括:
[0035]对所述时空特征信息和所述运动特征信息进行求和处理,获得第七特征信息;
[0036]对所述第七特征信息进行第四卷积处理,并与所述第i-1级的动作识别特征进行求和处理,获得所述第i级的动作识别特征。
[0037]在一种可能的实现方式中,根据所述多个目标视频帧的动作识别特征,确定所述待处理视频的分类结果,包括:
[0038]对各目标视频帧的动作识别特征分别进行全连接处理,获得各目标视频帧的分类信息;
[0039]对各目标视频帧的分类信息进行平均处理,获得所述待处理视频的分类结果。
[0040]在一种可能的实现方式中,所述方法还包括:
[0041]从待处理视频中确定出多个目标视频帧。
[0042]在一种可能的实现方式中,从待处理视频的多个视频帧中确定出多个目标视频帧,包括:
[0043]将所述待处理视频划分为多个视频片段;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:通过特征提取网络对待处理视频的多个目标视频帧进行特征提取,获得所述多个目标视频帧的特征图;通过M级动作识别网络对所述多个目标视频帧的特征图进行动作识别处理,获得所述多个目标视频帧的动作识别特征,其中,M为大于或等于1的整数,所述动作识别处理包括基于所述多个目标视频帧的特征图的时空特征提取处理,以及基于所述多个目标视频帧的特征图之间的运动差异信息的运动特征提取处理,所述动作识别特征包括时空特征信息和运动特征信息;根据所述多个目标视频帧的动作识别特征,确定所述待处理视频的分类结果。2.根据权利要求1所述的方法,其特征在于,通过M级动作识别网络对所述多个目标视频帧的特征图进行动作识别,获得所述多个目标视频帧的动作识别特征,包括:通过第一级动作识别网络对所述多个目标视频帧的特征图进行处理,获得第一级的动作识别特征;通过第i级动作识别网络对第i-1级的动作识别特征进行处理,获得第i级的动作识别特征,i为整数且1<i<M,其中,各级的动作识别特征分别与所述多个目标视频帧的特征图对应;通过第M级动作识别网络对第M-1级的动作识别特征进行处理,获得所述多个目标视频帧的动作识别特征。3.根据权利要求2所述的方法,其特征在于,通过第i级动作识别网络对第i-1级的动作识别特征进行处理,获得第i级的动作识别特征,包括:对所述第i-1级的动作识别特征进行第一卷积处理,获得第一特征信息,其中,所述第一特征信息分别与所述多个目标视频帧的特征图对应;对所述第一特征信息进行时空特征提取处理,获得时空特征信息;对所述第一特征信息进行运动特征提取处理,获得运动特征信息;至少根据所述时空特征信息和所述运动特征信息,获得所述第i级的动作识别特征。4.根据权利要求3所述的方法,其特征在于,所述至少根据所述时空特征信息和所述运动特征信息,获得所述第i级的动作识别特征,包括:根据所述时空特征信息、所述运动特征信息和所述第i-1级的动作识别特征,获得所述第i级的动作识别特征。5.根据权利要求3所述的方法,其特征在于,对所述第一特征信息进行时空特征提取处理,获得时空特征信息,包括:分别对与所述多个目标视频帧的特征图对应的第一特征信息进行维度重构处理,获得第二特征信息,所述第二特征信息与所述第一特征信息的维度不同;对所述第二特征信息的各通道分别进行第二卷积处理,获得第三特征信息,其中,所述第三特征信息表示所述...

【专利技术属性】
技术研发人员:姜博源王蒙蒙甘伟豪
申请(专利权)人:浙江商汤科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1