视频分类方法和装置、电子设备和存储介质制造方法及图纸

技术编号:34102827 阅读:6 留言:0更新日期:2022-07-11 23:50
本申请涉及一种视频分类方法和装置、电子设备和存储介质。其中,方法包括:获取需要进行分类的待处理视频;对待处理视频按照第一抽帧方案进行抽帧,得到多个第一视频帧;对待处理视频按照第二抽帧方案进行抽帧,得到多个第二视频帧,其中,第一视频帧的数量多于第二视频帧的数量;基于自注意力机制对第一视频帧以及第二视频帧进行处理,得到用于指示待处理视频的类别的行为类别的分类结果。本实施例中的方法,提供了一种无需通过3D卷积神经网络获取视频的时序信息的方法,可以有效解决相关技术中存在的计算过程比较慢,消耗的计算资源比较多的技术问题。的技术问题。的技术问题。

【技术实现步骤摘要】
视频分类方法和装置、电子设备和存储介质


[0001]本申请涉及图像处理
,尤其涉及一种视频分类方法和装置、电子设备和存储介质。

技术介绍

[0002]近几年来,卷积神经网络的成功应用,使得视觉领域发展迅速,从处理图像到2D卷积网络,到处理视频的3D卷积网络,技术也在不断的迭代升级,互联网社交平台的快速发展,产生了大量的视频数据,所以随着行业的不同发展,新的问题也在出现,也需要新的技术来解决这些问题。目前基于短视频技术的研究越来越多,像3D卷积神经网络,双流网络等,也有好多基于transformer的方法,因为视频除了包含空间维度的信息外,还有时间维度的信息。所以如何得到不同维度的信息,并将不同维度的信息进行融合,才能准确有效的处理短视频,才能有更好的用户体验。
[0003]相关技术中,使用3D卷积神经网络提取视频的特征;但是,这种方法的操作是利用3D卷积神经网络,将输入的视频经过3D卷积操作后,得到一条特征,再利用这条特征进行最后的分类。这种方法的优点很明显,操作简单,每个视频最后得到一条特征,便于处理。缺点是3D卷积神经网络虽然可以得到视频的时序信息,但计算过程比较慢,消耗的计算资源比较多。
[0004]针对相关技术中存在的通过3D卷积神经网络获取视频的时序信息,存在的计算过程比较慢,消耗的计算资源比较多的技术问题,目前尚未提供有效的解决方案。

技术实现思路

[0005]为了解决上述通过3D卷积神经网络获取视频的时序信息,存在的计算过程比较慢,消耗的计算资源比较多的技术问题,本申请提供了一种视频分类方法和装置、电子设备和存储介质。
[0006]第一方面,本申请实施例提供了一种视频分类方法,包括:
[0007]获取需要进行分类的待处理视频;
[0008]对所述待处理视频按照第一抽帧方案进行抽帧,得到多个第一视频帧;对所述待处理视频按照第二抽帧方案进行抽帧,得到多个第二视频帧,其中,所述第一视频帧的数量多于所述第二视频帧的数量;
[0009]基于自注意力机制对所述第一视频帧以及所述第二视频帧进行处理,得到用于指示所述待处理视频的行为类别的分类结果。
[0010]可选地,如前述的方法,所述对所述待处理视频按照第一抽帧方案进行抽帧,得到多个第一视频帧,包括:
[0011]确定第一抽帧方案所指示的单位时间抽帧数;
[0012]按照所述单位时间抽帧数在所述待处理视频中进行抽帧,得到多个第一预设视频帧;
[0013]对所有所述第一预设视频帧中的两个时序相邻的所述第一预设视频帧进行插帧操作,得到第一插帧后视频序列;
[0014]将所述第一插帧后视频序列中的视频帧作为所述第一视频帧。
[0015]可选地,如前述的方法,所述对所有所述第一预设视频帧中的两个时序相邻的所述第一预设视频帧进行插帧操作,包括:
[0016]对所述两个时序相邻的所述第一预设视频帧进行作差得到第一过渡视频帧,其中,所述第一预设视频帧用于指示所述两个时序相邻的所述第一预设视频帧之间的差异;
[0017]将所述第一过渡视频帧插入所述两个时序相邻的所述第一预设视频帧之间。
[0018]可选地,如前述的方法,所述基于自注意力机制对所述第一视频帧以及所述第二视频帧进行处理,得到用于指示所述待处理视频的行为类别的分类结果,包括:
[0019]对每个所述第一视频帧进行卷积操作,得到与每个所述第一视频帧对应的第一卷积向量;对每个所述第二视频帧进行卷积操作,得到与每个所述第二视频帧对应的第二卷积向量;
[0020]通过第一自注意力模块对所述第一卷积向量进行处理,得到第一输出结果;通过第二自注意力模块对所述第二卷积向量进行处理,得到第二输出结果;
[0021]通过第三自注意力模块对所述第一输出结果以及所述第二输出结果进行处理,得到所述分类结果。
[0022]可选地,如前述的方法,所述通过第一自注意力模块对所述第一卷积向量进行处理,得到第一输出结果;通过第二自注意力模块对所述第二卷积向量进行处理,得到第二输出结果之前,所述方法还包括:
[0023]按照各个所述第一视频帧之间的时序关系,确定与每个所述第一卷积向量对应的第一次序;根据所有所述第一次序,得到第一位置向量,其中,所述第一位置向量用于指示各个所述第一卷积向量之间的次序关系;以及,
[0024]按照各个所述第二视频帧之间的时序关系,确定与每个所述第二卷积向量对应的第二次序;根据所有所述第二次序,得到第二位置向量,其中,所述第二位置向量用于指示各个所述第二卷积向量之间的次序关系。
[0025]可选地,如前述的方法,所述通过第一自注意力模块对所述第一卷积向量进行处理,得到第一输出结果,包括:
[0026]将所述第一位置向量,第一预设分类头以及所有所述第一卷积向量输入所述第一自注意力模块,得到与每个所述第一卷积向量对应的第一特征向量,以及与所述第一预设分类头对应的第一处理后分类头,其中,所述第一预设分类头为所述第一自注意力模块在网络训练过程中初始化得到的向量,所述第一处理后分类头用于指示所有所述第一卷积向量的特征;
[0027]将所述第一特征向量以及所述第一处理后分类头作为所述第一输出结果;
[0028]所述通过第二自注意力模块对所述第二卷积向量进行处理,得到第二输出结果,包括:
[0029]将所述第二位置向量,第二预设分类头以及所有所述第二卷积向量输入所述第二自注意力模块,得到与每个所述第二卷积向量对应的第二特征向量,以及与所述第二预设分类头对应的第二处理后分类头,其中,所述第二预设分类头为所述第二自注意力模块在
网络训练过程中初始化得到的向量,所述第二处理后分类头用于指示所有所述第二卷积向量的特征;
[0030]将所述第二特征向量以及所述第二处理后分类头作为所述第二输出结果。
[0031]可选地,如前述的方法,所述通过第三自注意力模块对所述第一输出结果以及所述第二输出结果进行处理,得到所述分类结果,包括:
[0032]将所述第一特征向量、所述第一处理后分类头、所述第二特征向量以及所述第二处理后分类头输入所述第三自注意力模块,得到与所述第一处理后分类头对应的第一目标分类头,以及与所述第二处理后分类头对应的第二目标分类头,其中,所述第一目标分类头用于指示第一预设分类结果,所述第二目标分类头用于指示第二预设分类结果;
[0033]对所述第一预设分类结果以及所述第二预设分类结果进行加权处理,得到所述分类结果。
[0034]第二方面,本申请实施例提供了一种视频分类装置,包括:
[0035]获取模块,用于获取需要进行分类的待处理视频;
[0036]抽帧模块,用于对所述待处理视频按照第一抽帧方案进行抽帧,得到多个第一视频帧;对所述待处理视频按照第二抽帧方案进行抽帧,得到多个第二视频帧,其中,所述第一视频帧的数量多于所述第二视频帧的数量;
[0037]分类模块,用于基于自注意力机制本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频分类方法,其特征在于,包括:获取需要进行分类的待处理视频;对所述待处理视频按照第一抽帧方案进行抽帧,得到多个第一视频帧;对所述待处理视频按照第二抽帧方案进行抽帧,得到多个第二视频帧,其中,所述第一视频帧的数量多于所述第二视频帧的数量;基于自注意力机制对所述第一视频帧以及所述第二视频帧进行处理,得到用于指示所述待处理视频的行为类别的分类结果。2.根据权利要求1所述的方法,其特征在于,所述对所述待处理视频按照第一抽帧方案进行抽帧,得到多个第一视频帧,包括:确定第一抽帧方案所指示的单位时间抽帧数;按照所述单位时间抽帧数在所述待处理视频中进行抽帧,得到多个第一预设视频帧;对所有所述第一预设视频帧中的两个时序相邻的所述第一预设视频帧进行插帧操作,得到第一插帧后视频序列;将所述第一插帧后视频序列中的视频帧作为所述第一视频帧。3.根据权利要求2所述的方法,其特征在于,所述对所有所述第一预设视频帧中的两个时序相邻的所述第一预设视频帧进行插帧操作,包括:对所述两个时序相邻的所述第一预设视频帧进行作差得到第一过渡视频帧,其中,所述第一过渡视频帧用于指示所述两个时序相邻的所述第一预设视频帧之间的差异;将所述第一过渡视频帧插入所述两个时序相邻的所述第一预设视频帧之间。4.根据权利要求1所述的方法,其特征在于,所述基于自注意力机制对所述第一视频帧以及所述第二视频帧进行处理,得到用于指示所述待处理视频的行为类别的分类结果,包括:对每个所述第一视频帧进行卷积操作,得到与每个所述第一视频帧对应的第一卷积向量;对每个所述第二视频帧进行卷积操作,得到与每个所述第二视频帧对应的第二卷积向量;通过第一自注意力模块对所述第一卷积向量进行处理,得到第一输出结果;通过第二自注意力模块对所述第二卷积向量进行处理,得到第二输出结果;通过第三自注意力模块对所述第一输出结果以及所述第二输出结果进行处理,得到所述分类结果。5.根据权利要求4所述的方法,其特征在于,所述通过第一自注意力模块对所述第一卷积向量进行处理,得到第一输出结果;通过第二自注意力模块对所述第二卷积向量进行处理,得到第二输出结果之前,所述方法还包括:按照各个所述第一视频帧之间的时序关系,确定与每个所述第一卷积向量对应的第一次序;根据所有所述第一次序,得到第一位置向量,其中,所述第一位置向量用于指示各个所述第一卷积向量之间的次序关系;以及,按照各个所述第二视频帧之间的时序关系,确定与每个所述第二卷积向量对应的第二次序;根据所有所述第二次序,得到第二位置向量,其中,所述第二位置向量用于指示各个所述第二卷积向量之间的次序关系。6.根据权利要求5所述的方法,其特征在于...

【专利技术属性】
技术研发人员:赵波胡郡郡唐大闰
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1