一种视频分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:28978886 阅读:10 留言:0更新日期:2021-06-23 09:25
本申请实施例提供的一种视频分类方法、装置、电子设备及存储介质,获取待分类视频的N张视频帧;从N张视频帧中确定S个目标图像分组;将S个目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中,获取各目标图像分组的特征向量,得到S个特征向量;对S个特征向量进行特征融合,得到N张视频帧的分类特征向量;根据N张视频帧的分类特征向量对待分类视频进行分类,得到待分类视频的分类结果。实现了通过获取不同时间粒度的特征后,进行融合,根据融合结果对待分类视频进行分类,从而实现提取多种时间粒度的特征进行视频的分类,提高视频分类的精度。

【技术实现步骤摘要】
一种视频分类方法、装置、电子设备及存储介质
本申请涉及信息
,特别是涉及一种视频分类方法、装置、电子设备及存储介质。
技术介绍
随着智能高清技术的发展,基于图像分析的视频处理技术越来越多的被应用到实际任务当中。短视频作为短视频厂商的主要盈利来源,对其进行有效的分析,比如分类,目标分割,视频概述等等,对后续短视频的处理起着至关重要的作用。目前,一般通过C3D(3DConvNets,3维卷积网络)进行短视频的分类。现有技术中,在通过C3D进行短视频的分类时,通常使用单一时间间隔采样的视频帧作为C3D的训练输入,因此在整个网络学习过程中提取的也是单一时间粒度上的特征。在实际分类过程中,因为C3D中输入的为连续视频帧,所提取到的也通常是单一时间粒度的特征,然后仅通过单一时间粒度的特征进行视频分类,分类结果准确度底。
技术实现思路
本申请实施例的目的在于提供一种视频分类方法、装置、电子设备及存储介质,以实现提高视频分类结果的准确度。具体技术方案如下:第一方面,本申请提供了一种视频分类方法,包括:获取待分类视频的N张视频帧;从N张视频帧中确定S个目标图像分组,其中,每个目标图像分组均包括多张视频帧,不同目标图像分组中各视频帧之间的时序间隔不同;将S个目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中,获取各目标图像分组的特征向量,得到S个特征向量,其中,特征向量用于表征目标图像的空间特征和时序特征;对S个特征向量进行特征融合,得到N张视频帧的分类特征向量,其中,分类特征向量包括N张视频帧的空间特征和时序特征;根据N张视频帧的分类特征向量对待分类视频进行分类,得到待分类视频的分类结果。可选的,从N张视频帧中确定S个目标图像分组,包括:按照不同的时序间隔对N张视频帧进行分组,得到每个时序间隔对应的分组结果,其中,每个时序间隔对应的分组结果包括多个图像分组;分别从每个时序间隔对应的分组结果中随机选取一组图像分组,得到S个目标图像分组。可选的,按照不同的时序间隔对N张视频帧进行分组,得到每个时序间隔对应的分组结果,包括:按照预设规则从N张视频帧的每一视频帧中截取预设规格的图像,得到截取后的N张视频帧,其中,预设规则为将N张视频帧作为一个视频片段,对同一视频片段在相同位置进行截取,对不同视频片段在不同位置进行截取;按照不同的时序间隔对截取后的N张视频帧进行分组,得到每个时序间隔对应的分组结果。可选的,按照不同的时序间隔对截取后的N张视频帧进行分组,得到每个时序间隔对应的分组结果之前,上述方法还包括:对截取后的N张视频帧中的各视频帧进行映射处理,得到截取后的N张视频帧中的各视频帧对应的浅层特征图。可选的,获取待分类视频的N张视频帧,包括:在待分类视频中选取一视频帧,作为起始视频帧;在待分类视频中,从起始视频帧开始向前或向后选取连续的N张视频帧。可选的,S个特征向量为相同维度的特征向量。可选的,在获取待分类视频的N张视频帧之前,上述方法还包括:获取多个样本视频和待训练的网络模型,其中,样本视频包括N张视频帧,样本视频标记有视频分类结果;选取一个样本视频,从选取的样本视频的N张视频帧中选取S个样本图像分组,其中,每个样本图像分组均包括多张视频帧,不同样本图像分组中各视频帧之间的时序间隔不同;将S个样本图像分组分别输入到待训练的网络模型的S个特征提取网络中,获取各样本图像分组特征向量,得到S个样本特征向量;利用待训练的网络模型对S个样本特征向量进行特征融合,得到样本分类特征向量;利用待训练的网络模型对样本分类特征向量进行分类,得到预测分类结果;根据选取的样本视频的预测分类结果及选取的样本视频标记的视频分类结果,计算待训练的网络模型的损失;根据网络模型的损失对待训练的网络模型的参数进行调整;选取样本视频对待训练的网络模型继续训练,直至待训练的网络模型的损失小于预设阈值,得到训练好的网络模型。第二方面,本申请提供了一种视频分类装置,包括:视频帧获取模块,用于获取待分类视频的N张视频帧;视频帧分组模块,用于从N张视频帧中确定S个目标图像分组,其中,每个目标图像分组均包括多张视频帧,不同目标图像分组中各视频帧之间的时序间隔不同;图像输入模块,用于将S个目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中,获取各目标图像分组的特征向量,得到S个特征向量,其中,特征向量用于表征目标图像的空间特征和时序特征;特征融合模块,用于对S个特征向量进行特征融合,得到N张视频帧的分类特征向量,其中,分类特征向量包括N张视频帧的空间特征和时序特征;视频分类模块,用于根据N张视频帧的分类特征向量对待分类视频进行分类,得到待分类视频的分类结果。可选的,视频帧分组模块,包括:视频帧分类子模块,用于按照不同的时序间隔对N张视频帧进行分组,得到每个时序间隔对应的分组结果,其中,每个时序间隔对应的分组结果包括多个图像分组;图像分组子模块,用于分别从每个时序间隔对应的分组结果中随机选取一组图像分组,得到S个目标图像分组。可选的,图像分组子模块,包括:区域截取单元,用于按照预设规则从N张视频帧的每一视频帧中截取预设规格的图像,得到截取后的N张视频帧,其中,预设规则为将N张视频帧作为一个视频片段,对同一视频片段在相同位置进行截取,对不同视频片段在不同位置进行截取;分组规则单元,用于按照不同的时序间隔对截取后的N张视频帧进行分组,得到每个时序间隔对应的分组结果。可选的,图像分组子模块,还包括:映射单元,用于对截取后的N张视频帧中的各视频帧进行映射处理,得到截取后的N张视频帧中的各视频帧对应的浅层特征图;可选的,视频帧获取模块,包括:起始帧子模块,用于在待分类视频中选取一视频帧,作为起始视频帧;连续选区子模块,用于在待分类视频中,从起始视频帧开始向前或向后选取连续的N张视频帧。可选的,S个特征向量为相同维度的特征向量。可选的,上述装置还用于:获取多个样本视频和待训练的网络模型,其中,样本视频包括N张视频帧,样本视频标记有视频分类结果;选取一个样本视频,从选取的样本视频的N张视频帧中选取S个样本图像分组,其中,每个样本图像分组均包括多张视频帧,不同样本图像分组中各视频帧之间的时序间隔不同;将S个样本图像分组分别输入到待训练的网络模型的S个特征提取网络中,获取各样本图像分组特征向量,得到S个样本特征向量;利用待训练的网络模型对S个样本特征向量进行特征融合,得到样本分类特征向量;利用待训练的网络模型对样本分类特征向量进行分类,得到预测分类结果;根据选取的样本视频的预测分类结果及选取的样本视频标记的视频分类结果,计算待训练的网络模型的损失;根据网络模型的损失本文档来自技高网...

【技术保护点】
1.一种视频分类方法,其特征在于,包括:/n获取待分类视频的N张视频帧;/n从所述N张视频帧中确定S个目标图像分组,其中,每个所述目标图像分组均包括多张视频帧,不同所述目标图像分组中各视频帧之间的时序间隔不同;/n将S个所述目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中,获取各所述目标图像分组的特征向量,得到S个特征向量,其中,所述特征向量用于表征所述目标图像的空间特征和时序特征;/n对所述S个特征向量进行特征融合,得到所述N张视频帧的分类特征向量,其中,所述分类特征向量包括所述N张视频帧的空间特征和时序特征;/n根据所述N张视频帧的分类特征向量对所述待分类视频进行分类,得到所述待分类视频的分类结果。/n

【技术特征摘要】
1.一种视频分类方法,其特征在于,包括:
获取待分类视频的N张视频帧;
从所述N张视频帧中确定S个目标图像分组,其中,每个所述目标图像分组均包括多张视频帧,不同所述目标图像分组中各视频帧之间的时序间隔不同;
将S个所述目标图像分组分别输入到预先训练的深度学习模型的S个特征提取网络中,获取各所述目标图像分组的特征向量,得到S个特征向量,其中,所述特征向量用于表征所述目标图像的空间特征和时序特征;
对所述S个特征向量进行特征融合,得到所述N张视频帧的分类特征向量,其中,所述分类特征向量包括所述N张视频帧的空间特征和时序特征;
根据所述N张视频帧的分类特征向量对所述待分类视频进行分类,得到所述待分类视频的分类结果。


2.根据权利要求1所述的方法,其特征在于,所述从所述N张视频帧中确定S个目标图像分组,包括:
按照不同的时序间隔对所述N张视频帧进行分组,得到每个时序间隔对应的分组结果,其中,所述每个时序间隔对应的分组结果包括多个图像分组;
分别从所述每个时序间隔对应的分组结果中随机选取一组图像分组,得到S个目标图像分组。


3.根据权利要求1所述的方法,其特征在于,所述按照不同的时序间隔对所述N张视频帧进行分组,得到每个时序间隔对应的分组结果,包括:
按照预设规则从所述N张视频帧的每一视频帧中截取预设规格的图像,得到截取后的N张视频帧,其中,所述预设规则为将所述N张视频帧作为一个视频片段,对同一视频片段在相同位置进行截取,对不同视频片段在不同位置进行截取;
按照不同的时序间隔对所述截取后的N张视频帧进行分组,得到每个时序间隔对应的分组结果。


4.根据权利要求3所述的方法,其特征在于,所述按照不同的时序间隔对所述截取后的N张视频帧进行分组,得到每个时序间隔对应的分组结果之前,所述方法还包括:
对所述截取后的N张视频帧中的各视频帧进行映射处理,得到所述截取后的N张视频帧中的各视频帧对应的浅层特征图。


5.根据权利要求1所述的方法,其特征在于,所述获取待分类视频的N张视频帧,包括:
在所述待分类视频中选取一视频帧,作为起始视频帧;
在所述待分类视频中,从所述起始视频帧开始向前或向后选取连续的N张视频帧。


6.根据权利要求1所述的方法,其特征在于,所述S个特征向量为相同维度的特征向量。


7.根据权利要...

【专利技术属性】
技术研发人员:陈熊蔡媛樊鸿飞汪贤鲁方波成超张海斌熊宝玉
申请(专利权)人:北京金山云网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1