本申请公开了一种视频分类模型训练方法、视频分类方法、装置及电子设备。视频分类模型训练方法包括:将至少一个视频样本输入至视频分类模型,得到所述至少一个视频样本中每个视频样本对应的第一预测结果;将至少一个图片样本中每个图片样本对应的特征向量输入至设定的图片分类模型,得到所述至少一个图片样本中每个图片样本对应的第二预测结果;其中,通过将图片样本输入至所述视频分类模型中的卷积层,得到图片样本对应的特征向量;基于至少两个预测结果中每个预测结果与对应的标定结果之间的差值,计算所述视频分类模型的总损失值;所述至少两个预测结果包括第一预测结果和第二预测结果;根据所述总损失值更新所述视频分类模型的权重参数。
【技术实现步骤摘要】
视频分类模型训练方法、视频分类方法、装置及电子设备
本申请涉及图像处理领域,尤其涉及一种视频分类模型训练方法、视频分类方法、装置及电子设备。
技术介绍
目前主要基于深度学习技术对视频内容进行分类,而相关技术中基于深度学习技术训练得到的视频分类模型的泛化能力较差,从而影响视频分类模型的准确性。泛化能力(generalizationability)是模型在训练后对新鲜样本的适应能力。
技术实现思路
有鉴于此,本申请实施例期望提供一种视频分类模型训练方法、视频分类方法、装置及电子设备,以解决相关技术中视频分类模型的泛化能力较差的技术问题。为达到上述目的,本申请的技术方案是这样实现的:本申请实施例提供一种视频分类模型训练方法,包括:将至少一个视频样本输入至视频分类模型,得到所述至少一个视频样本中每个视频样本对应的第一预测结果;将至少一个图片样本中每个图片样本对应的特征向量输入至设定的图片分类模型,得到所述至少一个图片样本中每个图片样本对应的第二预测结果;其中,通过将图片样本输入至所述视频分类模型中的卷积层,得到图片样本对应的特征向量;基于至少两个预测结果中每个预测结果与对应的标定结果之间的差值,计算所述视频分类模型的总损失值;所述至少两个预测结果包括所述至少一个视频样本中每个视频样本对应的第一预测结果和所述至少一个图片样本中每个图片样本对应的第二预测结果;根据所述总损失值更新所述视频分类模型的权重参数。上述方案中,所述基于至少两个预测结果中每个预测结果与对应的标定结果之间的差值,计算所述视频分类模型的总损失值,包括:基于所述至少一个视频样本中每个视频样本对应的第一预测结果与对应的标定结果之间的差值,计算第一损失值;基于所述至少一个图片样本中每个图片样本对应的第二预测结果与对应的标定结果之间的差值,计算第二损失值;基于所述第一损失值和所述第二损失值,计算所述视频分类模型的总损失值。上述方案中,所述基于所述第一损失值和所述第二损失值,计算所述视频分类模型的总损失值,包括:对所述第一损失值和所述第二损失值进行加权处理,得到所述视频分类模型的总损失值;所述第一损失值对应的第一权重值大于所述第二损失值对应的第二权重值。上述方案中,所述视频分类模型训练方法还包括:从样本库中随机获取至少一个批次的样本;所述至少一个批次中的每个批次的样本包括至少一个视频样本和至少一个图片样本。上述方案中,所述至少一个批次中的每个批次的样本均包括有分别对应至少两个不同的标定结果的样本。本申请实施例提供一种视频分类方法,包括:采用第一模型对视频文件进行分类,得到分类结果;其中,所述第一模型为采用上述任一种视频分类模型训练方法训练得到的视频分类模型。本申请实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行上述任一种视频分类模型训练方法的步骤,或执行上述视频分类方法的步骤。本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种视频分类模型训练方法的步骤,或执行上述视频分类方法的步骤。本申请实施例,通过至少一个视频样本和至少一个图片样本训练视频分类模型,在训练过程中,基于视频样本对应的第一预测结果与相应的标定结果、图片样本对应的第二预测结果与相应的标定结果,计算视频分类模型的总损失值,并根据总损失值更新视频分类模型的权重参数。由于在训练过程中,视频样本和图片样本均作为训练样本,增加了样本的多样性,可以克服因合成的视频缺乏多样性而导致视频分类模型的泛化能力较差的问题,提高了训练后的视频分类模型的泛化能力,进而提高训练后的视频分类模型的准确率。另外,根据总损失值更新视频分类模型的权重参数,可以提高视频分类模型的卷积层和特征融合层的性能,进一步提高训练后的视频分类模型的准确率。由于视频样本是实际拍摄得到的视频,相对于通过单一图片合成的视频而言,可以避免合成的视频中相同的图片占用显存的情况发生,可以节省显存。附图说明图1为本申请实施例提供的视频分类模型训练方法的实现流程示意图;图2为本申请实施例提供的视频分类模型的组成结构示意图;图3为本申请另一实施例提供的视频分类模型训练方法的实现流程示意图;图4为本申请实施例提供的视频分类模型训练方法中计算视频分类模型的总损失值的实现流程示意图;图5为本申请实施例提供的视频分类模型训练装置的结构示意图;图6为本申请实施例电子设备的硬件组成结构示意图。具体实施方式基于深度学习技术训练得到的视频分类模型的预测精度,依赖于参与训练的视频数据集的体量以及视频数据集中视频样本的标定值的准确度。数据集中视频样本的标定值通常需要人工标注。由于人工标注视频样本的标定值不仅成本较高,效率低,而且标注难度也随着视频内容的类别的数量增加而提高,因此,目前业界几乎没有类似ImageNet图片数据集这样包含百万级人工精细标注的视频样本的视频数据集。相关技术中提供了一种视频分类模型训练方法,利用单一图片合成视频样本,通过合成的视频样本训练视频分类模型。然而,合成的视频样本中的图像缺乏多样性,会导致视频分类模型的泛化能力较差,另外,由于利用单一图片合成的视频样本中,所有图片包含的特征均相同,导致通过该合成的视频样本训练得到的视频分类模型捕捉特征的能力较差,采用该视频分类模型对新视频进行分类时,得到的分类结果的准确率较低。为了解决相关技术中视频分类模型的泛化能力较差以及视频分类模型的准确率较低的技术问题,本申请实施例提供了一种视频分类模型训练方法,采用视频样本和图像样本训练视频分类模型,增加了训练样本的多样性,可以增强训练后的视频分类模型的泛化能力,提高视频分类模型的准确率。以下结合说明书附图及具体实施例对本申请的技术方案做进一步的详细阐述。图1示出了本申请实施例提供的视频分类模型训练方法的实现流程示意图。在本申请实施例中,视频分类模型训练方法的执行主体可以为终端、服务器等电子设备。参照图1,本申请实施例提供的视频分类模型训练方法包括:S101:将至少一个视频样本输入至视频分类模型,得到所述至少一个视频样本中每个视频样本对应的第一预测结果。电子设备确定至少一个视频样本,将确定出的至少一个视频样本输入至视频分类模型,采用视频分类模型对至少一个视频样本进行分类处理,得到视频分类模型输出的至少一个视频样本中每个视频样本对应的第一预测结果。这里,视频样本可以从样本库中得到。样本库可以存在于电子设备的本地数据库,也可以存在于远程数据库。样本库中的视频样本是实际拍摄得到的视频,因此,构成视频样本的图像帧具有不完全相同的图像内容,相对于通过单一图片合成的视频而言,本实施例中,采用实际拍摄得到的视频样本进行训练,可以减少因相同图片占用显存而造成浪费显存的情况发生。下面详细说明视频分类模本文档来自技高网...
【技术保护点】
1.一种视频分类模型训练方法,其特征在于,包括:/n将至少一个视频样本输入至视频分类模型,得到所述至少一个视频样本中每个视频样本对应的第一预测结果;/n将至少一个图片样本中每个图片样本对应的特征向量输入至设定的图片分类模型,得到所述至少一个图片样本中每个图片样本对应的第二预测结果;其中,通过将图片样本输入至所述视频分类模型中的卷积层,得到图片样本对应的特征向量;/n基于至少两个预测结果中每个预测结果与对应的标定结果之间的差值,计算所述视频分类模型的总损失值;所述至少两个预测结果包括所述至少一个视频样本中每个视频样本对应的第一预测结果和所述至少一个图片样本中每个图片样本对应的第二预测结果;/n根据所述总损失值更新所述视频分类模型的权重参数。/n
【技术特征摘要】
1.一种视频分类模型训练方法,其特征在于,包括:
将至少一个视频样本输入至视频分类模型,得到所述至少一个视频样本中每个视频样本对应的第一预测结果;
将至少一个图片样本中每个图片样本对应的特征向量输入至设定的图片分类模型,得到所述至少一个图片样本中每个图片样本对应的第二预测结果;其中,通过将图片样本输入至所述视频分类模型中的卷积层,得到图片样本对应的特征向量;
基于至少两个预测结果中每个预测结果与对应的标定结果之间的差值,计算所述视频分类模型的总损失值;所述至少两个预测结果包括所述至少一个视频样本中每个视频样本对应的第一预测结果和所述至少一个图片样本中每个图片样本对应的第二预测结果;
根据所述总损失值更新所述视频分类模型的权重参数。
2.根据权利要求1所述的视频分类模型训练方法,其特征在于,所述基于至少两个预测结果中每个预测结果与对应的标定结果之间的差值,计算所述视频分类模型的总损失值,包括:
基于所述至少一个视频样本中每个视频样本对应的第一预测结果与对应的标定结果之间的差值,计算第一损失值;
基于所述至少一个图片样本中每个图片样本对应的第二预测结果与对应的标定结果之间的差值,计算第二损失值;
基于所述第一损失值和所述第二损失值,计算所述视频分类模型的总损失值。
3.根据权利要求2所述的视频分类模型训练方法,其特征在于,所述基于所述第一损失值和所述第二损失值,计算所述视频分类模型的总损失值,包括:
对所述第一损失值和所述第二损失值进行加权处理,得到所述视频分类模型的总损失值;所述第一损失值对应的第一权重值大于所述第二损失值对应的第二权重值。
4.根据权利要求1至3任一项所述的视频分类模型训练方法,其特征在于,还包括:
从样本库中随机获取至少一个批次的样本;所述至少一个批次中的每个批次的样本包括至少一个视频样本和至少一个图片样本。
5.根据权利要求4所述的视频分类模型训练方法,其特征在于,所...
【专利技术属性】
技术研发人员:吴宇斌,尹康,郭烽,
申请(专利权)人:OPPO广东移动通信有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。