视频分类模型的训练方法、分类方法、装置及设备制造方法及图纸

技术编号:23315856 阅读:11 留言:0更新日期:2020-02-11 18:04
本申请公开了一种视频分类模型的训练方法、分类方法、装置及设备。所述方法包括:获取粗标签数据集;获取第一分类模型和第二分类模型,所述第二分类模型的分类精度高于所述第一分类模型;调用所述第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测,得到软标签数据集,所述软标签是采用概率来表示所述视频所属类别的标签;根据所述软标签数据集对第一分类模型进行微调训练,得到所述视频分类模型。本申请中的软标签数据集是机器生成而非是采用人工标注方式得到的,解决了人工标注的成本很高且效率较低的问题。

Training method, classification method, device and equipment of video classification model

【技术实现步骤摘要】
视频分类模型的训练方法、分类方法、装置及设备
本申请涉及计算机视觉领域,特别涉及一种视频分类模型的训练方法、分类方法、装置及设备。
技术介绍
自动理解视频内容已经成为许多应用场景的关键技术,如自动驾驶、基于视频的搜索和智能机器人等等。通过机器学习来进行视频标签分类是自动理解视频内容的一种方式。相关技术中,对视频编码为一系列特征向量,包括视觉特征和音频特征,将特征向量输入至训练好的深度学习模型中,得到该视频对应的标签。该标签是视频级标签。典型的,该深度学习模型是基于Youtube-8M数据集训练得到。Youtube-8M数据集是包括610万个视频集和3862个类的大型标记视频数据集。由于深度学习模型的预测精度特别依赖于数据集的体量以及标签的准确度,虽然人工标注对于标签的准确度提升有明显提升,但是人工标注的成本很高且效率低。并且,标注难度随着类别数量的增加会进一步提高。
技术实现思路
本申请实施例提供了一种视频分类模型的训练方法、分类方法、装置及设备,可以解决虽然人工标注对于标签的准确度提升有明显提升,但是人工标注的成本很高且效率较低的问题。所述技术方案如下:根据本申请的一个方面,提供了一种视频分类模型的训练方法,所述方法包括:获取粗标签数据集;获取第一分类模型和第二分类模型,所述第二分类模型的分类精度高于所述第一分类模型;调用第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测,得到软标签数据集,所述软标签是采用概率来表示所述视频所属类别的标签;根据所述软标签数据集对第一分类模型进行微调训练,得到所述视频分类模型;其中,所述第二分类模型的分类精度高于所述第一分类模型。根据本申请的另一方面,提供了一种视频分类方法,所述方法包括:获取待分类的视频;对所述视频进行特征提取,得到所述视频的特征向量;调用视频分类模型对所述特征向量进行预测,得到所述视频的分类标签;所述视频分类模型是根据软标签数据集对第一分类模型进行微调训练得到的,所述软标签数据集是调用第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测得到,所述软标签是采用概率来表示所述视频所属类别的标签;其中,所述第二分类模型的分类精度高于所述第一分类模型。根据本申请的另一个方面,提供了一种视频分类模型的训练装置,所述装置包括:样本获取模块,用于获取粗标签数据集;模型获取模块,用于获取第一分类模型和第二分类模型,所述第二分类模型的分类精度高于所述第一分类模型;软标签预测模块,用于调用所述第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测,得到软标签数据集,所述软标签是采用概率来表示所述视频所属类别的标签;微调训练模块,用于根据所述软标签数据集对第一分类模型进行微调训练,得到所述视频分类模型。根据本申请的另一个方面,提供了一种视频分类装置,所述装置包括:获取模块,用于获取待分类的视频;提取模块,用于对所述视频进行特征提取,得到所述视频的特征向量;调用模块,用于调用视频分类模型对所述特征向量进行预测,得到所述视频的标签;所述视频分类模型是根据软标签数据集对第一分类模型进行微调训练得到的,所述软标签数据集是调用第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测得到,所述软标签是采用概率来表示所述视频所属类别的标签;其中,所述第二分类模型的分类精度高于所述第一分类模型。根据本申请的另一个方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的视频分类模型的训练方法,或,如上方面的视频分类方法。根据本申请的另一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的视频分类模型的训练方法,或,如上方面的视频分类方法。本申请实施例至少具有如下有益效果:通过调用第二分类模型对粗标签数据集中的视频的软标签进行预测,得到软标签数据集,根据软标签数据集对第一分类模型进行微调训练,得到视频分类模型,由于第二分类模型的分类精度高于第一分类模型,因此软标签数据集的标签准确度要优于粗标签数据集,从而该微调训练过程能够提高第一分类模型的预测准确度,得到准确度更高的视频分类模型。同时,软标签数据集是机器生成而非是采用人工标注方式得到的,解决了人工标准的成本很高且效率较低的问题。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个示意性实施例提供的视频分类模型的训练方法的流程图;图2是本申请一个示意性实施例提供的视频分类模型的训练方法的原理示意图;图3是本申请另一个示意性实施例提供的视频分类模型的训练方法的流程图;图4是本申请另一个示意性实施例提供的视频分类模型的训练方法的原理示意图;图5是本申请另一个示意性实施例提供的视频分类模型的训练方法的流程图;图6是本申请另一个示意性实施例提供的视频分类模型的训练方法的原理示意图;图7是本申请另一个示意性实施例提供的视频分类方法的流程图;图8是本申请另一个示意性实施例提供的视频分类模型的训练装置的框图;图9是本申请另一个示意性实施例提供的视频分类模型的框图;图10是本申请另一个示意性实施例提供的计算机设备的框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。首先对本申请实施例提供的若干个技术名词进行简介:Youtube-8M视频理解挑战赛:是由Kaggle和谷歌赞助的视频理解挑战赛,要求采用1G以下的机器学习模型来进行视频标签分类任务。每年举办一次,已经举办两次,2019年是第三次。Youtube-8M数据集:一个包含610万个视频和3862个类(或标签)的大型标记数据集。该数据集中将原始视频编码为一系列特征向量,包括视觉特征和音频特征。这些特征都是从原始视频中以1Hz频率提取出的帧,这些特征是通过预先训练的卷积神经网络来生成的。该数据集中包括三种级别的数据集:-帧级数据集帧级数据集是以“帧”为单位进行特征采集所得到的数据。每个帧对应有各自的标签。-视频级数据集将帧级数据集中与单个视频对应的特征向量序列进行平均后,得到视频级数据集中与该视频对应的特征向量。每个视频对应有各自的标签。本文档来自技高网...

【技术保护点】
1.一种视频分类模型的训练方法,其特征在于,所述方法包括:/n获取粗标签数据集;/n获取第一分类模型和第二分类模型,所述第二分类模型的分类精度高于所述第一分类模型;/n调用所述第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测,得到软标签数据集,所述软标签是采用概率来表示所述视频所属类别的标签;/n根据所述软标签数据集对第一分类模型进行微调训练,得到所述视频分类模型。/n

【技术特征摘要】
1.一种视频分类模型的训练方法,其特征在于,所述方法包括:
获取粗标签数据集;
获取第一分类模型和第二分类模型,所述第二分类模型的分类精度高于所述第一分类模型;
调用所述第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测,得到软标签数据集,所述软标签是采用概率来表示所述视频所属类别的标签;
根据所述软标签数据集对第一分类模型进行微调训练,得到所述视频分类模型。


2.根据权利要求1所述的方法,其特征在于,所述第一分类模型是根据所述粗标签数据集训练得到的分类模型,所述第二分类模型是根据人工标注的细标签数据集训练得到的分类模型。


3.根据权利要求1所述的方法,其特征在于,所述根据所述软标签数据集对第一分类模型进行微调训练,得到所述视频分类模型,包括:
根据所述软标签数据集对所述第一分类模型进行训练,得到第i个微调分类模型,所述i的初始值为1;
调用所述第i个微调分类模型对所述粗标签数据集中的视频的软标签进行预测,得到第i+1个软标签数据集;
根据所述第i+1个软标签数据集对所述第一分类模型进行微调训练,得到第i+1个微调分类模型;
当所述i+1小于阈值n时,令i+1=i后,再次执行上述两个步骤,n为大于1的整数;
当所述i+1等于所述n时,将所述第i+1个微调分类模型确定为所述视频分类模型。


4.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
对所述粗标签数据集中的视频进行随机选择,得到候选视频子集;
对所述候选视频子集中的视频进行人工标注,得到细标签数据集;
根据所述细标签数据集对所述第一分类模型进行训练,得到所述第二分类模型。


5.根据权利要求4所述的方法,其特征在于,对所述候选视频子集中的视频进行人工标注,得到所述细标签数据集包括:
对所述候选视频子集中的视频进行分段,得到所述视频的若干个视频片段;
对于每个所述视频的若干个视频片段,随机抽取m个视频片段,m为大于1的整数;
对所述m个视频片段进行人工标注,得到所述细标签数据集。


6.根据权利要求1至3任一所述的方法,其特征在于,所述调用第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测,得到软标签数据集,包括:
对所述粗视频数据集中的视频进行分段,得到所述视频的若干个视频片段;
对于每个所述视频的若干个视频片段,随机抽取k*D个视频片段,所述D是所述视频在所述粗视频数据集中的粗标签数量,k和D为整数;
调用所述第二分类模型对所述k*D个视频片段中的第i组视频片段,预测所述第i组视频片段中的每个视频片段属于所述视频的第i个粗标签的概率,所述第i组视频片段包括k个视频片段,i为不大于D的整数;
将随机抽取的全部视频片段和对应的概率,确定为所述软标签数据集。


7.一种视频分类方法,其特征在于,所述方法包括:
获取待分类的视频;
对所述视频进行特征提取,得到所述视频的特征向量;
调用视频分类模型对所述特征向量进行预测,得到所述视...

【专利技术属性】
技术研发人员:尹康
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1