视频分类模型的训练方法、分类方法、装置及设备制造方法及图纸

技术编号：23315856 阅读：11 留言：0更新日期：2020-02-11 18:04

本申请公开了一种视频分类模型的训练方法、分类方法、装置及设备。所述方法包括：获取粗标签数据集；获取第一分类模型和第二分类模型，所述第二分类模型的分类精度高于所述第一分类模型；调用所述第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测，得到软标签数据集，所述软标签是采用概率来表示所述视频所属类别的标签；根据所述软标签数据集对第一分类模型进行微调训练，得到所述视频分类模型。本申请中的软标签数据集是机器生成而非是采用人工标注方式得到的，解决了人工标注的成本很高且效率较低的问题。

Training method, classification method, device and equipment of video classification model

全部详细技术资料下载

【技术实现步骤摘要】
视频分类模型的训练方法、分类方法、装置及设备
本申请涉及计算机视觉领域，特别涉及一种视频分类模型的训练方法、分类方法、装置及设备。
技术介绍
自动理解视频内容已经成为许多应用场景的关键技术，如自动驾驶、基于视频的搜索和智能机器人等等。通过机器学习来进行视频标签分类是自动理解视频内容的一种方式。相关技术中，对视频编码为一系列特征向量，包括视觉特征和音频特征，将特征向量输入至训练好的深度学习模型中，得到该视频对应的标签。该标签是视频级标签。典型的，该深度学习模型是基于Youtube-8M数据集训练得到。Youtube-8M数据集是包括610万个视频集和3862个类的大型标记视频数据集。由于深度学习模型的预测精度特别依赖于数据集的体量以及标签的准确度，虽然人工标注对于标签的准确度提升有明显提升，但是人工标注的成本很高且效率低。并且，标注难度随着类别数量的增加会进一步提高。
技术实现思路
本申请实施例提供了一种视频分类模型的训练方法、分类方法、装置及设备，可以解决虽然人工标注对于标签的准确度提升有明显提升，但是人工标注的成本很高且效率较低的问题。所述技术方案如下：根据本申请的一个方面，提供了一种视频分类模型的训练方法，所述方法包括：获取粗标签数据集；获取第一分类模型和第二分类模型，所述第二分类模型的分类精度高于所述第一分类模型；调用第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测，得到软标签数据集，所述软标签是采用概率来表示所述视频所属类别...

【技术保护点】
1.一种视频分类模型的训练方法，其特征在于，所述方法包括：/n获取粗标签数据集；/n获取第一分类模型和第二分类模型，所述第二分类模型的分类精度高于所述第一分类模型；/n调用所述第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测，得到软标签数据集，所述软标签是采用概率来表示所述视频所属类别的标签；/n根据所述软标签数据集对第一分类模型进行微调训练，得到所述视频分类模型。/n

【技术特征摘要】
1.一种视频分类模型的训练方法，其特征在于，所述方法包括：
获取粗标签数据集；
获取第一分类模型和第二分类模型，所述第二分类模型的分类精度高于所述第一分类模型；
调用所述第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测，得到软标签数据集，所述软标签是采用概率来表示所述视频所属类别的标签；
根据所述软标签数据集对第一分类模型进行微调训练，得到所述视频分类模型。

2.根据权利要求1所述的方法，其特征在于，所述第一分类模型是根据所述粗标签数据集训练得到的分类模型，所述第二分类模型是根据人工标注的细标签数据集训练得到的分类模型。

3.根据权利要求1所述的方法，其特征在于，所述根据所述软标签数据集对第一分类模型进行微调训练，得到所述视频分类模型，包括：
根据所述软标签数据集对所述第一分类模型进行训练，得到第i个微调分类模型，所述i的初始值为1；
调用所述第i个微调分类模型对所述粗标签数据集中的视频的软标签进行预测，得到第i+1个软标签数据集；
根据所述第i+1个软标签数据集对所述第一分类模型进行微调训练，得到第i+1个微调分类模型；
当所述i+1小于阈值n时，令i+1＝i后，再次执行上述两个步骤，n为大于1的整数；
当所述i+1等于所述n时，将所述第i+1个微调分类模型确定为所述视频分类模型。

4.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：
对所述粗标签数据集中的视频进行随机选择，得到候选视频子集；
对所述候选视频子集中的视频进行人工标注，得到细标签数据集；
根据所述细标签数据集对所述第一分类模型进行训练，得到所述第二分类模型。

5.根据权利要求4所述的方法，其特征在于，对所述候选视频子集中的视频进行人工标注，得到所述细标签数据集包括：
对所述候选视频子集中的视频进行分段，得到所述视频的若干个视频片段；
对于每个所述视频的若干个视频片段，随机抽取m个视频片段，m为大于1的整数；
对所述m个视频片段进行人工标注，得到所述细标签数据集。

6.根据权利要求1至3任一所述的方法，其特征在于，所述调用第二分类模型对所述粗标签数据集中的所述视频的软标签进行预测，得到软标签数据集，包括：
对所述粗视频数据集中的视频进行分段，得到所述视频的若干个视频片段；
对于每个所述视频的若干个视频片段，随机抽取k*D个视频片段，所述D是所述视频在所述粗视频数据集中的粗标签数量，k和D为整数；
调用所述第二分类模型对所述k*D个视频片段中的第i组视频片段，预测所述第i组视频片段中的每个视频片段属于所述视频的第i个粗标签的概率，所述第i组视频片段包括k个视频片段，i为不大于D的整数；
将随机抽取的全部视频片段和对应的概率，确定为所述软标签数据集。

7.一种视频分类方法，其特征在于，所述方法包括：
获取待分类的视频；
对所述视频进行特征提取，得到所述视频的特征向量；
调用视频分类模型对所述特征向量进行预测，得到所述视...

【专利技术属性】
技术研发人员：尹康，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人