视频分类模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号：24855674 阅读：47 留言：0更新日期：2020-07-10 19:08

本申请实施例提供了一种视频分类模型的训练方法、装置、设备及存储介质，涉及视频分类技术领域。所述方法包括：获取无标签视频集合，无标签视频集合中包括至少一个无标签视频，无标签视频是指未经人工标注的视频；根据无标签视频集合对神经网络模型进行训练，得到完成训练的神经网络模型，神经网络模型包括特征提取模块；将完成训练的特征提取模块与随机初始化的视频分类模块级联，生成视频分类模型；获取标签视频集合，标签视频集合中包括至少一个标签视频，标签视频是指经人工标注的视频；通过标签视频集合对视频分类模型进行训练，得到完成训练的视频分类模型。本申请实施例可以提高视频分类模型的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
视频分类模型的训练方法、装置、设备及存储介质
本申请实施例涉及视频分类
，特别涉及一种视频分类模型的训练方法、装置、设备及存储介质。
技术介绍
视频分类的目的在于对输入视频打上一个或多个包含主体、场景、行为等信息的标签，如：人、操场、跑步等。在相关技术中，可以通过视频分类模型完成对视频的分类，视频分类模型进行应用之前需要先进行训练，一般通过带有标签的视频对视频分类模型进行训练，视频分类模型需要超大规模的带有标签的视频才能使得训练得到的视频分类模型的精度较高。由于视频分类模型的预测精度依赖于视频的标签的准确度，虽然人工标注能提升标签的准确度，但人工标注的效率低，从而导致视频分类模型的训练效率也较低。
技术实现思路
本申请实施例提供一种视频分类模型的训练方法、装置、设备及存储介质。所述技术方案如下：一方面，本申请实施例提供一种视频分类模型的训练方法，所述方法包括：获取无标签视频集合，所述无标签视频集合中包括至少一个无标签视频，所述无标签视频是指未经人工标注的视频；根据所述无标签视频集合对神经网络模型进行训练，得到完成训练的所述神经网络模型，所述神经网络模型包括特征提取模块；将完成训练的所述特征提取模块与随机初始化的视频分类模块级联，生成视频分类模型；获取标签视频集合，所述标签视频集合中包括至少一个标签视频，所述标签视频是指经人工标注的视频；通过所述标签视频集合对所述视频分类模型进行训练，得到完成训练的所述视频分类模型。>另一方面，本申请实施例提供一种视频分类模型的训练装置，所述装置包括：集合获取模块，用于获取无标签视频集合，所述无标签视频集合中包括至少一个无标签视频，所述无标签视频是指未经人工标注的视频；模型训练模块，用于根据所述无标签视频集合对神经网络模型进行训练，得到完成训练的所述神经网络模型，所述神经网络模型包括特征提取模块；模型生成模块，用于将完成训练的所述特征提取模块与随机初始化的视频分类模块级联，生成视频分类模型；所述集合获取模块，还用于获取标签视频集合，所述标签视频集合中包括至少一个标签视频，所述标签视频是指经人工标注的视频；所述模型训练模块，还用于通过所述标签视频集合对所述视频分类模型进行训练，得到完成训练的所述视频分类模型。另一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如上述方面所述的视频分类模型的训练方法。又一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述方面所述的视频分类模型的训练方法。本申请实施例提供的技术方案可以带来如下有益效果：通过根据无标签视频集合对神经网络进行训练，得到完成训练的特征提取模块；将完成训练的特征提取模块和随机初始化的视频分类模块进行级联，得到视频分类模型；通过标签视频集合对视频分类模型进行训练，得到完成训练的视频分类模型。本申请实施例先根据无标签视频集合对视频分类模型中的特征提取模块进行训练，能够利用理论上无限多的无标签视频进行训练，有利于增强特征提取模块的鲁棒性，增强了特征提取模块的准确性。在保证了特征提取模块的精确性的情况下，本申请实施例提供的视频分类模型的训练方法不依赖于大量的标签视频，不需要耗费大量时间在人工标注上，因此可以提高视频分类模型的训练效率。附图说明图1是本申请一个实施例提供的视频分类模型的训练方法的流程图；图2是本申请一个实施例提供的视频片段获取方法的示意图；图3是本申请一个实施例提供的自监督标签视频生成方法的示意图；图4是本申请一个实施例提供的视频分类模型的训练方法的示意图；图5是本申请一个实施例提供的视频分类模型的训练装置的框图；图6是本申请一个实施例提供的计算机设备的结构框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。本申请实施例提供的各步骤的执行主体可以是计算机设备，计算机设备是指具备计算和处理能力的电子设备。在一个示例中，计算机设备可以是终端，例如，手机、平板电脑、PC(PersonalComputer，个人计算机)、智能可穿戴设备等；在另一个示例中，计算机设备可以是服务器，服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，还可以是云服务器，本申请实施例对此不作限定。为了便于描述，下述实施例仅以各步骤的执行主体为计算机设备为例进行介绍说明，但不应对本申请实施例造成限定。请参考图1，其示出了本申请一个实施例提供的视频分类模型的训练方法的流程图。该方法可以包括如下几个步骤。步骤101，获取无标签视频集合。在本申请实施例中，无标签视频集合中包括至少一个无标签视频，无标签视频是指未经人工标注的视频。可选地，计算机设备可以通过网络爬取等方式在许可范围内获取未经人工标注的视频，从而得到无标签视频集合。步骤102，根据无标签视频集合对神经网络模型进行训练，得到完成训练的神经网络模型。在本申请实施例中，神经网络模型包括特征提取模块，特征提取模块是指用于对视频的特征进行提取的模块。相应地，根据无标签视频集合对神经网络模型进行训练，可以得到完成训练的特征提取模块。步骤103，将完成训练的特征提取模块与随机初始化的视频分类模块级联，生成视频分类模型。视频分类模块是指用于对视频进行分类的模块。本申请实施例保留特征提取模块的结构和参数，在其后级联视频分类模块并随机初始化函数。在可能的实现方式中，特征提取模块包括带有残差结构的卷积层，视频分类模块包括单隐层的MLP(Multi-LayerPerceptron，多层感知机)。在可能的实现方式中，在对算法时间效率要求较高的场合，特征提取模块可以采用更高效的结构，如轻量化网络提取帧级特征+NeXtVLAD算法集成的方式。步骤104，获取标签视频集合。在本申请实施例中，标签视频集合中包括至少一个标签视频，标签视频是指经人工标注的视频，标签视频上带有人工标记标签。计算机设备可以采用公开数据集(例如，YouTube-8M)的方式获取标签视频集合。步骤105，通过标签视频集合对视频分类模型进行训练，得到完成训练的视频分类模型。在特征提取模块已经完成训练的情况下，本申请实施例可以通过标签视频集合以较小的学习率训练视频分类模型至收敛，因为特征提取模块之前已经训练过，所以此次只需要对视频分类模型进行微调，因此对视频分类模型进行训练的时候可以以较小的学习率进行训练，有助于加快视频分类模型的收敛。本申请实施例涉及了两阶段的网络训练方式，第一阶段在无监督数据集(无标签视频集合)上利用自监督信息训练特征提取模块，第二阶段在有监督数据集(标签视频本文档来自技高网...

【技术保护点】
1.一种视频分类模型的训练方法，其特征在于，所述方法包括：/n获取无标签视频集合，所述无标签视频集合中包括至少一个无标签视频，所述无标签视频是指未经人工标注的视频；/n根据所述无标签视频集合对神经网络模型进行训练，得到完成训练的所述神经网络模型，所述神经网络模型包括特征提取模块；/n将完成训练的所述特征提取模块与随机初始化的视频分类模块级联，生成视频分类模型；/n获取标签视频集合，所述标签视频集合中包括至少一个标签视频，所述标签视频是指经人工标注的视频；/n通过所述标签视频集合对所述视频分类模型进行训练，得到完成训练的所述视频分类模型。/n

【技术特征摘要】
1.一种视频分类模型的训练方法，其特征在于，所述方法包括：
获取无标签视频集合，所述无标签视频集合中包括至少一个无标签视频，所述无标签视频是指未经人工标注的视频；
根据所述无标签视频集合对神经网络模型进行训练，得到完成训练的所述神经网络模型，所述神经网络模型包括特征提取模块；
将完成训练的所述特征提取模块与随机初始化的视频分类模块级联，生成视频分类模型；
获取标签视频集合，所述标签视频集合中包括至少一个标签视频，所述标签视频是指经人工标注的视频；
通过所述标签视频集合对所述视频分类模型进行训练，得到完成训练的所述视频分类模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述无标签视频集合对神经网络模型进行训练，得到完成训练的所述神经网络模型，包括：
根据所述无标签视频集合生成自监督标签视频集合，所述自监督标签视频集合包括至少一个自监督标签视频，所述自监督标签视频对应有各自的标准标签向量；
通过所述自监督标签视频集合对所述神经网络模型进行训练，得到完成训练的所述神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述无标签视频集合生成自监督标签视频集合，包括：
对于所述无标签视频集合中的每一个所述无标签视频，在所述无标签视频中随机截取n个视频片段，所述n为正整数；
对所述n个视频片段按照时间顺序依次编号；
随机打乱所述n个视频片段的顺序；
根据不同顺序的所述n个视频片段各自形成的自监督标签视频，生成所述自监督标签视频集合。

4.根据权利要求3所述的方法，其特征在于，所述在所述无标签视频中随机截取n个视频片段，包括：
从所述无标签视频的第一帧至目标帧之间随机选择一帧作为起始帧；
从所述起始帧开始每隔预设帧数截取等长的图像帧，得到所述n个视频片段。

5.根据权利要求2所述的方法，其特征在于，所述通过所述自监督标签视频集合对所述神经网络模型进行训练，得到完成训练的所述神经网络模型，包括：
将所述自监督标签视频输入所述神经网络模型中，得到所述自监督标签视频对应的预测标签向量；
根据指数归一化处理后的所述预测标签向量和所述自监督标签视频对应的标准标签向量，确定所述神经...

【专利技术属性】
技术研发人员：尹康，吴宇斌，郭烽，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人