分类模型的增量训练方法、装置和计算机设备制造方法及图纸

技术编号:35878987 阅读:29 留言:0更新日期:2022-12-07 11:17
本申请涉及一种分类模型的增量训练方法、装置和计算机设备。所述方法包括:获取经真实样本和虚构样本共同训练得到的目标分类模型;获取新增样本,新增样本所属的新增类别不同于任一真实类别;将新增样本输入至目标分类模型,并通过目标分类模型提取新增样本的特征向量;确定特征空间中与各个虚构类别分别对应的目标代表特征,并基于特征向量与各目标代表特征间的差异,确定与新增样本匹配的目标虚构类别;将目标虚构类别更新为新增类别,以使得目标分类模型支持对新增类别的预测。采用本方法能够在分类任务中快速支持对新增数据和新增类别的预测。类别的预测。类别的预测。

【技术实现步骤摘要】
分类模型的增量训练方法、装置和计算机设备


[0001]本申请涉及机器学习
,特别是涉及一种分类模型的增量训练方法、装置和计算机设备。

技术介绍

[0002]分类任务指的是在特征维度上将不同的数据进行区分,例如对视频的品类进行区分,以识别视频属于综艺节目、游戏视频、或者体育直播等。或者,也可以对文学作品的类型进行区分,以识别文学作品属于写实类、科幻类、或者情感类等。
[0003]在实际的业务场景中,所需要进行识别的分类会随着业务数据变化而变化,时常会遇到需要新增加一些类别的情况。然而,相关技术中所使用的分类模型,在训练完成之后只能对已有的类别进行检测,对于新增的类别无法进行相应类别的预测输出。因此,需要将已有的数据和新增的数据作为输入,重新训练一个新的分类模型,以支持对新增的类别的预测。
[0004]而随着新的类别的不断增加,每次增加一个新的类别后,都需要重新再训练一个分类模型,效率十分低下。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提高分类任务效率的分类模型的增量训练方法、装置、计算机设备、计算机可读存储介质、以及计算机程序产品。
[0006]一方面,本申请提供了一种分类模型的增量训练方法。所述方法包括:获取经真实样本和虚构样本共同训练得到的目标分类模型,所述目标分类模型支持对虚构类别和真实类别的预测;获取新增样本,所述新增样本所属的新增类别不同于任一所述真实类别;将所述新增样本输入至所述目标分类模型,并通过所述目标分类模型提取所述新增样本的特征向量;确定特征空间中与各个虚构类别分别对应的目标代表特征,并基于所述特征向量与各目标代表特征间的差异,确定与所述新增样本匹配的目标虚构类别;将所述目标虚构类别更新为所述新增类别,以使得所述目标分类模型支持对所述新增类别的预测。
[0007]另一方面,本申请还提供了一种分类模型的增量训练装置。所述装置包括:模型模块,用于获取经真实样本和虚构样本共同训练得到的目标分类模型,所述目标分类模型支持对虚构类别、以及所述真实样本所属真实类别的预测;获取模块,用于获取新增样本,所述新增样本所属的新增类别不同于任一所述真实类别;输入模块,用于将所述新增样本输入至所述目标分类模型,并通过所述目标分类模型提取所述新增样本的特征向量;
分类模块,用于确定特征空间中与各个虚构类别分别对应的代表特征,并基于所述特征向量与各代表特征间的差异,确定与所述新增样本匹配的目标虚构类别;更新模块,用于将所述目标虚构类别更新为所述新增类别,以使得所述目标分类模型支持对所述新增类别的预测。
[0008]另一方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述分类模型的增量训练方法的步骤。
[0009]另一方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述分类模型的增量训练方法的步骤。
[0010]另一方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述分类模型的增量训练方法的步骤。
[0011]上述分类模型的增量训练方法、装置、计算机设备、存储介质和计算机程序产品,通过真实样本和虚构样本共同训练,得到目标分类模型,并在获取了新增样本且该新增类别不属于已有的真实类别的情况下,基于训练好的目标分类模型提取特征向量,将该特征向量与经训练后得到的各个虚构类别的目标代表特征进行比较,从而基于比较得到的差异来确定该新增样本所属的目标虚构类别,由此,将该目标虚构类别更新为该新增类别,后续即可实现对该新增类别的数据的支持。通过上述方式,在增加了新的类别后,无需对原有的分类模型重新进行训练,只需要将所预留的一种虚构类别确定为新的类别即可,极大地提高了分类模型的迭代更新效率。同时,在增加新的类别后只需更新相应的虚构类别,不会改变原有的类别的分布,使得分类模型在学习新数据的同时不会影响到其对旧数据已有的支持。
附图说明
[0012]图1为一个实施例中通用分类模型的原理示意图;图2为一个实施例中分类模型的增量训练方法的应用环境图;图3为一个实施例中分类模型的增量训练方法的流程示意图;图4为一个实施例中特征空间各类别的类中心的原理示意图;图5为一个实施例中特征空间各类别所占据区域的原理示意图;图6为一个实施例中目标分类模型的训练步骤的流程示意图;图7A为一个实施例中确定与真实样本匹配的目标虚构类别的原理示意图;图7B为一个实施例中确定与虚构样本匹配的目标真实类别的原理示意图;图8为一个实施例中主干网络的架构示意图;图9为一个实施例中分类模型的增量训练装置的结构框图;图10为一个实施例中计算机设备的内部结构图。
具体实施方式
[0013]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不
用于限定本申请。
[0014]为了便于更加清楚地理解本申请的专利技术构思,首先对分类模型进行介绍。通常,如图1所示,将样本数据会输入到分类模型(通常可以是卷积神经网络等架构)中进行特征提取,再将提取到的特征向量输入至分类器中,从而将特征向量映射到指定的类别,从而输出该样本数据所属的类别。分类器一般由几层全联接层(Fully Connected Layer)加上一层分类层(Softmax)来实现。
[0015]示例性地,分类器通过如下公式(1)对样本数据所属的类别进行预测:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,K为该分类器可以支持的类别的数量,为分类模型输出的预测值在类别i的特征值,即为分类模型预测样本数据为类别i的概率值。从上述公式可以看出,对所有类别预测得到的概率值的和一定为1。
[0016]在获得对每个类别的预测概率后,示例性地,可以通过如下公式(2)计算交叉熵损失函数(Cross

entropy Loss):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,M为样本数量,为第i个类别的真值。对于来说,如果该样本数据属于第i类数据,则对应的真值为1,否则为0。从上述公式可以看出,如果真值对应的类别预测得到的概率值越大,则损失值越小。因此,分类模型通常是训练模型以使得其对样本数据对应的真实类进行更高概率的预测。
[0017]然而,从上述公式也可以看出,类别数K是在模型构建时预先设置好的固定值。同时,每个类别对应于何种类别也是预先设定的,无法修改。如果需要增加n个新的类别,则需要将K值修改为K+n,同时收集这n个类对应的样本数据,并重新训练分类模型。这样每次增加新的类别,都需要重新训练一遍分类模型。并且,这种方式还存在另一个问题,即当K值较大时,倘若新增的类别数量较少(即n值较小),则会导致较少的新类别的样本数据无法有效地支持新的分类模型的训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分类模型的增量训练方法,其特征在于,所述方法包括:获取经真实样本和虚构样本共同训练得到的目标分类模型,所述目标分类模型支持对虚构类别和真实类别的预测;获取新增样本,所述新增样本所属的新增类别不同于任一所述真实类别;将所述新增样本输入至所述目标分类模型,并通过所述目标分类模型提取所述新增样本的特征向量;确定特征空间中与各个虚构类别分别对应的目标代表特征,并基于所述特征向量与各目标代表特征间的差异,确定与所述新增样本匹配的目标虚构类别;将所述目标虚构类别更新为所述新增类别,以使得所述目标分类模型支持对所述新增类别的预测。2.根据权利要求1所述的方法,其特征在于,所述目标分类模型通过如下步骤训练得到:获取真实样本和虚构样本,所述虚构样本是基于所述真实样本构建得到;通过待训练的分类模型对所述真实样本进行预测,并基于预测得到的第一输出确定所述真实样本对应于第一目标类别的第一损失,所述第一目标类别包括所述真实样本所属的目标真实类别、和与所述真实样本匹配的目标虚构类别;通过所述待训练的分类模型对所述虚构样本进行预测,并基于预测得到的第二输出确定所述虚构样本对应于第二目标类别的第二损失,所述第二目标类别包括分别与所述虚构样本匹配的目标真实类别和目标虚构类别;基于所述第一损失和第二损失,构建目标损失函数,通过所述目标损失函数对所述待训练的分类模型进行迭代训练,直至达到训练停止条件时停止,得到训练完成的目标分类模型。3.根据权利要求2所述的方法,其特征在于,所述通过所述目标损失函数对所述待训练的分类模型进行迭代训练,包括:通过所述目标损失函数对所述待训练的分类模型进行多次迭代训练,并在每次迭代训练后,确定当次迭代训练对应的梯度,并基于所述梯度的反向传播,对特征空间中每个类别各自对应的代表特征进行更新;其中,最后一次迭代训练完成后所得到的每个类别各自对应的代表特征,为各个类别的目标代表特征。4.根据权利要求2所述的方法,其特征在于,所述通过待训练的分类模型对所述真实样本进行预测,并基于预测得到的第一输出确定所述真实样本对应于第一目标类别的第一损失,包括:通过待训练的分类模型提取所述真实样本的特征向量,并基于所述真实样本的特征向量进行预测,得到所述真实样本对应于所有类别的第一概率;基于所述第一概率、以及所述真实样本所属的目标真实类别,确定所述真实样本对应于所述目标真实类别的第一原始损失;基于所述第一概率,确定所述真实样本对应于除所述目标真实类别以外的其他类别的第一假设概率;基于所述第一假设概率,确定所述真实样本对应于所匹配的目标虚构类别的第一虚构损失;
基于所述第一原始损失和所述第一虚构损失,确定所述真实样本对应于第一目标类别的第一损失。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一概率,确定所述真实样本对应于除所述目标真实类别以外的其他类别的第一假设概率,包括:基于所述真实样本所属的目标真实类别,确定与所述真实样本对应的二值化向量,所述二值化向量的维度与预设类别的数量相匹配;对与所述真实样本对应的二值化向量进行逆运算,得到与所述真实样本对应的二值化逆向量;基于所述第一概率和与所述真实样本对应的所述二值化逆向量,确定所述真实样本对应于除所述目标真实类别以外的其他类别的第一假设概率。6.根据权利要求4所述的方法,其特征在于,所述基于所述第一假设概率,确定所述真实样本对应于所匹配的目标虚构类别的第一虚构损失,包括:确定与所述真实样本匹配的目标虚构类别;基于所述第一假设概率、以及所述目标虚构类别对应的虚构类别标签,确定所述真实样本对应于所述目标虚构类别的第一虚构损失。7.根据权利要求6所述的方法,其特征在于,所述确定与所述真实样本匹配的目标虚构类别,包括:确定特征空间中与各虚构类别分别对应的第一代表特征,所述第一代表特征为当次训练中与各虚构类别对应的代表特征;分别确定所述真实样本的特征向量与各第一代表特征之间的距离;将所述距离中的最小值对应的第一代表特征所代表的虚构类别,作为与所述真实样本匹配的目标虚构类别。8....

【专利技术属性】
技术研发人员:刘孟洋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1