一种模型训练的方法以及相关装置制造方法及图纸

技术编号:35832527 阅读:39 留言:0更新日期:2022-12-03 14:02
本申请公开一种模型训练的方法以及相关装置,实现对噪声数据的抑制,提升模型在多标签分类业务上的性能。该方法可应用于云技术、人工智能、智慧交通、车联网等各种场景。该模型训练的方法包括:获取初始训练样本集;基于第一初始模型、第二初始模型分别对每个初始训练样本进行处理,得到第一数据特征、第二数据特征;基于第一数据特征、第二数据特征分别对初始训练样本集进行重新采样处理,得到第一训练样本集、第二训练样本集;基于第二训练样本集对第一初始模型的模型参数进行更新,得到第一目标模型,基于第一训练样本集对第二初始模型的模型参数进行更新,得到第二目标模型;选取目标业务模型,目标业务模型用于对多标签任务进行识别处理。进行识别处理。进行识别处理。

【技术实现步骤摘要】
一种模型训练的方法以及相关装置


[0001]本申请实施例涉及人工智能
,具体涉及一种模型训练的方法以及相关装置。

技术介绍

[0002]带噪学习是深度学习的一个研究子领域,其主要研究如何识别数据集中的噪声数据,并且让模型在噪声数据集上能够获取更好的性能。在相关方案中,主要提出了一种co

teaching的训练方法来降低分类识别任务上噪声数据对模型的影响,其具体是通过模型在训练过程中进行梯度计算和反向传播,进而丢弃每个批次(batch)中的损失(loss)较大的样本,即过滤掉噪声样本。
[0003]然而,现有的co

teaching方案仅能够适用于分类识别任务中,不能够应用于多标签分类的识别任务,造成场景的应用比较局限。另外,该co

teaching在训练过程中,仅将损失较大的样本作为噪声数据,而其他的噪声数据也会影响训练得到的模型在分类识别任务上的识别效果,从而造成模型的性能较差。

技术实现思路

[0004]本申请实施例提供了一种模型训练的方法以及相关装置,能够使两个初始模型在模型训练过程中进行协同学习、互相指导,以此来实现对所有的噪声数据的抑制,解决了在多标签分类业务上模型易受噪声数据影响导致性能下降的问题,而且还能够适用于多标签分类等场景中,扩展了适用场景。
[0005]第一方面,本申请实施例提供了一种模型训练的方法。该方法包括:获取初始训练样本集,初始训练样本集包括多个初始训练样本;基于第一初始模型对每个初始训练样本进行特征提取处理,得到每个初始训练样本的第一数据特征,以及基于第二初始模型对每个初始训练样本进行特征提取处理,得到每个初始训练样本的第二数据特征;基于每个初始训练样本的第一数据特征对初始训练样本集进行重新采样处理,得到第一训练样本集,以及基于每个初始训练样本的第二数据特征对初始训练样本集进行重新采样处理,得到第二训练样本集;基于第二训练样本集对第一初始模型的模型参数进行更新调整,以得到第一目标模型,以及基于第一训练样本集对第二初始模型的模型参数进行更新调整,以得到第二目标模型;从第一目标模型和第二目标模型中选取目标业务模型,目标业务模型用于对多标签任务进行识别处理。
[0006]第二方面,本申请实施例提供了一种多标签分类的方法。该方法包括:获取待分类数据集,待分类数据集包括至少一个待分类数据;基于目标业务模型对至少一个待分类数据中的每个待分类数据进行多标签识别处理,得到每个待分类数据的标签分类结果,标签分类结果用于指示对应的待分类数据的标签分类情况;其中,目标业务模型是从第一目标模型和第二目标模型中选取得到的模型,第一目标模型是基于第二训练样本集对第一初始模型的模型参数进行更新调整得到,第二目标模型是基于第一训练样本集对第二初始模型
的模型参数进行更新调整得到,第一训练样本集是基于每个初始训练样本的第一数据特征对初始训练样本集进行重新采样处理得到,第二训练样本集是基于每个初始训练样本的第二数据特征对初始训练样本集进行重新采样处理得到。
[0007]第三方面,本申请实施例提供了一种多标签分类装置。该多标签分类装置包括获取单元和处理单元。其中,获取单元用于获取初始训练样本集,初始训练样本集包括多个初始训练样本。处理单元用于:基于第一初始模型对每个初始训练样本进行特征提取处理,得到每个初始训练样本的第一数据特征,以及基于第二初始模型对每个初始训练样本进行特征提取处理,得到每个初始训练样本的第二数据特征;基于每个初始训练样本的第一数据特征对初始训练样本集进行重新采样处理,得到第一训练样本集,以及基于每个初始训练样本的第二数据特征对初始训练样本集进行重新采样处理,得到第二训练样本集;基于第二训练样本集对第一初始模型的模型参数进行更新调整,以得到第一目标模型,以及基于第一训练样本集对第二初始模型的模型参数进行更新调整,以得到第二目标模型;从第一目标模型和第二目标模型中选取目标业务模型,目标业务模型用于对多标签任务进行识别处理。
[0008]在一些可选的示例中,处理单元用于:基于每个初始训练样本的第一数据特征计算对应的初始训练样本的第一采样概率;基于第一采样概率对初始训练样本集进行采样,得到采样后的第一样本集;对初始训练样本集和采样后的第一样本集进行MixUp处理,得到第一训练样本集。
[0009]在另一些可选的示例中,处理单元用于:对初始训练样本集中的第i个初始训练样本和采样后的第一样本集中的第j个第一样本进行加权求和处理,得到第一输入样本,i、j≥1、且i、j为整数;对第i个初始训练样本对应的标签和第j个第一样本的标签进行加权求和处理,得到第一期望标签;基于第一输入样本和第一期望标签,生成第一训练样本集。
[0010]在另一些可选的示例中,处理单元用于:基于每个初始训练样本的第二数据特征计算对应的初始训练样本的第二采样概率;基于第二采样概率对初始训练样本集进行采样,得到采样后的第二样本集;对初始训练样本集和采样后的第二样本集进行MixUp处理,得到第二训练样本集。
[0011]在另一些可选的示例中,处理单元用于:对初始训练样本集中的第i个初始训练样本和采样后的第二样本集中的第j个第二样本进行加权求和处理,得到第二输入样本;对第i个初始训练样本对应的标签和第j个第二样本的标签进行加权求和处理,得到第二期望标签;基于第二输入样本和第二期望标签,生成第二训练样本集。
[0012]在另一些可选的示例中,处理单元用于:基于第一初始模型对每个初始训练样本进行标签预测,得到每个初始训练样本的第一预测标签;根据每个初始训练样本的第一预测标签与对应初始训练样本的第一标注标签,计算每个初始训练样本的第一数据特征。
[0013]在另一些可选的示例中,处理单元用于:计算每个初始训练样本的第一预测标签的置信度与第一标注标签的真实值之间的差值的平均绝对值;将平均绝对值作为对应的初始训练样本的第一数据特征。
[0014]在另一些可选的示例中,处理单元用于:计算每个初始训练样本的第一预测标签的置信度与第一标注标签的真实值之间的差值的绝对值的最大值;将最大值作为对应的初始训练样本的第一数据特征。
[0015]在另一些可选的示例中,处理单元用于:基于预设学习率和第二训练样本集进行计算处理,得到第一值;计算第一初始模型的初始权重与第一值之间的差值,得到第一初始模型的更新权重;基于第一初始模型的更新权重对第一初始模型的模型参数进行更新调整,以得到第一目标模型。
[0016]本申请实施例第四方面提供了一种多标签分类装置,包括:存储器、输入/输出(I/O)接口和存储器。存储器用于存储程序指令。处理器用于执行存储器中的程序指令,以执行上述第一方面的实施方式对应的模型训练的方法;或者执行上述第二方面的实施方式所对应的多标签分类的方法。
[0017]本申请实施例第五方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行以执行上述第一方面的实施方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:获取初始训练样本集,所述初始训练样本集包括多个初始训练样本;基于第一初始模型对每个所述初始训练样本进行特征提取处理,得到每个所述初始训练样本的第一数据特征,以及基于第二初始模型对每个所述初始训练样本进行特征提取处理,得到每个所述初始训练样本的第二数据特征;基于所述每个所述初始训练样本的第一数据特征对所述初始训练样本集进行重新采样处理,得到第一训练样本集,以及基于所述每个所述初始训练样本的第二数据特征对所述初始训练样本集进行重新采样处理,得到第二训练样本集;基于所述第二训练样本集对所述第一初始模型的模型参数进行更新调整,以得到第一目标模型,以及基于所述第一训练样本集对所述第二初始模型的模型参数进行更新调整,以得到第二目标模型;从所述第一目标模型和所述第二目标模型中选取目标业务模型,所述目标业务模型用于对多标签任务进行识别处理。2.根据权利要求1所述的方法,其特征在于,所述基于所述每个所述初始训练样本的第一数据特征对所述初始训练样本集进行重新采样处理,得到第一训练样本集,包括:基于每个所述初始训练样本的第一数据特征计算对应的初始训练样本的第一采样概率;基于所述第一采样概率对所述初始训练样本集进行采样,得到采样后的第一样本集;对所述初始训练样本集和所述采样后的第一样本集进行MixUp处理,得到第一训练样本集。3.根据权利要求2所述的方法,其特征在于,所述对所述初始训练样本集和所述采样后的第一样本集进行MixUp处理,得到第一训练样本集,包括:对所述初始训练样本集中的第i个初始训练样本和所述采样后的第一样本集中的第j个第一样本进行加权求和处理,得到第一输入样本,i、j≥1、且i、j为整数;对所述第i个初始训练样本对应的标签和所述第j个第一样本的标签进行加权求和处理,得到第一期望标签;基于所述第一输入样本和所述第一期望标签,生成所述第一训练样本集。4.根据权利要求1所述的方法,其特征在于,所述基于所述每个所述初始训练样本的第二数据特征对所述初始训练样本集进行重新采样处理,得到第二训练样本集,包括:基于每个所述初始训练样本的第二数据特征计算对应的初始训练样本的第二采样概率;基于所述第二采样概率对所述初始训练样本集进行采样,得到采样后的第二样本集;对所述初始训练样本集和所述采样后的第二样本集进行MixUp处理,得到第二训练样本集。5.根据权利要求4所述的方法,其特征在于,所述对所述初始训练样本集和所述采样后的第二样本集进行MixUp处理,得到第二训练样本集,包括:对所述初始训练样本集中的第i个初始训练样本和所述采样后的第二样本集中的第j个第二样本进行加权求和处理,得到第二输入样本;对所述第i个初始训练样本对应的标签和所述第j个第二样本的标签进行加权求和处
理,得到第二期望标签;基于所述第二输入样本和所述第二期望标签,生成所述第二训练样本集。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述基于第一初始模型对每个所述初始训练样本进行特征提取处理,得到...

【专利技术属性】
技术研发人员:韩超陈世哲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1