一种带噪多标签数据的神经网络模型训练方法和装置制造方法及图纸

技术编号:38706174 阅读:20 留言:0更新日期:2023-09-08 14:46
本发明专利技术涉及一种带噪多标签数据的神经网络模型训练方法和装置。该方法的步骤包括:通过样本选择算法为每一类别选择出干净样本集合作为元数据集,并进行类别依赖的标签噪声转移矩阵估计;利用类别依赖的标签噪声转移矩阵对实例特征依赖的标签噪声转移矩阵网络中的部分参数进行初始化;基于统计一致性的标签噪声学习损失,将学习问题转化为双层优化问题,用元学习算法同时学习实例特征依赖的标签噪声转移矩阵网络参数、数据不平衡参数和多标签分类神经网络参数。本发明专利技术创新性地利用元学习算法以数据驱动的方式,将实例特征依赖的标签噪声转移矩阵网络参数、数据不平衡参数和多标签分类神经网络参数统一到一个框架下学习。签分类神经网络参数统一到一个框架下学习。签分类神经网络参数统一到一个框架下学习。

【技术实现步骤摘要】
一种带噪多标签数据的神经网络模型训练方法和装置


[0001]本专利技术属于互联网领域,具体而言,涉及一种带噪多标签数据的神经网络模型训练方法和装置。

技术介绍

[0002]近年来,深度学习在图像识别,目标检测,视觉跟踪和文本匹配等领域均取得了显著的成果。这主要归功于深度神经网络强大的非线性映射能力,即能够保证数据的特征空间的表达高度可分。然而,随着深度学习的发展,训练高精度模型所需的数据量随着要求精度的增加而产生了爆发式的增长,例如ImageNet图像分类数据集就包含了14,197,122张图片,CLIP跨模态预训练模型使用了4亿个文本

图像对进行训练。在数据集的规模越来越大的同时,给这些大规模的数据集进行精准的标注所需要的人工成本以及经济成本呈指数型增长,这尤其体现在医学图像处理、金融风控等领域。例如在在医学图像处理领域,一张病灶照片的准确标注需要经过一个甚至多个专家的诊断,大大增加了标注大数据集的难度;在金融风控领域的国际盗卡场景中,通常需要等6个月才能获得反馈的案件标签。
[0003]在此背景下,一些简单标注方法应运而生,例如将大数据集分成若干个小数据集后分发给不同的标注者的众包方法,以及利用搜索引擎、网络链接或视频标签等的自动标注方法。然而,这些方法在以较低的经济花费获得大量标注数据的同时,也为构建的数据集引入了不可逆的标签噪声问题,例如在众包方法中,各个标注者对数据的识别能力以及本身对各个类别的偏向不同,这会导致一些数据的标签产生不同的错误。
[0004]针对上述带噪标记样本下的学习问题,主要有以下几种方法。
[0005]一类方法是具有统计一致性的方法:通过设计损失函数,使得利用噪声数据学习的分类器将渐近收敛到在干净域上定义的最佳分类器。噪声转移矩阵表示干净标签转换为噪声标签的概率,因此它被用来构建一系列的统计一致性算法。具体来说,它已被用于修改损失函数以建立具有风险一致性的标签噪声学习算法,以及被用于限制假设空间以构建具有分类器一致性的标签噪声学习算法。
[0006]第二类方法是不具有统计一致性的方法:采用启发式设计来减少标签噪声的副作用,例如提取可靠示例,校正标签,和添加隐式或显式正则化。目前有效的提取可靠示例方法主要包括但不限于以下方法:蒸馏法、样本筛法、高斯混合模型损失分布建模、基于置信度的样本集合,基于小损失的方法,以及一些早期停止技术。
[0007]第三类方法是利用少量干净数据的方法:通过尽可能地利用少量干净标签的分布信息来抵抗标签噪声的影响。大多数关于标签噪声学习的工作都假设所有训练数据的标签都可能错误。但是,通常情况下有一些可信示例可用以创建验证和测试集。通过假设训练的一个子集是可信的,利用少量干净数据的方法改变了所有训练数据都可能被破坏的假设,并且证明拥有一定数量的可信训练数据可以显着提高稳健性。这类方法大都采用了元学习形式对假设空间进行限制。
[0008]尽管相关学者们已经提出了许多方法用于标签噪声深度学习,但是所提出的场景
大都是简单的多分类噪声学习场景。而由于标签形式和学习方式的不同,实际应用中往往包含具有各不相同的场景特点,而这些方法难以简单迁移。具体到带噪多标签学习场景中,这种场景中每个样本中含有多个目标类别,其每个类别的标签都有可能含有噪声。在多标签学习中,很少有方法关注标签噪声的后果。因此,提出一种带噪多标签数据的神经网络模型训练方法十分有必要。

技术实现思路

[0009]本专利技术提供了一种带噪多标签数据的神经网络模型训练方法,以解决在带噪多标签学习场景中训练强决策能力的分类网络的技术问题。
[0010]本专利技术的技术方案为:
[0011]一种带噪多标签数据的神经网络模型训练方法,包括以下步骤:
[0012]通过样本选择算法为每一类别选择出“干净”的样本集合(后文称为干净样本集合)作为元数据集,并进行类别依赖的标签噪声转移矩阵估计;
[0013]利用类别依赖的标签噪声转移矩阵对实例特征依赖的标签噪声转移矩阵网络中的部分参数进行初始化;
[0014]基于统计一致性的标签噪声学习损失,采用元学习算法同时学习实例特征依赖的标签噪声转移矩阵网络参数、数据不平衡参数和多标签分类神经网络参数。
[0015]进一步地,所述样本选择算法是一个基于深度神经网络的记忆效应的算法。本专利技术在噪声训练样本集上训练具有标准多标签分类损失的分类器若干个轮次,然后执行样本选择算法以获得每个类标签的选定的干净样本集合作为元数据集。基于所得到的干净样本集合和已有带噪数据,本专利技术利用标签相关性的不匹配性进行类别依赖的标签噪声转移矩阵估计。
[0016]进一步地,通过利用所求得的类别依赖的标签噪声转移矩阵对于实例特征依赖的标签噪声转移矩阵网络中的部分参数进行初始化,为学习优化该网络提供了很好的参数初始点。
[0017]进一步地,本专利技术将带噪单标签场景中的统计一致性的算法应用于多标签任务分解得到的每个二分类问题,并将选择的干净样本集合作为元数据集,通过元学习算法同时学习实例特征依赖的标签噪声转移矩阵网络参数、数据不平衡参数和多标签分类神经网络参数,能够同时缓解标签噪声和数据不平衡的影响。
[0018]一种带噪多标签数据的神经网络模型训练装置,其包括:
[0019]样本选择及类别依赖的标签噪声转移矩阵估计模块,用于通过样本选择算法为每一类别选择出干净样本集合作为元数据集,并进行类别依赖的标签噪声转移矩阵估计;
[0020]实例特征依赖的标签噪声转移矩阵初始化模块,用于利用类别依赖的标签噪声转移矩阵对实例特征依赖的标签噪声转移矩阵网络中的部分参数进行初始化;
[0021]元学习训练模块,用于基于统计一致性的标签噪声学习损失,采用元学习算法同时学习实例特征依赖的标签噪声转移矩阵网络参数、数据不平衡参数和多标签分类神经网络参数。
[0022]与现有技术相比,本专利技术的积极效果为:
[0023]1)利用每个类别的样本采样得到的干净样本集合作为带噪多标签学习的元数据
集;
[0024]2)利用所求得的类别依赖的标签噪声转移矩阵对于实例特征的标签噪声转移矩阵网络中的部分参数进行初始化,为学习优化实例特征依赖的标签噪声转移矩阵提供了很好的参数初始点;
[0025]3)创新性地利用元学习算法以数据驱动的方式学习优化实例特征的标签噪声转移矩阵。将实例特征依赖的标签噪声转移矩阵网络参数、数据不平衡参数和多标签分类神经网络参数统一到一个框架下学习,能够同时缓解标签噪声和数据不平衡的影响。
附图说明
[0026]此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0027]图1为本专利技术的方法流程图。
[0028]图2为本专利技术的实例特征依赖的标签噪声转移矩阵网络结构图。
[0029]图3为本专利技术的元学习算法内层训练流程图。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种带噪多标签数据的神经网络模型训练方法,其特征在于,包括以下步骤:通过样本选择算法为每一类别选择出干净样本集合作为元数据集,并进行类别依赖的标签噪声转移矩阵估计;利用类别依赖的标签噪声转移矩阵对实例特征依赖的标签噪声转移矩阵网络中的部分参数进行初始化;基于统计一致性的标签噪声学习损失,采用元学习算法同时学习实例特征依赖的标签噪声转移矩阵网络参数、数据不平衡参数和多标签分类神经网络参数。2.根据权利要求1所述的方法,其特征在于,所述通过样本选择算法为每一类别选择出干净样本集合作为元数据集,包括:在噪声训练样本集上训练具有标准多标签分类损失的分类器若干个轮次,然后执行样本选择算法以获得每个类标签的选定的干净样本集合作为元数据集。3.根据权利要求2所述的方法,其特征在于,采用以下步骤获得所述干净样本集合:在带噪多标签数据D
t
上预热训练神经网络模型f若干个轮次,其采用如下的标准多标签二分类学习损失:其中f为多标签预测神经网络,结构为ResNet;用f
j
(X)表示模型对输入的X进行非线性操作得到的对第j类的预测结果,其中X表示输入特征向量;为样本的噪声标签向量,为第j类的噪声标签;q为总的类别数;l为二分类交叉熵损失;通过使用高斯混合模型对每一类j的每个样本损失的分布进行建模,提取损失较小的样本子集,获得每个类标签j的干净样本集合4.根据权利要求1所述的方法,其特征在于,所述进行类别依赖的标签噪声转移矩阵估计,包括:基于所述干净样本集合和已有带噪数据,利用标签相关性的不匹配性进行类别依赖的标签噪声转移矩阵估计。5.根据权利要求1所述的方法,其特征在于,利用类别依赖的标签噪声转移矩阵初始化实例特征依赖的标签噪声转移矩阵的部分参数,缓解实例特征依赖的标签噪声转移矩阵网络难学习的问题。6.根据权利要求1所述的方法,其特征在于,所述利用类别依赖的标签噪声转移矩阵对实例特征依赖的标签噪声转移矩阵网络中的部分参数进行初始化,包括:设转移矩阵网络的最后线性层L
j
(.)的输入变量为z,并表示为L
j
(z)=az+b,其中a和b为该线性层的可学习参数;在初始化时,...

【专利技术属性】
技术研发人员:葛仕明李世鲲
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1