基于信息熵最大化正则机制的深度多标签分类网络鲁棒训练方法技术

技术编号:37885324 阅读:9 留言:0更新日期:2023-06-18 11:50
本发明专利技术公开了基于信息熵最大化正则机制的深度多标签分类网络鲁棒训练方法,旨在解决每个样本仅有单个正标签且其余标签均缺失的情况下,深度多标签分类网络的鲁棒学习问题,利用基于信息熵最大化的二元交叉熵损失函数正则化机制解决SPML问题,目的是最大化深度多标签分类网络对于未知标签预测概率的信息熵,使得模型可以免受假阴性标签噪声的影响,利用真实正标签提供的监督信息进行学习,并对未知标签做出可区分性较强的预测,方法易于实现,不会引入额外的可学习参数,同时能够与任意的深度多标签分类网络相结合,适合处理超大规模多标签图像数据集。多标签图像数据集。

【技术实现步骤摘要】
基于信息熵最大化正则机制的深度多标签分类网络鲁棒训练方法


[0001]本专利技术涉及机器学习
,具体涉及基于信息熵最大化正则机制的深度多标签分类网络鲁棒训练方法。

技术介绍

[0002]不同于单标签图像分类,多标签图像分类的目的在于为一个图像预测所有对应的标签。因为一个自然场景中天然地包含多个物体和概念,所以多标签图像分类更加符合真实世界中的设定。然而,对大规模多标签图像数据集进行详尽的标签标注十分费事费力,标注所消耗的人力物力成本也远远大于对单标签图像数据集进行标注的情况,因为一个图像对应的潜在的标签数目可能很多,而且较小物体和较稀有物体往往为标注人员所忽略。因此,现存的开源的大规模多标签图像数据集被广泛认为是缺失部分标签的,这促进了学界对于缺失标签情况下的多标签学习问题的研究。考虑到一种极端缺失标签的情况,即每个样本仅有单个正标签被标注,且其余标签均未进行标注,这被称为单正标签情况下的多标签学习(Single Positive Multi

label Learning,SPML)问题。每个样本仅有单个正标签的设定符合多数实际应用场景,例如从互联网通过查询的方式进行图像数据集的收集等,这表明SPML问题具有广泛的实际应用价值。此外,深入研究SPML问题并提出妥善的解决方法,可以放宽大规模多标签图像数据集的标注要求,显著降低其标注成本,具有重大的社会经济效益。因此,SPML是一种值得进一步探索的多标签学习变种,并成为了近年来深度学习领域颇具挑战性的新兴研究方向之一。
[0003]相关技术广泛采用的深度多标签分类网络的学习范式是将多个标签的预测问题转化为多个单独的二分类问题。由于多标签设定的特殊性,在大规模多标签图像数据集中,负标签的数量远远大于正标签的数量。因此,一种直观的方法是将所有未知的标签均视作负标签,再利用标准的二元交叉熵损失函数进行训练,这被称为Assuming Negatives(AN),它是解决SPML问题的基线方法。假设给定一个仅有单个正标签的样本对(x
(n)
,z
(n)
),其中x
(n)
为第n个输入图像,z
(n)
为第n个图像对应的标签向量。则AN方法的损失函数为:
[0004][0005]其中,f
(n)
是模型关于x
(n)
的输出,是模型在第c个类上的标签预测概率。C是类别数目,和分别表示第c个类存在正标签和负标签。AN方法的损失函数沿袭了标准的二元交叉熵损失函数,基于“将所有未知的标签均视作负标签”的标签假设条件进行深度多标签分类网络的训练。
[0006]为了解决深度多标签分类网络的训练过程中缺少负标签会陷入退化解的问题,正则化在线标签估计(Regularized Online Label Estimation,ROLE)方法利用数据集中每个样本的平均真实正标签数量来对深度多标签分类网络的输出进行约束,使其模型关于x
(n)
的输出f
(n)
的总和不至于过大,这相当于给损失函数引入了一个正则化项,称为期望正标签正则化(Expected Positive Regularization,EPR)。为了对未知标签做出预测以提供更多的监督信息,ROLE方法在原始的深度多标签分类网络上额外添加了一个标签估计模块,采用互相监督的方式将两者进行联合训练,利用标签估计模块估计出来的标签作为深度多标签分类网络计算损失时的标签,反之,利用深度多标签分类网络的预测作为标签估计模块估计标签时的监督信息。同样地,ROLE方法也给标签估计模块引入了EPR用于约束其估计出来的标签。在进行预测时,ROLE方法可以丢弃之前训练的标签估计模块,仅用训练完毕的深度多标签分类网络进行标签预测。
[0007]然而相关技术具有以下缺点:1)虽然负标签在大规模多标签图像数据集的标签注释中占绝大多数,但是AN方法做出的假设(即把所有未知的标签均视作负标签)会引入大量的假阴性标签噪声,这给深度多标签分类网络的训练提供了大量的错误的监督信息,使其难以做出较为正确的正负标签预测。此外,该假设还会加强多标签学习中的正负标签不均衡的现象,使得网络更加倾向于预测出负标签,这进一步削弱了深度多标签分类网络的分类性能。2)ROLE方法引入的EPR正则化方法需要提前统计数据集中每个样本的平均真实正标签数量,这在实际应用场景中是不现实的,因为数据集中真实正标签的数目本来就是未知的。此外,ROLE方法采用的标签估计模块本质上是一个巨大的估计标签矩阵,这会给原本的网络模型引入额外的大量的可学习参数,大大增加网络训练时的时间和空间需求,且引入的可学习参数数目与数据集中的类别数目和样本数目正相关,这表明ROLE方法难以处理超大规模多标签图像数据集。

技术实现思路

[0008]为了解决现有技术中的问题,本专利技术提出基于信息熵最大化正则机制的深度多标签分类网络鲁棒训练方法,利用基于信息熵最大化的二元交叉熵损失函数正则化机制解决SPML问题,目的是最大化深度多标签分类网络对于未知标签预测概率的信息熵,使得模型可以免受假阴性标签噪声的影响,利用真实正标签提供的监督信息进行学习,并对未知标签做出可区分性较强的预测,方法易于实现,不会引入额外的可学习参数,同时能够与任意的深度多标签分类网络相结合,适宜处理超大规模多标签图像数据集。
[0009]为了实现以上目的,本专利技术提供了基于信息熵最大化正则机制的深度多标签分类网络鲁棒训练方法,包括:深度多标签分类网络对于每一个样本的每一个未知标签的预测均视为一个离散随机变量,包括预测为正标签和预测为负标签两种,预测为正标签的概率即为深度多标签分类网络输出的未知标签预测概率,控制深度多标签分类网络输出的未知标签预测概率的信息熵最大化。
[0010]进一步地,所述方法中假设给定一个仅有单个正标签的样本对(x
(n)
,z
(n)
),其中x
(n)
为第n个输入图像,z
(n)
为第n个图像对应的标签向量,则损失函数为:
[0011][0012]其中,f
(n)
是模型关于x
(n)
的输出,是模型在第c个类上的预测概率,C是类别数目,表示第c个类存在正标签,表示第c个类存在负标签,为正则化项。
[0013]进一步地,所述正则化项定义为:
[0014][0015]其中,α为控制正则化强度大小的超参数。
[0016]进一步地,所述超参数α的值在0到1之间进行调节。
[0017]进一步地,所述方法中预测为正标签的概率即为网络输出的未知标签预测概率预测为负标签的概率即为
[0018]进一步地,所述方法会控制未知标签预测概率趋于0.5。
[0019]进一步地,所述方法中假设有一个离散随机变量X∈{x1,x2,...,x
n
},则其信息熵的定义为:
[0020]H(X)=E[I(X)]=E[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于信息熵最大化正则机制的深度多标签分类网络鲁棒训练方法,其特征在于,包括:深度多标签分类网络对于每一个样本的每一个未知标签的预测均视为一个离散随机变量,包括预测为正标签和预测为负标签两种事件,预测为正标签的概率即为深度多标签分类网络输出的未知标签预测概率,控制深度多标签分类网络输出的未知标签预测概率的信息熵最大化。2.根据权利要求1所述的基于信息熵最大化正则机制的深度多标签分类网络鲁棒训练方法,其特征在于,所述方法中假设给定一个仅有单个正标签的样本对(x
(n)
,z
(n)
),其中x
(n)
为第n个输入图像,z
(n)
为第n个图像对应的标签向量,则损失函数为:其中,f
(n)
是模型关于x
(n)
的输出,是模型在第c个类上的预测概率,C是类别数目,表示第c个类存在正标签,表示第c个类存在负标签,为正则化项。3.根据权利要求2所述的基于信息熵最大化正则机制的深度多标签分类网络鲁棒训练方法,其特征在于,所述正则化项定义为:其中,α为控制正则化强度大小的超参数。4.根据权利要求3所述的基于信息熵最大化正则机制的深度多标签分类网络鲁棒训练方法,其特征在于,所述超参数α的值在0到1之间进行调节。5.根据权利要求4所述的基于信息熵最大化正则机制的深度多标签分类网络鲁棒训练方法,其特征在于,所述方法中预测为正标签的概率即为网络输出的未知标签预测概率预测为负标签的...

【专利技术属性】
技术研发人员:周冬豪陈广勇
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1