基于数据自选择与标记自校正算法的图像偏差数据分类方法技术

技术编号:36807416 阅读:10 留言:0更新日期:2023-03-09 00:23
基于数据自选择与标记自校正算法的图像偏差数据分类方法,获取蕴含数据偏差问题的训练集以及构建少量干净无偏的元数据集;相对于在训练数据集上建立的分类器模型,在元数据集上建立一个具有自动赋权功能的元学习器CMW

【技术实现步骤摘要】
基于数据自选择与标记自校正算法的图像偏差数据分类方法


[0001]本专利技术属于图像识别领域和深度学习
,涉及图像偏差数据的分类,特别涉及一种基于数据自选择与标记自校正算法的图像偏差数据分类方法。

技术介绍

[0002]近些年,图像识别领域得益于深度神经网络等机器学习技术,取得了令人瞩目的成就。而这些成功应用大多建立在收集的图像训练数据容量大、样本标记质量高的理想前提下。由于充分的图像训练数据资源能够忠实地反映测试/评估环境分布,因而具有强大拟合能力的深度神经网络在其基础上往往能够获得对于测试数据具有良好泛化能力的标记识别函数。然而,为了避免获取高质量标记数据集所耗费巨大人力与物力资源消耗,越来越多的真实场景应用往往需要借助类似于众包或搜索引擎等手段来粗略获取标记数据资源。而通过此类方式获得的训练数据往往并不具备预期的高质量标准,导致训练数据并不能准确体现真实的测试环境的内在特性,进而导致所谓数据分布偏差问题,即在训练数据上习得的识别函数无法有效泛化应用于测试环境的严重问题。这种数据偏差问题领域内公认最常见的类型有两种。一是类不均衡图像数据偏差,即训练数据不同类别数据量存在显著差异的问题;二是弱标记图像数据偏差,即数据标记中存在大量模糊甚至错误的标记,典型的例子如噪音标注,缺失标注,以及多个候选标记,这分别对应于图像识别领域的标记噪音学习,半监督学习和偏标记学习。因此对这类偏差数据进行有效学习是图像识别领域十分重要的问题,也是将图像识别算法应用到真实场景必须突破的富有挑战的技术基础。
[0003]解决这类问题的核心思想是发展样本选择和标记校正技术。数据选择技术主要通过评估数据质量来对其进行针对性遴选或不同程度抑制/放大其在训练中发挥的作用,标记校正技术需要挑选出数据中蕴含错误标记的样本并对其标记进行校正并将其在训练中重新利用。近年来,多种思路不同的数据样本选择和标记校正方案被提出,但是距离实用性还有很大距离。这主要是由两点导致的,一是现有的方案需要过多人工干预,如人工设定挑选多少样本参与到训练中,人工设定标签生成规则;二是现有的方案大多是针对特定图像识别任务进行特别设计,缺乏对广泛图像识别任务的通用性、一般性与普适性。

技术实现思路

[0004]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于数据自选择与标记自校正算法的图像偏差数据分类方法。
[0005]为了实现上述目的,本专利技术采用的技术方案是:
[0006]基于数据自选择与标记自校正算法的图像偏差数据分类方法,包括如下步骤:
[0007]S1:获取图像训练数据集D和元数据集设定批尺寸大小n,m,最大迭代次数T,时间集成动量α∈[0,1),teacher模型权值平均动量β∈[0,1),Beta分布超参数γ>0;
[0008]S2:初始化分类器模型参数w
(0)
和CMW

Net模型参数Θ
(0)
,初始化平均预测z
(0)

0
[N
×
C],teacher模型权值
[0009]S3:对所有图像训练数据集D的C个类别的样本数进行K均值聚类,将其聚类中心升序排序,获得实现对图像偏差数据集的任务层次的偏差特征提取;
[0010]S4:分别从图像训练数据集D和元数据集随机选取Mini

Batch样本:SampleMiniBatch(D;n)和产生参数λ~Beta(γ,γ),设置λ为max(λ,1

λ);
[0011]S5:计算teacher模型权值平均获得分类器模型的集成预测
[0012]S6:利用批训练数据SampleMiniBatch(D;n),产生新的索引序列idx=torch.randperm(n),基于Mixup数据增广方法生成新的数据通过随机梯度下降更新获得
[0013]S7:利用元数据通过随机梯度下降更新获得Θ
(t+1)

[0014]S8:重新利用训练数据SampleMiniBatch(D;n),以及S6生成的新的数据使用随机梯度下降更新获得w
(t+1)

[0015]S9:重复S4

S8,经过T次停机,输出w
(T)
和Θ
(T)
,其中w
(T)
和Θ
(T)
是算法最终获得的分类器模型和CMW

Net模型;得到的w
(T)
完成了基于图像偏差训练数据集D的鲁棒学习,利用得到的w
(T)
对新的图像偏差数据进行高质量的标记预测。
[0016]与现有技术相比,本专利技术的有益效果是:
[0017]1)本专利技术的元学习器,称之为CMW

Net,是一个只有单隐层的多层感知器网络,可以实现对具有相似数据偏差类型的任务进行其共有的权值函数学习,而排除掉预期偏差性质相异任务的有害干扰,从而有望对各个类别任务得到更为准确、更有针对性的合理权值函数设计规律。因而可以适应不同图像数据偏差问题,实现样本自选择和标记自校正功能。
[0018]2)不同于现有方法需要对每个图像数据偏差问题人工单独设计识别,本专利技术使用统一的自动化识别方法,可以在广泛图像数据偏差问题上达到SOTA表现,如图像识别领域的类不平衡,特征无关、特征相关以及真实的标记噪音,半监督学习,偏标记学习等。
[0019]3)本专利技术习得的CMW

Net模型蕴含着对复杂偏差数据的赋权规律总结,通过从小尺度的图像数据集上训练好的CMW

Net模型,可以即插即用地迁移到大尺度图像数据集上的赋权设计。因为样本赋权规律已直接设定而无须对其付出计算代价重新计算,将其直接嵌入在大尺度图像偏差数据集上分类算法之中,辅助算法自动调整样本在算法中发挥的作用,从而实现简单高效的样本自选择和标记自校正算法功能。
附图说明
[0020]利用附图对本专利技术作进一步的说明,但附图中的内容不构成对本专利技术的任何限制。
[0021]图1为本专利技术的流程图。
[0022]图2为本专利技术提出的CMW

Net模型示意图。
[0023]图3展示的是本专利技术方法在图像领域类不均衡偏差数据上的性能表现。
[0024]图4展示的是本专利技术方法在图像领域特征无关标记噪音的偏差数据上的性能表现。
[0025]图5展示的是本专利技术方法在图像领域特征相关标记噪音的偏差数据上的性能表现。
[0026]图6展示的是本专利技术方法在图像领域真实标记噪音的偏差数据上的性能表现。
[0027]图7展示的是本专利技术方法在图像领域不同偏差数据下习得的背后赋权规律的可视化。
[0028]图8展示的是本专利技术方法习得的CMW

Net模型迁移到图像领域公开的最大规模WebVision真实偏差数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于数据自选择与标记自校正算法的图像偏差数据分类方法,其特征在于,包括如下步骤:S1:获取图像训练数据集和元数据集其中x
i
为第i个图像训练样本,y
i
是x
i
对应的噪音标记,是第i个图像元样本,是对应的干净标记;N,M分别是图像训练数据集和元数据集的尺寸大小,设定批尺寸大小n,m,最大迭代次数T,时间集成动量α∈[0,1),模型权值平均动量β∈[0,1),Beta分布超参数γ>0;S2:初始化分类器模型参数w
(0)
和CMW

Net模型参数Θ
(0)
,初始化平均预测z
(0)
=0
[N
×
C]
,teacher模型权值其中C是图像训练数据集D包含的类别个数;S3:对所有图像训练数据集D的C个类别的样本数进行K均值聚类,将其聚类中心升序排序,获得实现对图像偏差数据集的任务层次的偏差特征提取;其中μ
k
是每个聚类的中心,K是聚类的类个数;S4:分别从图像训练数据集D和元数据集随机选取Mini

Batch样本:SampleMiniBatch(D;n)和产生参数λ~Beta(γ,γ),设置λ为max(λ,1

λ),其中λ是Mixup的超参数,Beta(γ,γ)是参数为γ的Beta分布;S5:计算teacher模型权值平均获得分类器模型的集成预测其中w
(t)
是分类器模型在第t步的参数,是teacher模型权值平均在第t步的参数,是分类器模型在第t步的集成预测,是分类器模型使用参数的模型预测输出;S6:利用S4产生的批训练数据SampleMiniBatch(D;n),产生新的索引序列idx=torch.randperm(n),基于Mixup数据增广方法生成新的数据通过随机梯度下降更新获得是分类器模型在第t+1步更新后的参数;S7:利用S4产生的元数据通过随机梯度下降更新获得Θ
(t+1)
;其中Θ
(t+1)
是CMW

Net模型在第t+1步更新后的参数;S8:重新利用训练数据SampleMiniBatch(D;n),以及S6生成的新的数据使用随机梯度下降更新获得w
(t+1)
;其中w
(t+1)
是分类器模型在第t+1步更新后的参数;S9:重复S4

S8,经过T次停机,输出w
(T)
和Θ
(T)
,其中w
(T)
和Θ
(T)
是算法最终获得的分类器模型和CMW

Net模型;得到的w
(T)
完成了基于图像偏差训练数据集D的鲁棒学习,利用得到的w
(T)
对新的图像偏差数据进行高质量的标记预测。2.根据权利要求1所述基于数据自选择与标记自校正算法的图像偏差数据分类方法,其特征在于,所述S1中,图像训练数据集D指含有数据偏差的图像数据,元数据集指构造
的少量的没有偏差的图像数据集,表示潜在的真实的图像样本

标签无偏分布的元知识;通过挑选图像训练数据中每类训练损失最小的数据,且每类挑选的图像数据数目相同,从而构建元数据集构建元数据集每个训练轮次均重新构建元数据集,使得其能够随着训练过程动态改变。3.根据权利要求1所述基于数据自选择与标记自校正算法的图像偏差数据分类方法,其特征在于,所述S2中,分类器模型指在图像训练数据集D上希望学习得到的分类器f(x;w),通过对每个训练样本的损失施加权重v∈[0,1]来遴选对训练有益的图像数据样本,即通过极小化下面的加权损失来获取分类器模型的最优参数,进而增强分类器模型的泛化性和鲁棒性,其中l是分类损失函数,w和w
*
分别是分类器模型的参数和最优参数,v
i
是对第i个图像训练样本施加的样本权重,N是训练数据集的尺寸大小;对于带有数据偏差的图像训练数据集D,对噪声标记样本进行标记校正,并将校正标记后的样本重新,方式如下:其中,v∈[0,1],表示样本权重,z表示伪软标记,表示对图像训练数据集D的噪声标记样本进行标记校正以后计算的样本损失函数;将损失设置为交叉熵形式时,损失函数(2)等价重写为:通过自适应确定v和z,可以实现对图像偏差数据的自选择与标记自校正功能。4.根据权利要求3所述基于数据自选择与标记自校正算法的图像偏差数据分类方法,其特征在于,构建CMW

Net模型,以适应不同的图像数据偏差类型,对每个图像训练样本自适应施加权重将伪软标记z、样本权重v、分类器模型参数与CMW

Net模型参数放置于一个元学习框架进行更新,优化目标函数为:Net模型参数放置于一个元学习框架进行更新,优化目标函数为:其中Θ
*
和w
*
(Θ,Ω)是最优的CMW

Net模型参数和分类器模型参数,和分别对应在元数据集和在图像训练数据集D上计算的损失函数,是在图像训练数据集D基于产生的伪软标记z计算的损失函数,是
CMW

Net模型,Θ,Ω是其参数,N
i
表示第i个样本x
i
所属的训练类别中包含...

【专利技术属性】
技术研发人员:束俊孟德宇袁翔徐宗本
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1