基于数据自选择与标记自校正算法的图像偏差数据分类方法技术

技术编号：36807416 阅读：10 留言：0更新日期：2023-03-09 00:23

基于数据自选择与标记自校正算法的图像偏差数据分类方法，获取蕴含数据偏差问题的训练集以及构建少量干净无偏的元数据集；相对于在训练数据集上建立的分类器模型，在元数据集上建立一个具有自动赋权功能的元学习器CMW

全部详细技术资料下载

【技术实现步骤摘要】
基于数据自选择与标记自校正算法的图像偏差数据分类方法

[0001]本专利技术属于图像识别领域和深度学习
，涉及图像偏差数据的分类，特别涉及一种基于数据自选择与标记自校正算法的图像偏差数据分类方法。

技术介绍

[0002]近些年，图像识别领域得益于深度神经网络等机器学习技术，取得了令人瞩目的成就。而这些成功应用大多建立在收集的图像训练数据容量大、样本标记质量高的理想前提下。由于充分的图像训练数据资源能够忠实地反映测试/评估环境分布，因而具有强大拟合能力的深度神经网络在其基础上往往能够获得对于测试数据具有良好泛化能力的标记识别函数。然而，为了避免获取高质量标记数据集所耗费巨大人力与物力资源消耗，越来越多的真实场景应用往往需要借助类似于众包或搜索引擎等手段来粗略获取标记数据资源。而通过此类方式获得的训练数据往往并不具备预期的高质量标准，导致训练数据并不能准确体现真实的测试环境的内在特性，进而导致所谓数据分布偏差问题，即在训练数据上习得的识别函数无法有效泛化应用于测试环境的严重问题。这种数据偏差问题领域内公认最常见的类型有两种。一是类不均衡图像数据偏差，即训练数据不同类别数据量存在显著差异的问题；二是弱标记图像数据偏差，即数据标记中存在大量模糊甚至错误的标记，典型的例子如噪音标注，缺失标注，以及多个候选标记，这分别对应于图像识别领域的标记噪音学习，半监督学习和偏标记学习。因此对这类偏差数据进行有效学习是图像识别领域十分重要的问题，也是将图像识别算法应用到真实场景必须突破的富有挑战的技术基础。
[0003]解决这...

【技术保护点】

【技术特征摘要】
1.基于数据自选择与标记自校正算法的图像偏差数据分类方法，其特征在于，包括如下步骤：S1：获取图像训练数据集和元数据集其中x
i
为第i个图像训练样本，y
i
是x
i
对应的噪音标记，是第i个图像元样本，是对应的干净标记；N,M分别是图像训练数据集和元数据集的尺寸大小，设定批尺寸大小n,m，最大迭代次数T，时间集成动量α∈[0,1)，模型权值平均动量β∈[0,1)，Beta分布超参数γ>0；S2：初始化分类器模型参数w
(0)
和CMW
‑
Net模型参数Θ
(0)
，初始化平均预测z
(0)
＝0
[N
×
C]
，teacher模型权值其中C是图像训练数据集D包含的类别个数；S3：对所有图像训练数据集D的C个类别的样本数进行K均值聚类，将其聚类中心升序排序，获得实现对图像偏差数据集的任务层次的偏差特征提取；其中μ
k
是每个聚类的中心，K是聚类的类个数；S4：分别从图像训练数据集D和元数据集随机选取Mini
‑
Batch样本：SampleMiniBatch(D；n)和产生参数λ～Beta(γ,γ)，设置λ为max(λ,1
‑
λ)，其中λ是Mixup的超参数，Beta(γ,γ)是参数为γ的Beta分布；S5：计算teacher模型权值平均获得分类器模型的集成预测其中w
(t)
是分类器模型在第t步的参数，是teacher模型权值平均在第t步的参数，是分类器模型在第t步的集成预测，是分类器模型使用参数的模型预测输出；S6：利用S4产生的批训练数据SampleMiniBatch(D；n)，产生新的索引序列idx＝torch.randperm(n)，基于Mixup数据增广方法生成新的数据通过随机梯度下降更新获得是分类器模型在第t+1步更新后的参数；S7：利用S4产生的元数据通过随机梯度下降更新获得Θ
(t+1)
；其中Θ
(t+1)
是CMW
‑
Net模型在第t+1步更新后的参数；S8：重新利用训练数据SampleMiniBatch(D；n)，以及S6生成的新的数据使用随机梯度下降更新获得w
(t+1)
；其中w
(t+1)
是分类器模型在第t+1步更新后的参数；S9：重复S4
‑
S8，经过T次停机，输出w
(T)
和Θ
(T)
，其中w
(T)
和Θ
(T)
是算法最终获得的分类器模型和CMW
‑
Net模型；得到的w
(T)
完成了基于图像偏差训练数据集D的鲁棒学习，利用得到的w
(T)
对新的图像偏差数据进行高质量的标记预测。2.根据权利要求1所述基于数据自选择与标记自校正算法的图像偏差数据分类方法，其特征在于，所述S1中，图像训练数据集D指含有数据偏差的图像数据，元数据集指构造
的少量的没有偏差的图像数据集，表示潜在的真实的图像样本
‑
标签无偏分布的元知识；通过挑选图像训练数据中每类训练损失最小的数据，且每类挑选的图像数据数目相同，从而构建元数据集构建元数据集每个训练轮次均重新构建元数据集，使得其能够随着训练过程动态改变。3.根据权利要求1所述基于数据自选择与标记自校正算法的图像偏差数据分类方法，其特征在于，所述S2中，分类器模型指在图像训练数据集D上希望学习得到的分类器f(x；w)，通过对每个训练样本的损失施加权重v∈[0,1]来遴选对训练有益的图像数据样本，即通过极小化下面的加权损失来获取分类器模型的最优参数，进而增强分类器模型的泛化性和鲁棒性，其中l是分类损失函数，w和w
*
分别是分类器模型的参数和最优参数，v
i
是对第i个图像训练样本施加的样本权重，N是训练数据集的尺寸大小；对于带有数据偏差的图像训练数据集D，对噪声标记样本进行标记校正，并将校正标记后的样本重新，方式如下：其中，v∈[0,1]，表示样本权重，z表示伪软标记，表示对图像训练数据集D的噪声标记样本进行标记校正以后计算的样本损失函数；将损失设置为交叉熵形式时，损失函数(2)等价重写为：通过自适应确定v和z，可以实现对图像偏差数据的自选择与标记自校正功能。4.根据权利要求3所述基于数据自选择与标记自校正算法的图像偏差数据分类方法，其特征在于，构建CMW
‑
Net模型，以适应不同的图像数据偏差类型，对每个图像训练样本自适应施加权重将伪软标记z、样本权重v、分类器模型参数与CMW
‑
Net模型参数放置于一个元学习框架进行更新，优化目标函数为：Net模型参数放置于一个元学习框架进行更新，优化目标函数为：其中Θ
*
和w
*
(Θ,Ω)是最优的CMW
‑
Net模型参数和分类器模型参数，和分别对应在元数据集和在图像训练数据集D上计算的损失函数，是在图像训练数据集D基于产生的伪软标记z计算的损失函数，是
CMW
‑
Net模型，Θ,Ω是其参数，N
i
表示第i个样本x
i
所属的训练类别中包含...

【专利技术属性】
技术研发人员：束俊，孟德宇，袁翔，徐宗本，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人