【技术实现步骤摘要】
一种利用混合未标记数据的分布外样本检测方法
:
[0001]本专利技术涉及一种利用混合未标记数据的分布外样本检测方法。
技术介绍
:
[0002]在传统的机器学习中有一个非常重要的i.i.d.假设,即假设训练集与测试集的样本是从同一个分布中独立采样而得。然而,在现实的应用场景中,一些分布外样本可能会导致模型给出完全不正确的预测,而这对于例如自动驾驶或医疗诊断等有较高安全性要求的应用而言是不可接受的。因此,分布外样本检测(Out
‑
of
‑
Distribution Detection)旨在要求模型在推理阶段可以正确检测出这些分布外样本,然后才有可能对这些样本进行后续处理。
[0003]传统的分布外样本检测方法通常利用大量的有标记样本训练一个分类器,再利用例如置信度这样的模型统计指标来判断一个样本是否为分布外样本。然而,这样的方法需要大量的有标记信息,因此就带来了很大的标记成本。因此,一些改进的做法尝试利用未标记样本去增强分布外样本检测的性能。一类方法在纯分布内的未标记样本集上进行自监督学 ...
【技术保护点】
【技术特征摘要】
1.一种利用混合未标记数据的分布外样本检测方法,其特征在于:包括以下步骤:1)建立一个对象库作为训练数据集,给对象库中的少量对象赋予类别标记并构成有标记数据L={(x1,y1),
…
,(x
n
,y
n
)},其余的为未标记数据U={x1,
…
,x
m
},用n表示有标记的对象数目,m表示未标记的对象数目,类别数目为k;其中,用表示未标记数据U中的分布内样本,m1为未标记数据U中的分布内样本的数目;用表示未标记数据U中的分布外样本,m2为未标记数据U中的分布外样本的数目;2)在有标记数据L上使用交叉熵损失训练,以及在未标记数据U上使用一致性正则训练,最终得到一个基础模型;3)在步骤2)所述一致性正则训练中使用自适应温度技术,用以区分未标记数据U上的分布内样本以及分布外样本;4)对于针对有标记数据L以及未标记数据U的每一个训练轮数t,得到两个置信度阈值和对应用于筛选未标记数据U上的分布内样本以及分布外样本;5)使用RandAugment和mixup这两个数据增强方法对训练数据集进行扩充;6)在步骤4)中筛选出来的分布内样本上使用最小熵原则训练,在步骤4)中筛选出来的分布外样本上使用最大熵原则训练;7)在测试阶段,根据样本的输出置信度来确定其是否为分布外样本。2.如权利要求1所述的利用混合未标记数据的分布外样本检测方法,其特征在于:所述步骤2)中使用了有标记数据L和未标记数据U训练得到一个基础模型,训练的方法为:在有标记数据L上计算交叉熵损失,记为在未标记数据U上使用一致性正则损失进行训练,表示为接着,计算总体损失并反向传播更新基础模型参数θ,基础模型的结构采用Wide ResNet
‑
28
‑
2网络,其参数量约为1.4M。3.如权利要求2所述的利用混合未标记数据的分布外样本检测方法,其特征在于:所述基础模型训练时使用SGD优化器进行优化。4.如权利要求1所述的利用混合未标记数据的分布外样本检测方法,其特征在于:所述步骤3)中使用了自适应温度技术来地区分未标记数据U上的分布内样本以及分布外样本,具体为:在第t个训练轮数,优化模型在一个分布内验证集V上的负对数似然损失,可表示为式中:Tt表示表示在第t个...
【专利技术属性】
技术研发人员:王魏,孙一轩,
申请(专利权)人:南京智谷人工智能研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。