当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于二维度量的两阶段样本选择方法技术

技术编号:39502890 阅读:61 留言:0更新日期:2023-11-24 11:34
本发明专利技术公开了一种基于二维度量的两阶段样本选择方法,包括:将数据样本根据其观测标签的类别进行分离归类,得到若干同类数据样本构成的子数据集;计算每个子数据集中的数据样本在标签空间维度和特征空间维度的数据分布;计算每个子数据集中的数据样本在标签空间维度和特征空间维度的均值和方差,确定数据样本最优分离维度;根据数据样本在最优分离维度的差异性,将数据样本分离为干净样本集合和噪声样本集合

【技术实现步骤摘要】
一种基于二维度量的两阶段样本选择方法


[0001]本专利技术涉及样本选择方法
,尤其涉及一种基于二维度量的两阶段样本选择方法


技术介绍

[0002]在大量高质量标注数据的支持下,深度神经网络在图像分类领域取得了巨大的成功

然而在实际应用中,高质量的有标记数据是昂贵且难以获得

而从互联网或者是众包平台上获得数据往往不是特别可靠,会存在错误的标记

在这种不可靠数据
(
称为噪声标记数据
)
上训练的模型通常会产生较差的泛化性能,导致模型分类效果不佳,因为深度神经网络由于其较大的模型容量而倾向于过度拟合噪声样本

[0003]现有的样本选择方法是根据样本的差异来区分干净和有噪音的样本,但这些算法在处理噪声问题时默认数据集是平衡的

而在现实中,数据往往是不平衡的,具体表现为长尾分布,即其中一小部分类具有大量样本,但其他类仅有少数样本相关

而当噪声标签和长尾分布同时存在时,一方面,由于尾部本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于二维度量的两阶段样本选择方法,其特征在于,包括:将数据样本根据其观测标签的类别进行分离归类,得到若干同类数据样本构成的子数据集;计算每个子数据集中的数据样本在标签空间维度和特征空间维度的数据分布;计算每个子数据集中的数据样本在标签空间维度和特征空间维度的均值和方差,确定数据样本最优分离维度;根据数据样本在最优分离维度的差异性,将数据样本分离为干净样本集合和噪声样本集合
。2.
如权利要求1所述的基于二维度量的两阶段样本选择方法,其特征在于,所述数据样本为图像分类数据样本
。3.
如权利要求1所述的基于二维度量的两阶段样本选择方法,其特征在于,所述计算每个子数据集中的数据样本在标签空间维度和特征空间维度的数据分布包括:计算每个所述子数据集中的数据样本的加权
JS
散度,得到其在所述标签空间维度的数据分布;计算每个所述子数据集中的数据样本的自适应高置信度阈值质心距离,得到其在所述特征空间维度的数据分布
。4.
如权利要求3所述的基于二维度量的两阶段样本选择方法,其特征在于,所述加权
JS
散度的计算公式为:
WJSD(
i
)

(X
i
)
×
JSD(x
i
)
其中,
JSD(x
i
)

JS
散度,
W(x
i
)

JS
散度中的权重;具体的,所述加权
JS
散度中的
JS
散度计算公式为:其中,
p
i
为数据样本
x
i
的模型预测置信度,为数据样本
x
i
的观测标签,
KL(
·
||
·
)

KL
散度;具体的,所述加权
JS
散度中的权重计算公式为:其中,为数据样本
x
i
所在观测类样本集
D
c
的预测置信度平均值,和分别是对应预测置信度在第
c
类上的置信度分量
。5.
如权利要求3所述的基于二维度量的两阶段样本选择方法,其特征在于,所述自适应高置信度阈值质心距离的计算公式为:
ACD(x
i
)

cos(f
i
,o
c
)
其中,
f
i
为样本
x
i
的特征,
o
c
为高置信度质心;具体的,所述自适应高置信度阈值质心距离中的高置信度质心计算公式为:
其中,为高置信度样本集;具体的,所述...

【专利技术属性】
技术研发人员:卢杨张易亮王菡子
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1