面向类不平衡与重叠数据分类的半监督学习欠采样方法技术

技术编号:42601438 阅读:39 留言:0更新日期:2024-09-03 18:12
本发明专利技术涉及面向类不平衡与重叠数据分类的半监督学习欠采样方法,通过样本伪标签生成;根据生成的样本伪标签,进行样本重叠区域检测;根据检测到的样本重叠区域,进行最近邻的欠采样。本发明专利技术根据数据类别不同和属性差异引入了多元分层打伪标签策略并结合单类支持向量机算法和标签传播算法形成双重验证机制,提高伪标签的准确性;同时本发明专利技术的多元分层框架通过充分利用数据分布规律,提供了更稳定和精确的伪标签标注,该框架不仅适用于复杂领域的半监督学习,还拓展了半监督学习在不平衡和重叠耦合情况下数据处理的新应用方向。

【技术实现步骤摘要】

本专利技术属于数据分类,尤其是面向类不平衡与重叠数据分类的半监督学习欠采样方法


技术介绍

1、类不平衡分类是一个难题,不仅传统的分类器更偏向于大多数类,容易产生错误的预测,而且现有的算法往往难以解决类重叠的这类问题。过采样是一种广泛使用的获取不平衡数据平衡样本的有效方法,但现有的过采样方法往往由于参考样本的选择不当而导致更严重的类重叠。

2、对于分类器来说,不平衡和重叠构成了一个相当困难的场景。

3、数据级和算法级的方法已经被用来尝试解决这种耦合问题。前者侧重于预处理以平衡样本并消除重叠,而后者则引导分类器偏向少数或重叠样本。总的来说,前者的适用范围更广,很好地解决了类不平衡问题。然而,不平衡和重叠耦合更为复杂,对完成分类提出了很大的挑战。

4、过采样是基于现有样本特征的模式学习方法之一,特别针对分类任务,其效果高度依赖于足够的已知信息。然而,在实际操作中,只有部分样本被标注,而其他样本缺乏标注信息,这对于过采样来说是一个非常棘手的问题。显然,基于监督学习的过采样方法已经不再适用。

5、类不平衡和类重叠相互本文档来自技高网...

【技术保护点】

1.面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1包括以下步骤:

3.根据权利要求2所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1.2中拉格朗日公式计算决策函数的具体实现方法为:

4.根据权利要求3所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1.3中得到的部分伪标签数据集为:

5.根据权利要求4所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其...

【技术特征摘要】

1.面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1包括以下步骤:

3.根据权利要求2所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1.2中拉格朗日公式计算决策函数的具体实现方法为:

4.根据权利要求3所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1.3中得到的部分伪标签数据集为:...

【专利技术属性】
技术研发人员:隋翯顾兆军扬雪影王双周景贤刘春波李志平于灏宋文莉陈佳
申请(专利权)人:中国民航大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1