System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向类不平衡与重叠数据分类的半监督学习欠采样方法技术_技高网

面向类不平衡与重叠数据分类的半监督学习欠采样方法技术

技术编号:42601438 阅读:30 留言:0更新日期:2024-09-03 18:12
本发明专利技术涉及面向类不平衡与重叠数据分类的半监督学习欠采样方法,通过样本伪标签生成;根据生成的样本伪标签,进行样本重叠区域检测;根据检测到的样本重叠区域,进行最近邻的欠采样。本发明专利技术根据数据类别不同和属性差异引入了多元分层打伪标签策略并结合单类支持向量机算法和标签传播算法形成双重验证机制,提高伪标签的准确性;同时本发明专利技术的多元分层框架通过充分利用数据分布规律,提供了更稳定和精确的伪标签标注,该框架不仅适用于复杂领域的半监督学习,还拓展了半监督学习在不平衡和重叠耦合情况下数据处理的新应用方向。

【技术实现步骤摘要】

本专利技术属于数据分类,尤其是面向类不平衡与重叠数据分类的半监督学习欠采样方法


技术介绍

1、类不平衡分类是一个难题,不仅传统的分类器更偏向于大多数类,容易产生错误的预测,而且现有的算法往往难以解决类重叠的这类问题。过采样是一种广泛使用的获取不平衡数据平衡样本的有效方法,但现有的过采样方法往往由于参考样本的选择不当而导致更严重的类重叠。

2、对于分类器来说,不平衡和重叠构成了一个相当困难的场景。

3、数据级和算法级的方法已经被用来尝试解决这种耦合问题。前者侧重于预处理以平衡样本并消除重叠,而后者则引导分类器偏向少数或重叠样本。总的来说,前者的适用范围更广,很好地解决了类不平衡问题。然而,不平衡和重叠耦合更为复杂,对完成分类提出了很大的挑战。

4、过采样是基于现有样本特征的模式学习方法之一,特别针对分类任务,其效果高度依赖于足够的已知信息。然而,在实际操作中,只有部分样本被标注,而其他样本缺乏标注信息,这对于过采样来说是一个非常棘手的问题。显然,基于监督学习的过采样方法已经不再适用。

5、类不平衡和类重叠相互关联,给分类带来挑战。现有解决这一问题的方法包括数据级方法和算法级方法,其中重采样是广泛应用的数据级方法。然而,现有采样方法在处理缺乏标签信息的情况下存在难题。


技术实现思路

1、本专利技术的目的在于克服现有技术的不足,提出面向类不平衡与重叠数据分类的半监督学习欠采样方法,无需人工设置参数,更好地适应不同数据集提供了可解释和可重现的重叠样本识别结果,有助于指导采样和训练分类器。

2、本专利技术解决其技术问题是采取以下技术方案实现的:

3、面向类不平衡与重叠数据分类的半监督学习欠采样方法,包括以下步骤:

4、步骤1、根据数据类别不同和属性差异引入了多元分层打伪标签策略并结合单类支持向量机算法和标签传播算法形成双重验证机制,生成样本伪标签;

5、步骤2、根据步骤1中生成的样本伪标签,进行样本重叠区域检测;

6、步骤3、根据步骤2中检测到的样本重叠区域,进行最近邻欠采样。

7、而且,所述步骤1包括以下步骤:

8、步骤1.1、通过单类支持向量机ocsvm将样本集划分为内部样本和远离边界样本;

9、步骤1.2、使用拉格朗日公式计算决策函数,分别寻找不同类别样本的决策边界;

10、步骤1.3、根据决策边界得到样本的预测结果,同时得到部分伪标签数据集;

11、步骤1.4、根据剩余的非步骤1.3得到的部分伪标签数据集,使用标签传播算法针对不同类别样本分别学习,获得剩余部分伪标签数据集;

12、步骤1.5、引入双重验证机制,对步骤1.3和步骤1.4获得的两组伪标签样本进行交集筛选验证,确定完整样本的伪标签数据集。

13、而且,所述步骤1.2中拉格朗日公式计算决策函数的具体实现方法为:

14、

15、其中,为对偶问题的解,为样本,为偏移量。

16、而且,所述步骤1.3中得到的部分伪标签数据集为:

17、;

18、其中,是多数类样本集,包括已知标签多数类和无标签样本集中部分伪标签为0的多数类,是少数类样本集,包括已知标签少数类和无标签样本集中部分伪标签为1的少数类,将无标签样本集中部分伪标签为0的多数类和为1的少数类合并成为,为剩余无标签样本集,为删除掉已打伪标签样本。

19、而且,所述步骤1.5的具体实现方法为:将步骤1.3和步骤1.4得到的两个伪标签样本集采取数学验证方法,取交集,对于标签进行双重验证,得到最终的确定伪标签样本集:

20、;

21、其中,为完整伪标签数据集的标签值,,而对于非交集区域的样本,直接采用清洗ncl方法,删除该区域样本。

22、而且,所述步骤2包括以下步骤:

23、步骤2.1、根据步骤1中得到的样本伪标签,构造最小生成树;

24、步骤2.2、通过最小生成树进行样本重叠区域检测。

25、而且,所述步骤3包括以下步骤:

26、步骤3.1、首先在重叠区域内部优先保护少数类样本;

27、步骤3.2、计算少数类样本的每个样本示例到其同类最近邻的距离;

28、步骤3.3、计算少数类样本的每个样本示例到对应不同类最近邻的距离;

29、步骤3.4、判断若步骤3.2中计算的距离大于等于步骤3.3中计算的距离,则删除步骤3.3中所连接的非同类样本点,否则留下步骤3.3中所连接的非同类样本点;

30、步骤3.5、遍历剩余样本,直至计算完输入的所有样本。

31、本专利技术的优点和积极效果是:

32、本专利技术通过样本伪标签生成;根据生成的样本伪标签,进行样本重叠区域检测;根据检测到的样本重叠区域,进行最近邻的欠采样。本专利技术根据数据类别不同和属性差异引入了多元分层打伪标签策略并结合单类支持向量机算法和标签传播算法形成双重验证机制,提高伪标签的准确性;同时本专利技术的多元分层框架通过充分利用数据分布规律,提供了更稳定和精确的伪标签标注,该框架不仅适用于复杂领域的半监督学习,还拓展了半监督学习在不平衡和重叠耦合情况下数据处理的新应用方向。针对类不平衡和重叠耦合的问题,本专利技术采用最小生成树策略,寻找在决策边界附近的不同类别样本,构建重叠区域的同时对于少数类样本的分布情况进行有针对性的欠采样处理。

本文档来自技高网...

【技术保护点】

1.面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1包括以下步骤:

3.根据权利要求2所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1.2中拉格朗日公式计算决策函数的具体实现方法为:

4.根据权利要求3所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1.3中得到的部分伪标签数据集为:

5.根据权利要求4所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1.5的具体实现方法为:将步骤1.3和步骤1.4得到的两个伪标签样本集采取数学验证方法,取交集,对于标签进行双重验证,得到最终的确定伪标签样本集:

6.根据权利要求1所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤2包括以下步骤:

7.根据权利要求1所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤3包括以下步骤:

...

【技术特征摘要】

1.面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1包括以下步骤:

3.根据权利要求2所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1.2中拉格朗日公式计算决策函数的具体实现方法为:

4.根据权利要求3所述的面向类不平衡与重叠数据分类的半监督学习欠采样方法,其特征在于:所述步骤1.3中得到的部分伪标签数据集为:...

【专利技术属性】
技术研发人员:隋翯顾兆军扬雪影王双周景贤刘春波李志平于灏宋文莉陈佳
申请(专利权)人:中国民航大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1