System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于对抗性策略的过采样方法技术_技高网
当前位置: 首页 > 专利查询>西北大学专利>正文

一种基于对抗性策略的过采样方法技术

技术编号:41327700 阅读:2 留言:0更新日期:2024-05-13 15:05
本发明专利技术公开了一种基于对抗性策略的过采样方法,基于对抗性生成网络和SMOTE方法;使用SMOTE和CTGAN方法结合进行过采样,并通过对抗信息来进行去噪,从而可以使数据在重采样的过程中充分考虑到预测样本的数据分布,从而可以更加精确和稳健地通过少量正样本的数据训练出精确度高的预测模型。将二者结合进行数据增强,通过对抗性过滤,能够生成更多、更具代表性的实例,从而大幅度解决了数据不平衡问题。此外,本发明专利技术的基于对抗信息的噪声滤波机制,通过真实数据的数据分布进行噪声数据去除,保证数据的质量,并提高了分类模型的准确度,适于工业上大规模使用与推广。

【技术实现步骤摘要】

本专利技术属于机器学习领域,特别涉及一种基于对抗性策略的过采样方法


技术介绍

1、分类算法作为机器学习的关键技术,能够构建高效的分类器,提取数据中的有效信息。传统分类方法通常是在数据集各个类别样本数据的数量与信息量相同的情况下进行数据处理,但现实情况中大多数且越来越多的数据集都有着不平衡的特点。因此对不平衡数据集的分类成为机器学习中一项广泛且具有挑战性的任务。

2、现有技术中的过采样通常使用smote,因其具备良好的性能,并且由于其简单性和鲁棒性,处理不平衡数据集方面取得了成功。然而,经典smote在某些特定场景中有几个缺点。首先是在进行smote采样前未针对要过采样的示例的初始选择进行改进,会导致过采样后影响数据真实分布。其次,smote采样后会产生噪声传播问题,还需要进一步去除噪声。总的来说,现有的过采样方法在处理不平衡数据集时,存在准确性和稳健性不足的缺点,且处理后易产生噪声。


技术实现思路

1、本专利技术的目的在于,提供一种基于对抗性策略的过采样方法,以解决现有技术在处理不平衡数据集时,准确性和稳健性不足,且处理后易产生噪声的问题。

2、为了解决上述技术问题,本专利技术采用如下技术方案予以实现:

3、一种基于对抗性策略的过采样方法,包括以下步骤,

4、步骤1,选择初始数据集,使用smote方法对初始数据集进行数据平衡,获得平衡后数据集。

5、步骤2,将平衡后数据集输入ctgan数据生成器,生成新样本数据集。>

6、步骤3,将平衡后数据集和新样本数据集合并,使用lgbmclassifier分类器与初始数据集进行对抗训练,获得合并后数据的对抗信息值。

7、步骤4,确定对抗阈值,根据对抗阈值对对抗信息值处理,确定类别平衡并且具有测试集少数类样本特征的新样本。

8、本专利技术还具有以下特征:

9、进一步地,步骤1包括以下子步骤;

10、步骤11,选择用于训练的公开数据集作为初始数据集t,将初始数据集分为多数类样本和少数类样本;

11、步骤12,随机选择一个少数类样本,按欧式距离确定其所有近邻;

12、步骤13,使用下式,遍历本次选择的少数类样本的所有近邻,获得本次选择的少数类样本的平衡后数据;

13、ni=si+μ×(s′i-si)

14、其中,

15、si表示第i个少数类样本;

16、s′i表示si的任意一个近邻;

17、μ表示随机数;

18、ni表示第i个少数类样本与任意一个近邻数据平衡后的数据;

19、步骤14,选择一个未确定近邻的少数类样本,按欧氏距离确定其所有近邻;重复步骤13,直至所有少数类样本都已遍历;

20、步骤15,将初始数据集t与所有平衡后数据合并,得到平衡后数据集t-smo。

21、进一步地,μ表示0和1之间的随机数。

22、进一步地,步骤2中,将平衡后数据集t-smo输入数据生成器ctgan,通过过采样方法进行深度训练,生成新样本数据集,记作t-gan。

23、进一步地,步骤3包括以下子步骤;

24、步骤31,将t-gan和t-smo合并,获得合并后数据集t-com;

25、步骤32,将t-com中的所有数据均标记为正样本,t中的所有数据均标记为负样本,使用lgbmclassifier分类器令t-com与t进行对抗性训练,使用下式,获得生成所有数据的对抗信息;

26、

27、其中,

28、g(xi)表示第i个输入样本的对抗信息值;

29、xi表示第i个输入样本的特征向量;

30、f(xi)表示第i个输入样本模型输出的得分值;

31、p(xi)表示第i个输入样本的对抗信息值;

32、进一步地,步骤4包括以下子步骤;

33、步骤41,设置对抗阈值λ;

34、步骤42,将所有对抗信息值由高到低进行排序,使用对抗阈值进行筛选,得到类别平衡并且具有测试集少数类样本特征的新样本。

35、进一步地,λ的取值为0.8。

36、本专利技术与现有技术相比,具有如下技术效果:

37、本专利技术的基于对抗性策略的过采样方法,基于对抗性生成网络和smote方法;使用smote和ctgan方法结合进行过采样,并通过对抗信息来进行去噪,从而可以使数据在重采样的过程中充分考虑到预测样本的数据分布,从而可以更加精确和稳健地通过少量正样本的数据训练出精确度高的预测模型。将二者结合进行数据增强,通过对抗性过滤,能够生成更多、更具代表性的实例,从而大幅度解决了数据不平衡问题。此外,本专利技术的基于对抗信息的噪声滤波机制,通过真实数据的数据分布进行噪声数据去除,保证数据的质量,并提高了分类模型的准确度,适于工业上大规模使用与推广。

本文档来自技高网...

【技术保护点】

1.一种基于对抗性策略的过采样方法,其特征在于,包括以下步骤,

2.如权利要求1所述的基于对抗性策略的过采样方法,其特征在于,步骤1包括以下子步骤;

3.如权利要求2所述的基于对抗性策略的过采样方法,其特征在于,μ表示0和1之间的随机数。

4.如权利要求3所述的基于对抗性策略的过采样方法,其特征在于,步骤2中,将平衡后数据集T-smo输入数据生成器CTGAN,通过过采样方法进行深度训练,生成新样本数据集,记作T-gan。

5.如权利要求4所述的基于对抗性策略的过采样方法,其特征在于,步骤3包括以下子步骤;

6.如权利要求5所述的基于对抗性策略的过采样方法,其特征在于,步骤4包括以下子步骤;

7.如权利要求6所述的基于对抗性策略的过采样方法,其特征在于,λ的取值为0.8。

【技术特征摘要】

1.一种基于对抗性策略的过采样方法,其特征在于,包括以下步骤,

2.如权利要求1所述的基于对抗性策略的过采样方法,其特征在于,步骤1包括以下子步骤;

3.如权利要求2所述的基于对抗性策略的过采样方法,其特征在于,μ表示0和1之间的随机数。

4.如权利要求3所述的基于对抗性策略的过采样方法,其特征在于,步骤2中,将平衡后数据集t-smo输入...

【专利技术属性】
技术研发人员:何雪磊陈家辉蔡盛梅侯榆青贺小伟
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1