基于样本轮廓系数识别伪类型样本的不平衡数据采样算法制造技术

技术编号:41527136 阅读:9 留言:0更新日期:2024-06-03 23:01
本发明专利技术公开了一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,具体步骤为:首先基于马氏距离计算所有样本的样本轮廓系数值,通过设置正样本和负样本轮廓系数阈值θ<supgt;+</supgt;和θ<supgt;‑</supgt;筛选出伪类型样本(低于对应类别阈值的样本,包括伪负和伪正样本);针对其中的伪负样本,将其与最优正样本(轮廓系数最大的正样本)进行以不平衡比(IR)为插值参数的线性插值,在插值点上生成新正样本,并将伪负样本删除;针对伪正样本,同样计算出线性插值点,并移动到该插值点上。应用该算法对不平衡数据进行混合采样,不改变原数据集数据规模,并形成更加清晰的分类边界,可有效提升对不平衡数据集的分类性能。

【技术实现步骤摘要】

本专利技术属于机器学习中不平衡数据集重采样方法的,涉及一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法


技术介绍

1、科学技术的进步推动数字社会的发展,伴随大数据、物联网、人工智能等数字化基础设施的建构,数据呈爆炸式的速度增长,且分布在生产生活中的各个领域。如何挖掘和学习海量的数据成为研究热点,传统分类方法的应用前提是各类数据的容量相当,然而在我们日常生产生活中获取的数据具有各类数据分布不均衡的特点,即不平衡数据,数量较多的一类即负类样本,数据较少的一类即正类样本,由于数量上的差异性,导致分类器在学习时往往偏向于负类样本,但正类样本不仅包含更重要的信息,同时也伴随较高的误分类成本,充分学习其特性以及准确进行数据分类已成为亟待解决的研究课题。

2、不平衡数据普遍存在于各种现实世界的应用中,在金融领域,需要进行识别金融欺诈,市场营销;在医学领域,需要进行医学图像识别,疾病检测;在网络安全领域,需要进行网络入侵检测,垃圾信息识别;在工业领域,需要进行故障检测,商品合格检验]等。需要重点关注的异常类别,如欺诈信息、阳性病例、垃圾邮件、机器故障等本文档来自技高网...

【技术保护点】

1.一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,所述步骤1中划分比例为训练集:验证集是4:1。

3.根据权利要求1所述的一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,所述步骤2中样本xi与样本xj间的马氏距离计算公式为:

4.根据权利要求1所述的一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,所述步骤3中的识别伪类型样本的具体过程为:

5.根据权利要求1所述的一种基...

【技术特征摘要】

1.一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,所述步骤1中划分比例为训练集:验证集是4:1。

3.根据权利要求1所述的一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,所述步骤2中样本xi与样本xj间的马氏距离计算公式为:

4.根据权利要求1所述的一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,所述步骤3中的识别伪类型样本的具...

【专利技术属性】
技术研发人员:荆晓娜朱波黎魁邹艳华胡朋邱兰李润波
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1