【技术实现步骤摘要】
本专利技术属于机器学习中不平衡数据集重采样方法的,涉及一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法。
技术介绍
1、科学技术的进步推动数字社会的发展,伴随大数据、物联网、人工智能等数字化基础设施的建构,数据呈爆炸式的速度增长,且分布在生产生活中的各个领域。如何挖掘和学习海量的数据成为研究热点,传统分类方法的应用前提是各类数据的容量相当,然而在我们日常生产生活中获取的数据具有各类数据分布不均衡的特点,即不平衡数据,数量较多的一类即负类样本,数据较少的一类即正类样本,由于数量上的差异性,导致分类器在学习时往往偏向于负类样本,但正类样本不仅包含更重要的信息,同时也伴随较高的误分类成本,充分学习其特性以及准确进行数据分类已成为亟待解决的研究课题。
2、不平衡数据普遍存在于各种现实世界的应用中,在金融领域,需要进行识别金融欺诈,市场营销;在医学领域,需要进行医学图像识别,疾病检测;在网络安全领域,需要进行网络入侵检测,垃圾信息识别;在工业领域,需要进行故障检测,商品合格检验]等。需要重点关注的异常类别,如欺诈信息、阳性病例、
...【技术保护点】
1.一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,具体包括以下步骤:
2.根据权利要求1所述的一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,所述步骤1中划分比例为训练集:验证集是4:1。
3.根据权利要求1所述的一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,所述步骤2中样本xi与样本xj间的马氏距离计算公式为:
4.根据权利要求1所述的一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,所述步骤3中的识别伪类型样本的具体过程为:
5.根据权
...【技术特征摘要】
1.一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,具体包括以下步骤:
2.根据权利要求1所述的一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,所述步骤1中划分比例为训练集:验证集是4:1。
3.根据权利要求1所述的一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,所述步骤2中样本xi与样本xj间的马氏距离计算公式为:
4.根据权利要求1所述的一种基于样本轮廓系数识别伪类型样本的不平衡数据采样算法,其特征在于,所述步骤3中的识别伪类型样本的具...
【专利技术属性】
技术研发人员:荆晓娜,朱波,黎魁,邹艳华,胡朋,邱兰,李润波,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。