当前位置: 首页 > 专利查询>吉林大学专利>正文

一种边界合成、混合采样、异常检测算法及数据分类方法技术

技术编号:24458646 阅读:58 留言:0更新日期:2020-06-10 16:19
本发明专利技术公开了一种边界合成算法,涉及不平衡数据的分类技术领域,包括以下步骤:设原始训练数据集为D,正类样本集为P,正类样本数目为pnum,负类样本集为N;步骤一,通过BSMOTE算法将正类样本集为P分成噪声样本集、边界样本集和安全样本集;步骤二,在给定过采样率ratio的情况下,训练数据集需合成新样本的数量G得以确定,为每个正类边界样本赋予采样权值ω

An algorithm of boundary synthesis, mixed sampling, anomaly detection and data classification

【技术实现步骤摘要】
一种边界合成、混合采样、异常检测算法及数据分类方法
本专利技术涉及不平衡数据的分类
,具体是一种边界合成、混合采样、异常检测算法及数据分类方法。
技术介绍
分类是数据挖掘和机器学习中重要的知识获取手段之一,经典的分类算法通常是基于数据集平衡这一假设而提出的,而在实际应用中,许多数据集是不平衡的,并且少数类数据有时更重要,将其错分要付出更大的代价,如信用卡欺诈检测、医疗诊断、垃圾邮件判别等。因此,以总体分类精度为学习目标的传统分类算法并不适用于不平衡数据的分类,研究如何提高分类器对不平衡数据的分类效果有着重要的意义。近年来,许多学者在多个领域如文本分类、欺诈检测、故障诊断、无线传感器入侵检测、医疗诊断、推荐系统中根据用户点击进行分析等方面研究了不平衡数据的分类问题。目前,主要有两个方法去解决这一问题,第一种方法是从数据的角度出发,对原始的训练数据进行重采样,使数据分布较为平衡;第二种是从分类算法的角度出发,考虑分类器对不平衡数据分类的缺陷和误分类的代价对分类算法进行改进,使得新的分类算法可以在不平衡数据集上取得较好的分类效果。...

【技术保护点】
1.一种边界合成算法,其特征在于,包括以下步骤:/n设原始训练数据集为D,正类样本集为P,正类样本数目为pnum,负类样本集为N;/n步骤一,通过BSMOTE算法将正类样本集P分成噪声样本集、边界样本集和安全样本集;/n步骤二,在给定过采样率ratio的情况下,训练数据集需合成新样本的数量G得以确定,为每个正类边界样本赋予采样权值ω

【技术特征摘要】
1.一种边界合成算法,其特征在于,包括以下步骤:
设原始训练数据集为D,正类样本集为P,正类样本数目为pnum,负类样本集为N;
步骤一,通过BSMOTE算法将正类样本集P分成噪声样本集、边界样本集和安全样本集;
步骤二,在给定过采样率ratio的情况下,训练数据集需合成新样本的数量G得以确定,为每个正类边界样本赋予采样权值ωj,由ωj与G得到每一个正类边界样本应合成新样本的数目gj;
步骤三,将步骤二所得的gj个新样本与噪声样本集、安全样本集和负类样本集共同组成平衡的训练数据集。


2.根据权利要求1所述的一种边界合成算法,其特征在于,所述采样权值ωj为:



式中,dsumpj为正类边界样本到它m最近邻中各个正类样本距离之和,m为正类样本在原始训练数据集D中的最近邻数量,m'为正类样本最近邻中负类样本的数量。


3.一种混合采样算法,其特征在于,包括以下步骤:
设原始训练数据集为D,正类样本集为P,正类样本数目为pnum,负类样本集为N;
步骤一,使用欠采样方法和如上述所述的自适应边界合成算法分别对负类样本集和正类样本集进行重新采样;
步骤二,得到若干个平衡数据子集;
步骤三,以AdaBoost算法为基分类器Gt(x),对若干个平衡数据子集进行处理,并为基分类器引入关于F1值的分类误差率εt',并以分类误差率εt'计算基分类器Gt(x)的权值αt;
步骤四,将若干个平衡数据子集的处理结果汇总与原始训练数据集合并后输出。


4.根据权利要求3所述的一种混合采样算法,其特征在于,所述分类误差率εt'为:
εt'=εt*(1-F1t),式中,F1t为第t次迭代时基分类器Gt(x)分类后的F1值。


5.根据权利要求4所述的一种混合采样算法,其特征在于,所述基分类器Gt(x)的权值αt为:


6.根据权利要求5所述的一种混合采样算...

【专利技术属性】
技术研发人员:张丽翠王茹雪王鹏程王剑镁张春霞刘淑岐
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1