基于层次聚类和改进SMOTE的过采样方法技术

技术编号:26343528 阅读:102 留言:0更新日期:2020-11-13 20:46
本发明专利技术公开了一种基于层次聚类和改进SMOTE的过采样方法,其特征在于,包括如下步骤:1)划分少数类簇;2)确定采样权重和概率分布;3)限制合成样本的生成区域;这种方法在不平衡数据处理上,能降低噪音干扰、减少合成重叠样本,对容易错分的边缘样本加以选择,兼顾类内不平衡及生成样本点的分布,最终提升分类性能。

Oversampling method based on hierarchical clustering and improved smote

【技术实现步骤摘要】
基于层次聚类和改进SMOTE的过采样方法
本专利技术涉及不平衡数据的分类技术,具体是一种基于层次聚类和改进SMOTE的过采样方法。
技术介绍
在现实生活中有很多不平衡数据的分类应用场景,如信用卡欺诈检测、信息检索和过滤、市场分析等场景。采用传统分类算法对不平衡数据进行分类,分类结果会倾向于多数类,出现分类失误的情况,数据集的不平衡状态又细分为两种:类间不平衡和类内不平衡,都会对模型性能造成影响。传统分类算法中过采样方法中存在合成样本重叠以及样本分布“边缘化”的问题也是分类性能下降的原因。因此如何改进传统算法解决数据集不平衡分类问题并提高分类性能是数据挖掘和机器学习的研究热点。最常用的过采样方法是Chawla等2002年提出的SMOTE算法,算法思路是通过寻找样本的近邻集,在样本点与其近邻集随机选择的样本连线上合成新的样本点。HanHui等人在2005年提出了Borderline-SMOTE算法,该算法将少数类样本分为边界区域、安全区域、危险区域,通过选择边界区域的样本点进行样本合成,避免了SMOTE不加区别地选择少数类样本而导致大量的冗本文档来自技高网...

【技术保护点】
1.一种基于层次聚类和改进SMOTE的过采样方法,其特征在于,包括如下步骤:/n1)划分少数类簇:采用AGNES算法对样本进行聚类,将数据集划分成类簇,包括:/n1-1)给定原始数据集I,采用K近邻的思想过滤数据集I中的噪声样本,设定K=5,遍历I中的样本,若I中样本的K个近邻中超过4/5的样本为该选取样本的相反样本类别,则判定该样本为噪声样本,剔除该噪声样本,将剩下的样本点组成样本集合I′;/n2-1)对样本集合I′中的多数类样本先进行聚类,将每个样本看成单独的类簇,采用公式(1)计算簇间距离,合并距离最近的两类簇,重复上述过程直到达到预设阈值T

【技术特征摘要】
1.一种基于层次聚类和改进SMOTE的过采样方法,其特征在于,包括如下步骤:
1)划分少数类簇:采用AGNES算法对样本进行聚类,将数据集划分成类簇,包括:
1-1)给定原始数据集I,采用K近邻的思想过滤数据集I中的噪声样本,设定K=5,遍历I中的样本,若I中样本的K个近邻中超过4/5的样本为该选取样本的相反样本类别,则判定该样本为噪声样本,剔除该噪声样本,将剩下的样本点组成样本集合I′;
2-1)对样本集合I′中的多数类样本先进行聚类,将每个样本看成单独的类簇,采用公式(1)计算簇间距离,合并距离最近的两类簇,重复上述过程直到达到预设阈值Th,得到若干多数类簇集合



其中,x和y分别为类簇Ca和Cb中的样本点,|Ca|和|Cb|表示类簇中总的样本数目;
3-1)再根据得到的多数类簇集合划分少数类样本,同样将少数类样本看成一个个单独的类簇,得到少数类簇集合
4-1)由公式(1)计算两两少数簇间的距离,令Dmin=d(Ca,Cb)并记录下最小距离Dmin及对应的类簇编号a和b;
5-1)遍历多数类簇集合,找到多数簇满足到少数类簇和的距离均小于两少数类簇最小距离Dmin,将这些多数类簇加入集合B中;
6-1)如果则少数类簇和不进行合并,并将集合B中元素清空,否则,将少数类簇和合并成少数类簇则少数类簇集合A中将减少一个元素;
7-1)重新依据公式(1)计算集合A中少数类簇与剩余少数类簇间的距离,重复步骤3-1)至步骤6-1),直到距离最近的少数类簇间的欧式距离大于阈值Th,停止少数类簇的合并,得到最终的少数类簇集合
设置距离阈值Th,判断是否做类簇合并,先定义一个值distavg:



其中,xp和xq同为少数类簇中的样本点,为该类簇中总的样本数目,distavg表示某一少数类簇中两两样本的距离的中位距离总和的平均值,再定义阈值Th如公式(3)所示:...

【专利技术属性】
技术研发人员:王鑫杨悦覃琴卢雨琪
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1