【技术实现步骤摘要】
基于K-means改进的SMOTE算法
本专利技术涉及SMOTE算法、K-means算法、不平衡数据集的处理及其应用
,尤其是用来实现不平衡数据集的基于K-means改进的SMOTE算法。
技术介绍
SMOTE算法的出现,改进了处理非平衡数据中传统的随机过采样算法,可以有效地对非平衡数据进行纠偏,整体上提高了模型的精度,同时还很大程度上降低了模型的误识率,这是SMOTE算法的优点。其缺陷是没有消除噪声样本,无法确定建模效果的偏差,无法解决非平衡数据的分布问题,容易产生分布边缘化问题,对于边缘的少类样本,对其进行K近邻生成样本也位于边缘且会越来越边缘化,这会使得正负样本的边界越来越模糊,加大样本分类的难度。
技术实现思路
本专利技术是为了解决SMOTE算法无法消除噪声样本,容易产生分布边缘化问题,对于边缘的少类样本,对其进行K近邻生成样本也位于边缘且会越来越边缘化,这会使得正负样本的边界越来越模糊,加大样本分类的难度。实现本专利技术目的的具体技术方案是:首先使用K-mean使用算法通过 ...
【技术保护点】
1.基于K-means改进的SMOTE算法,其特征在于:通过K-means算法改进的SMOTE算法可以有效地改进不平衡数据集,提升少数类样本的分类精度,改进效果明显。/n
【技术特征摘要】
1.基于K-means改进的SMOTE算法,其特征在于:通过K-means算法改进的SMOTE算法可以有效地改进不平衡数据集,提升少数类样本的分类精度,改进效果明显。
2.根据权利要求1所述的基于K-means改进的SMOTE算法,其特征在于:首先使用K-mean使用算法通过对少数类数据进行聚类操作,选取每个聚类的簇心;这样相当于对少数类数据进行了一个数据的划分,使每个聚类中间的数据相似度最高,且分布均匀,接着修正SMOTE算法的过采样公式;修正后的过采样公式不需要对每一个数据样本选取它的K个最近邻,只需要以每一个簇心为核,每一个聚类内的数据样本为点,进行随机插值;由于在处理不同属性的数据时欧氏距离可能会受到变量量纲的影响,影响距离远近的判断;在本部分使用该方法时,首先对所有变量先进行标准化(即取值减去均值后除以标准差),然后运用该抽样方法得到抽样结果,最后再通过反向标准化(乘以标准差加上均值)进行数据还原,这样能够帮助模型更好地适应原始数据。
3.根据权利要求2所述的基于K-means改进的SMOTE算法,其特征在于:
(1)、对少数类样本运用基于K-means的聚类算法进行分析,由于基于密度的...
【专利技术属性】
技术研发人员:刘明山,于艳玲,周原,石伟诚,杜渐,
申请(专利权)人:吉林大学,
类型:发明
国别省市:吉林;22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。