基于过采样和改进SSA算法的不平衡数据分类方法及系统技术方案

技术编号:41377492 阅读:40 留言:0更新日期:2024-05-20 10:20
本发明专利技术公开了基于过采样和改进SSA算法的不平衡数据分类方法,包括:S1获取不平衡数据集并进行过采样,得到平衡数据集;S2基于平衡数据集进行归一化和编码操作,得到编码特征;S3基于改进SSA算法对编码特征和初始化的SVM参数进行个体位置更新,得到个体适应度和平均适应度;S4基于个体适应度和平均适应度,通过高斯变异或混沌扰动选取最优个体,基于最优个体进行个体位置更新;S5迭代执行S3~S4,直至迭代次数大于第一阈值,基于最后输出的最优个体得到SVM最优参数和优选编码特征;S6将SVM最优参数和优选编码特征输入至SVM模型,得到分类结果。有效扩充了数据、减少过拟合问题并提升了不平衡数据的分类效率。

【技术实现步骤摘要】

本专利技术涉及数据分类,更具体的说是涉及基于过采样和改进ssa算法的不平衡数据分类方法及系统。


技术介绍

1、目前,在数据科学领域,分类是一项具有挑战性的任务,许多来自数据挖掘和机器学习领域的模型被提出以处理复杂的数据;大部分分类算法仅聚焦于数据分布较为平衡的数据集进行分类。

2、但是,现实生活中,数据集中不同类别的样本数量很难大致相同且误分类代价也不同,传统的机器学习算法在分类时通常以追求高准确率为目标而忽略少数类样本,分类模型的误分类概率会大大增加,因此,一昧地追求分类准确率的svm改进策略并不适用于不平衡数据。例如,信用卡非法交易与正常交易,信用卡非法交易在银行交易中仅占一小部分,但却会给社会带来极大的损失,利用现有机器学习模型很难在大数据中准确识别出信用卡非法交易。

3、对数据进行预处理成为处理不平衡数据的主要方法,通过采样的方式将不平衡数据转为平衡数据,过采样是一种通过将少数类数据增多以达到数据平衡的技术。smote算法以及borderline-smote算法,有效解决了过采样算法的盲目性采样问题。但是无法避免过采样后会发本文档来自技高网...

【技术保护点】

1.基于过采样和改进SSA算法的不平衡数据分类方法,其特征在于,包括:

2.根据权利要求1所述的基于过采样和改进SSA算法的不平衡数据分类方法,其特征在于,得到平衡数据集的具体过程为:

3.根据权利要求2所述的基于过采样和改进SSA算法的不平衡数据分类方法,其特征在于,基于所述最近邻样本对所述少数类样本进行归类,具体包括:

4.根据权利要求2所述的基于过采样和改进SSA算法的不平衡数据分类方法,其特征在于,对所述待处理样本进行过采样前,还包括:

5.根据权利要求4所述的基于过采样和改进SSA算法的不平衡数据分类方法,其特征在于,过采样具体过...

【技术特征摘要】

1.基于过采样和改进ssa算法的不平衡数据分类方法,其特征在于,包括:

2.根据权利要求1所述的基于过采样和改进ssa算法的不平衡数据分类方法,其特征在于,得到平衡数据集的具体过程为:

3.根据权利要求2所述的基于过采样和改进ssa算法的不平衡数据分类方法,其特征在于,基于所述最近邻样本对所述少数类样本进行归类,具体包括:

4.根据权利要求2所述的基于过采样和改进ssa算法的不平衡数据分类方法,其特征在于,对所述待处理样本进行过采样前,还包括:

5.根据权利要求4所述的基于过采样和改进ssa算法的不平衡数据分类方法,其特征在于,过采样具体过程为:

6.根据权利要求1所述的基于...

【专利技术属性】
技术研发人员:强睿儒赵小强刘凯柳勇勇顾鹏张亚洲柴靖轩徐珂赵春雨孙凯文
申请(专利权)人:兰州理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1