【技术实现步骤摘要】
本专利技术涉及数据分类,更具体的说是涉及基于过采样和改进ssa算法的不平衡数据分类方法及系统。
技术介绍
1、目前,在数据科学领域,分类是一项具有挑战性的任务,许多来自数据挖掘和机器学习领域的模型被提出以处理复杂的数据;大部分分类算法仅聚焦于数据分布较为平衡的数据集进行分类。
2、但是,现实生活中,数据集中不同类别的样本数量很难大致相同且误分类代价也不同,传统的机器学习算法在分类时通常以追求高准确率为目标而忽略少数类样本,分类模型的误分类概率会大大增加,因此,一昧地追求分类准确率的svm改进策略并不适用于不平衡数据。例如,信用卡非法交易与正常交易,信用卡非法交易在银行交易中仅占一小部分,但却会给社会带来极大的损失,利用现有机器学习模型很难在大数据中准确识别出信用卡非法交易。
3、对数据进行预处理成为处理不平衡数据的主要方法,通过采样的方式将不平衡数据转为平衡数据,过采样是一种通过将少数类数据增多以达到数据平衡的技术。smote算法以及borderline-smote算法,有效解决了过采样算法的盲目性采样问题。但是
...【技术保护点】
1.基于过采样和改进SSA算法的不平衡数据分类方法,其特征在于,包括:
2.根据权利要求1所述的基于过采样和改进SSA算法的不平衡数据分类方法,其特征在于,得到平衡数据集的具体过程为:
3.根据权利要求2所述的基于过采样和改进SSA算法的不平衡数据分类方法,其特征在于,基于所述最近邻样本对所述少数类样本进行归类,具体包括:
4.根据权利要求2所述的基于过采样和改进SSA算法的不平衡数据分类方法,其特征在于,对所述待处理样本进行过采样前,还包括:
5.根据权利要求4所述的基于过采样和改进SSA算法的不平衡数据分类方法,其特
...【技术特征摘要】
1.基于过采样和改进ssa算法的不平衡数据分类方法,其特征在于,包括:
2.根据权利要求1所述的基于过采样和改进ssa算法的不平衡数据分类方法,其特征在于,得到平衡数据集的具体过程为:
3.根据权利要求2所述的基于过采样和改进ssa算法的不平衡数据分类方法,其特征在于,基于所述最近邻样本对所述少数类样本进行归类,具体包括:
4.根据权利要求2所述的基于过采样和改进ssa算法的不平衡数据分类方法,其特征在于,对所述待处理样本进行过采样前,还包括:
5.根据权利要求4所述的基于过采样和改进ssa算法的不平衡数据分类方法,其特征在于,过采样具体过程为:
6.根据权利要求1所述的基于...
【专利技术属性】
技术研发人员:强睿儒,赵小强,刘凯,柳勇勇,顾鹏,张亚洲,柴靖轩,徐珂,赵春雨,孙凯文,
申请(专利权)人:兰州理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。