当前位置: 首页 > 专利查询>三峡大学专利>正文

一种基于SVM的非平衡大规模数据集的训练方法技术

技术编号:41492948 阅读:29 留言:0更新日期:2024-05-30 14:38
本发明专利技术提供了一种基于SVM的非平衡大规模数据集的训练方法,该方法使用多次降采样及并行支持向量机即SVM的方式解决了大规模非平衡二分类数据集训练速度慢、模型性能低的问题;首先,对数据集进行分类,并找出少数类数据集与多数类数据集,再将少数类数据集保留,多次向多数类数据集进行无放回的随机采样,采样次数为少数类数据集总数,最终将采样得到的数据集和少数类数据集组成多份平衡数据集;其次,将各个平衡数据集分别输入到集群中的各个节点的支持向量机模型(SVM)中进行模型训练;最后,各个节点将输出各自训练的模型,以投票法预测测试样本数据结果,可以在同规模数据量情况下大幅度提模型升训练效率,并少量提升模型性能。

【技术实现步骤摘要】

本专利技术涉及计算机,特别是一种基于svm的非平衡大规模数据集的训练方法。


技术介绍

1、传统的支持向量机(svm)是一种基于统计学习理论的监督学习方法,它可以通过构造一个最优的超平面来实现对数据的分类或回归。传统的支持向量机(svm)主要用于处理二分类问题,即将数据分为两个类别,如判断一张图片中是否有人脸,或者判断一封邮件是否是垃圾邮件等。除此之外,传统的支持向量机(svm)也可以通过一些扩展方法来处理多分类问题和回归问题。多分类问题是指将数据分为多个类别,如识别手写数字,或者识别动物的种类等。回归问题是指预测一个连续的数值,如预测疾病的发病率,或者预测楼市的房价走势等。传统的支持向量机(svm)在这些问题上都有着广泛的应用和良好的效果,因此是一种非常强大和实用的机器学习算法;当数据规模很大时,传统的单机支持向量机(svm)的计算效率和性能会受到限制,因为它需要在单个机器上处理所有的数据和模型参数。这会导致模型训练时间以及模型的性能受到很大影响。

2、非平衡数据集是指数据集中不同类别的样本数量相差很大,例如,在信用卡欺诈检测中,正常交易的样本本文档来自技高网...

【技术保护点】

1.一种基于SVM的非平衡大规模数据集的训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于SVM的非平衡大规模数据集的训练方法,其特征在于,步骤S1中对所需训练的数据进行清洗、冗余数据剔除、将数据统一整合为固定格式并归一化处理包括:

3.根据权利要求1所述的一种基于SVM的非平衡大规模数据集的训练方法,其特征在于,步骤S2中进行正负样本比例对比,并输出若干个平衡数据集包括:

4.根据权利要求1所述的一种基于SVM的非平衡大规模数据集的训练方法,其特征在于,步骤S3中构建基于随机梯度下降优化的SVM模型并构建Flink集群包括:...

【技术特征摘要】

1.一种基于svm的非平衡大规模数据集的训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于svm的非平衡大规模数据集的训练方法,其特征在于,步骤s1中对所需训练的数据进行清洗、冗余数据剔除、将数据统一整合为固定格式并归一化处理包括:

3.根据权利要求1所述的一种基于svm的非平衡大规模数据集的训练方法,其特征在于,步骤s2中进行正负样本比例对比,并输出若干个平衡数据集包括:<...

【专利技术属性】
技术研发人员:蒋廷耀安超广涂光权李昭
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1