一种基于支持向量机的数据分类方法及系统技术方案

技术编号:31758214 阅读:20 留言:0更新日期:2022-01-05 16:41
本发明专利技术公开了一种基于支持向量机的数据分类方法及系统,包括以下步骤:获取待分类数据,采用改进投票率的基于完全随机森林的噪声滤波学习方法进行数据清洗去除待分类数据中的噪声,得到无噪声待分类数据集;对无噪声待分类数据集进行线性映射,得到无噪声线性数据集,通过将惩罚系数设置为其取值范围内的最大值来修正SVM模型;将无噪声线性数据集作为支持向量机的训练集输入到修正后的SVM模型中进行训练和分类,得到数据的分类结果,通过优化投票机制改进了CRF

【技术实现步骤摘要】
一种基于支持向量机的数据分类方法及系统


[0001]本专利技术涉及数据分类
,尤其涉及一种基于支持向量机的数据分类方法及系统。

技术介绍

[0002]支持向量机(SVM)是机器学习领域中一种重要且广泛应用的二值模型分类器。原始支持向量机模型基于凸二次优化;因此,局部最优解代表全局最优解。支持向量机由于使用了结构风险最小化而不是经验风险最小化,因此具有很强的泛化能力。近年来,支持向量机得到了许多学者的广泛研究,并应用于能源、医学、生物工程等多个领域。
[0003]支持向量机分为:(1)线性可分的线性支持向量机;(2)线性不可分的线性支持向量机;(3)非线性支持向量机。当一些不可分的数据,如类噪声,也称为标签噪声或分类噪声,或离群值,被添加到线性可分数据中,数据就变得不可分。在这种情况下,需要两个参数,惩罚系数和松弛变量,使原始数据成为可分离的,在线性不可分的情况下代表线性SVM。然而,事实上,数据几乎是非线性的。由于核函数可以将原始空间映射到一个高维空间,其中的数据是线性的和可分离的,原来不可分的问题可以转化为一个可分离的问题。
[0004]分类器的验证精度是一个重要的参数。但是,原始数据中的噪声,尤其是类噪声,会导致的剪枝,增加的处理时间和分类模型的复杂度,降低分类器的预测精度。此外,许多分类器对类噪声的鲁棒性不强,需要花费大量精力来学习类噪声。因此,如果我们从训练集中去除类噪声,分类器的有效性可以得到显著提高。
[0005]有两种主要方法用于处理类噪声。第一种方法是采用鲁棒算法,鲁棒算法对类噪声具有鲁棒性。实际上,这种方法是选择一些对类噪声不敏感的算法。由于松弛变量的存在,线性支持向量机在线性不可分情况下对类噪声具有鲁棒性。还有许多其他健壮的算法,如LogitBoost、BrownBoost、AdaBoost等等。第二种方法是使用滤波器。将含有类噪声的数据集过滤后,转化为近似可分离的数据集,从而在数据训练中提高分类器的验证精度。
[0006]类噪声的存在是使原始数据不可分割的重要因素,严重影响分类器的验证精度。基于完全随机森林的类噪声滤波学习(CRF

NFL)是检测和去除类噪声的最先进的分类器。但该方法存在两个缺点:1)投票机制没有优化,不能提高分类器的验证精度;2)该方法不修改分类器本身,只关注不同分类器的组合。

技术实现思路

[0007]本专利技术所要解决的技术问题是如何提高支持向量机的分类精度,提出一种基于支持向量机的数据分类方法及系统,通过优化投票机制改进了CRF

NFL的投票机制,并将CRF

NFL和SVM结合,使得分类器对噪声样本能有更好的识别,使通用报告格式更有效地过滤类噪声,从而提高分类器的验证精度。
[0008]本专利技术通过下述技术方案实现:
[0009]一种基于支持向量机的数据分类方法,包括以下步骤:
[0010]S1、获取待分类数据,采用改进投票率的基于完全随机森林的噪声滤波学习方法进行数据清洗去除待分类数据中的噪声数据,得到无噪声待分类数据集;
[0011]S2、对无噪声待分类数据集进行线性映射,得到无噪声线性数据集,
[0012]S3、通过将支撑向量机中的惩罚系数设置为其取值范围内的最大值来修正SVM模型;
[0013]S4、将无噪声线性数据集作为支持向量机的训练集输入到修正后的SVM模型中进行训练,修正后的SVM模型对无噪声线性数据集进行分类,得到数据的分类结果。
[0014]现有的基于完全随机森林的类噪声滤波学习(CRF

NFL)是检测和去除类噪声的最先进的分类器,但此类分类器的验证精度不高,且CRF

NFL方法不修改分类器本身,只关注不同分类器的组合,因此,本专利技术通过将(CRF

NFL和SVM两种处理类噪声的方法结合,提出了一种基于完全随机森林的有效鲁棒的支持向量机,通过优化投票率改进了CRF

NFL的投票机制,可以使通用报告格式更有效地过滤类别噪声,从而提高分类器的验证精度。另外,通过将罚系数C设置为其取值范围内的最大值来修正SVM模型,将不可分离的SVM模型可以转化为可分离的模型,这不仅可以提高分类器的验证精度,由于将所有待分类的数据全部汇总为一个待训练数据集,这样在SVM模型中只对这个带训练数据集进行训练,只训练一次,不用划分为不同的数据集进行训练和验证,因此避免了耗时的交叉验证。
[0015]进一步地,步骤S1中,包括以下过程:
[0016]步骤S1中,包括以下过程:
[0017]S11、对待分类数据采用完全随机决策树CRDT方法构建完全随机森林CRF,其中,完全随机森林CRF中包括Ntree棵CRDT树;
[0018]S12、根据每棵CRDT树中每个节点数据的噪声强度值与噪声强度阈值NI的比较结果,得到每一棵CRDT树的类噪声初步检测结果,对类噪声初步检测结果进行投票汇总,得到类噪声初步检测投票结果VR,计算公式为:
[0019][0020][0021]其中,以二分类数据集为例,二分类数据集表示为D={(x1,y1),(x2,y2),

,(x
n
,y
n
)},x
i
表示第i个样本,y
i
∈{+1,1}表示第i个样本的标签;NI表示噪声强度阈值,t
k
(x
i
)表示第k棵完全随机树的类噪声初步检测结果;
[0022]S13、根据类噪声初步检测投票结果VR与完全随机森林CRF中完全随机树的总数Ntree的比值,得到投票百分比Vote:
[0023][0024]S14、设置投票百分比阈值VP∈(0,1),VP表示对应于最佳验证精度时的最佳投票百分比;
[0025]S15、对投票百分比和投票百分比阈值进行比较,对类噪声初步检测投票结果VR中初步标记为类噪声的样本进行类噪声的再次判定,过滤其中的噪声样本,得到无噪声待分
类数据集。
[0026]进一步地,S15中对投票百分比和投票百分比阈值进行比较的过程为:当类噪声初步检测投票结果VR中,初步标记为类噪声的节点的投票结果为:当投票百分比Vote大于等于投票百分比阈值VP时,投票结果为1且这个样本被标记为噪声样本,当投票百分比Vote小于投票百分比阈值VP时,投票结果为0这个样本被标记为无噪声待分类数据集。
[0027]进一步地,S3中将支撑向量机中的惩罚系数设置为28,惩罚系数C是调整雨量和验证精度的系数,C值越大,验证精度越高,C值越小,边界就越宽。
[0028]进一步地,S4中的具体过程为:将无噪声待分类数据集中的样本映射到一个高维特征空间H中,并在此高维特征空间H中选取一个合适的内积核函数,由此构建一个目标函数,根据目标函数将无噪声待分类数据集中的类噪声提取出来,所述目标函数为:
[0029][0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于支持向量机的数据分类方法,其特征在于,包括以下步骤:S1、获取待分类数据,采用改进投票率的基于完全随机森林的噪声过滤学习方法进行数据清洗去除待分类数据中的噪声数据,得到无噪声待分类数据集;S2、对无噪声待分类数据集进行线性映射,得到无噪声线性数据集,S3、通过将SVM模型中的惩罚系数设置为其取值范围内的最大值来修正SVM模型;S4、将无噪声线性数据集作为SVM模型的训练集输入到修正后的SVM模型中进行训练,修正后的SVM模型对无噪声线性数据集进行分类,得到数据的分类结果。2.根据权利要求1所述的一种基于支持向量机的数据分类方法,其特征在于,步骤S1中,包括以下过程:S11、对待分类数据采用完全随机树CRDT来构建完全随机森林CRF,其中,完全随机森林CRF中包括Ntree棵CRDT树;S12、根据每棵CRDT树中每个节点数据的噪声强度值与噪声强度阈值NI的比较结果,得到每一棵CRDT树的类噪声初步检测结果,对类噪声初步检测结果进行投票汇总,得到类噪声初步检测投票结果VR,计算公式为:声初步检测投票结果VR,计算公式为:其中,待分类数据表示为D={(x1,y1),(x2,y2),

,(x
n
,y
n
)},x
i
表示第i个样本,y
i
∈{+1,1}表示第i个样本的标签;NI表示噪声强度阈值,t
k
(x
i
)表示第k棵完全随机树的类噪声初步检测结果;S13、根据类噪声初步检测投票结果VR与完全随机森林CRF中完全随机树的总数Ntree的比值,得到投票百分比Vote:S14、设置投票百分比阈值VP∈(0,1),VP表示对应于最佳验证精度时的最佳投票百分比;S15、对投票百分比和投票百分比阈值进行比较,对类噪声初步检测投票结果VR中初步标记为类噪声的样本进行类噪声的再次判定,过滤其中的噪声样本,得到无噪声待分类数据集。3.根据权利要求2所述的一种基于支持向量机的数据分类方法,其特征在于,S15中对投票百分比和投票百分比阈值进行比较的过程为:当类噪声初步检测投票结果VR中,初步标记为类噪声的节点的投票结果为:当投票百分比Vote大于等于投票百分比阈值VP时,投票结果为1则这个样本被标记为噪声样本,当投票百分比Vote小于投票百分比阈值VP时,投票结果为0则这个样本被标记为无噪声待分类数据。4.根据...

【专利技术属性】
技术研发人员:王国胤周豪张勇付京成
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1