System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于支持向量机和进化计算的过采样方法技术_技高网

一种基于支持向量机和进化计算的过采样方法技术

技术编号:41104136 阅读:2 留言:0更新日期:2024-04-25 13:59
本发明专利技术提供了一种基于支持向量机和进化计算的过采样方法,属于不平衡数据分类技术领域。本发明专利技术使用支持向量机自身的独特能力判别不同的少数类样本对决策边界的影响程度并以此为依据为它们分配合理的权重,从而进一步确定每个少数类样本生成的样本数量,避免了对人的经验的依赖。同时本发明专利技术采用了一种全新的方式即进化计算来生成样本,即使用了实数编码遗传算法自动生成新样本并搜索更优的替代方案,同时也强调了间隔对于分类的重要性,增加了对生成样本的评估机制,使用RCGA内置的评估机制以间隔作为衡量标准对生成样本进行评估,避免了传统样本生成方式的盲目性和局限性。

【技术实现步骤摘要】

本专利技术属于不平衡数据分类,涉及一种基于支持向量机和进化计算的过采样方法


技术介绍

1、在现实生活中,经常会遇到许多领域的不平衡数据,如故障检测、医疗诊断、生物信息学等方面,如何对不平衡数据进行合理的分类是一项具有挑战性的任务。不平衡数据是指来自不同类别的样本数量存在显著差异的数据。由于不均匀的数据分布,分类器会过度关注样本较多的类别(即多数类)而忽视样本较少的类别(即少数类),从而导致决策出现偏差。在现实生活中,误判少数类的代价可能远远高于误判多数类的代价,例如,在故障检测中,故障数据属于少数类,如果漏检故障,则很可能会造成巨大损失。

2、为解决不平衡数据分类问题,人们进行了大量研究,这些研究可分为两类:数据层面方法和算法层面方法。数据层面方法的目标是改善原始数据集不均匀分布并使其达到平衡,包括过采样、欠采样和混合采样方法等;算法层面方法的目标是改进现有的分类方法使其可以更好的处理不平衡数据或为不平衡数据设计新的分类方法,包括核方法、单类学习、代价敏感学习和集成学习等。

3、过采样方法是通过增加少数类样本的数量来消除类不平衡的一种方法,并已经被证明对不平衡数据分类问题有效,例如smote、borderline-smote、adasyn和mwmote等。虽然这些方法在解决不平衡数据分类问题取得了一定的效果,但仍存在一些局限性,具体如下:

4、(1)对不同样本的权重分配可能不准确。传统方法一般是基于少数类样本的k近邻样本的类别分布从而决定其权重,也存在一些方法考虑了其他的因素,例如mwmote考虑了closeness factor和density factor,但是这些因素都需要设置参数而依赖人的经验,很容易造成不准确。

5、(2)样本生成的范围有限。传统方法一般是在少数类样本和其邻居之间进行插值来生成新样本,也存在一些方法在此基础之上进行了一些改进,例如mwmote引入了聚类方法从而扩大了生成新样本的范围,但是这些方法生成的样本仍被限制在一定范围内,缺乏一定的探索性,并且可能出现生成样本不均匀分布的现象,从而不利于分类。

6、(3)对生成新样本的质量没有评估机制。传统方法对于生成新样本的质量没有任何的评估机制,无法对它们进行筛选,具有较大的盲目性,从而可能影响最终分类的效果。


技术实现思路

1、针对以上所提到的现有过采样方法存在的局限性,本专利技术提出了一种基于支持向量机(supportvectormachine,svm)和进化计算的过采样方法。本专利技术利用svm自身的独特能力判别少数类样本对决策边界不同的影响程度从而给它们分配合理的权重,大大提高了权重分配的准确性,并避免了噪声的影响;然后通过支持向量的指导来生成样本,确保生成样本位于最关键的区域,这一过程可有效纠正因类不平衡造成的决策边界偏斜问题,并使分类器有效识别少数类的边界;考虑到如果一个样本被错误分类,那么它很有可能位于不合适的区域。因此,为了避免引入噪声或加剧类重叠,使分类更加困难,被错误分类的样本则不被考虑。本专利技术采用了一种全新的方式即进化计算从而来生成样本,具体来说,使用了实数编码遗传算法(real-coded genetic algorithm,rcga)自动生成新样本并搜索更优的替代方案。基于rcga的特点,生成的样本更加多样化,从而缓解了传统方式生成样本分布不均的问题,而且通过rcga内置的评估机制来实现对生成样本的评估。此外,本专利技术还强调了间隔在数据分类中的重要性,并将其作为对生成样本评估的指标,上述改进有效克服了传统样本生成方式的局限性。本专利技术优化过程主要涉及两个阶段:

2、(1)数据预处理阶段:本阶段是为了确定不同少数类样本的权重值和间隔值。在本阶段,使用svm来判别不同少数类样本对决策边界的影响程度从而为它们分配相应的权重,权重的确定则是由svm的拉格朗日乘子所决定。具体地,首先对svm进行训练,然后通过训练好的svm来确定不同少数类样本相应的拉格朗日乘子并作为其权重值,从而来进一步决定每个少数类样本生成样本的数量,同时保存它们距离决策边界的间隔用于样本生成阶段。

3、(2)样本生成阶段:在本阶段,使用rcga生成所需的最佳样本,rcga可以自动的生成样本并搜索更优的替代方案,从而避免了传统方法的局限性,同时其适应度函数的评估指标是样本距离决策边界的间隔,并使用上一阶段保存的间隔作为评估标准。

4、为了达到上述目的,本专利技术采用的技术方案如下:

5、一种基于支持向量机和进化计算的过采样方法,具体步骤如下:

6、步骤1:数据预处理

7、这一阶段旨在识别对决策边界有关键影响的样本,具体过程如下:

8、1.1)使用分层抽样方法将现有数据集分成三个子集:训练集、验证集和测试集,以确保每个子集具有相同的类不平衡比率;其中验证集的作用是为了避免svm在训练过程中出现过拟合的情况。

9、1.2)考虑到svm是一种基于间隔最大化来确定决策边界的分类器,在训练过程之前以训练集作为基准对所有样本进行归一化,如下式所示:

10、

11、其中,xk表示第k个样本,其中k=1,...,t,t是所有样本的数量;n是训练集的样本数量;d是xk的维度数;minxnl和maxxnl分别表示训练集所有样本第l个维度的最小值和最大值。

12、1.3)训练svm分类器,具体的训练过程如下:

13、1.3.1)将包含两种类别样本的训练集根据样本所属类别划分为两个不同的集合,两个集合中数量较多的集合称为多数类集合m,数量较少的集合称为少数类集合m。

14、1.3.2)从m中随机抽取与m中数量相同的样本并将这些样本与m组成平衡数据集,使用此平衡数据集来训练svm分类器。

15、1.3.3)重复步骤1.3.2)t次,t设置范围为[5000,6000],获得在验证集上g-mean值最高的svm模型,具体如下式所示:

16、

17、其中tn是被正确分类的多数类样本数量,tp是被正确分类的少数类样本数量,fn是被错误分类的多数类样本数量,fp是被错误分类的少数类样本数量。

18、1.3.4)根据已获得的svm模型,保存被正确分类的少数类样本xc={xc1,...,xci,...,xcmc}t以及它们的权重α={α1,...,αi,...,αmc}t和距离决策边界的间隔γ={γ1,...,γi,...,γmc}t,其中mc表示被正确分类的少数类样本的数量,权重α是由svm模型中的拉格朗日乘子λ={λ1,...,λi,...,λmc}t所表示,间隔γ是由svm模型的决策函数f(x)所计算得出,具体如下式所示:

19、

20、

21、其中x={x1,...,xg,...,xl}t表示svm的训练数据,φ(xg)是将xg映射到高维特征空间后的特征向量,yg是样本xg的类别标签,κ(·,·)是核函数,l是x本文档来自技高网...

【技术保护点】

1.一种基于支持向量机和进化计算的过采样方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于支持向量机和进化计算的过采样方法,其特征在于,所述步骤1.3)的具体训练过程如下:

3.根据权利要求1或2所述的一种基于支持向量机和进化计算的过采样方法,其特征在于,所述步骤2的具体流程如下:

4.根据权利要求3所述的一种基于支持向量机和进化计算的过采样方法,其特征在于,所述步骤2.4)中,crossoverpb设置在范围[0.5,1];所述步骤2.5)中,mutationpb设置在范围[0,0.5]。

5.根据权利要求3所述的一种基于支持向量机和进化计算的过采样方法,其特征在于,所述步骤2.6)中,最大的迭代次数被设置为50。

6.根据权利要求1、2、4或5所述的一种基于支持向量机和进化计算的过采样方法,其特征在于,所述步骤3具体如下:

7.根据权利要求3所述的一种基于支持向量机和进化计算的过采样方法,其特征在于,所述步骤3具体如下:

8.根据权利要求1、2、4、5或7所述的一种基于支持向量机和进化计算的过采样方法,其特征在于,所述步骤1.2)中,归一化公式如下:

...

【技术特征摘要】

1.一种基于支持向量机和进化计算的过采样方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于支持向量机和进化计算的过采样方法,其特征在于,所述步骤1.3)的具体训练过程如下:

3.根据权利要求1或2所述的一种基于支持向量机和进化计算的过采样方法,其特征在于,所述步骤2的具体流程如下:

4.根据权利要求3所述的一种基于支持向量机和进化计算的过采样方法,其特征在于,所述步骤2.4)中,crossoverpb设置在范围[0.5,1];所述步骤2.5)中,mutationpb设置在范围...

【专利技术属性】
技术研发人员:王海葳候亚庆张强
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1