一种基于遗传算法和加权马氏距离的过采样改进模型制造技术

技术编号:37309901 阅读:20 留言:0更新日期:2023-04-21 22:53
本发明专利技术公开了一种基于遗传算法和加权马氏距离的过采样改进模型,包括以下步骤:区分样本数据集,将包括n条样本数据的原始数据集,分为两类样本数据,其中,数量较多的一类有p个样本,数量少的有q个样本,获得两类之间的数量差距为diff,获得两类间的不平衡率为IR;使用小批次聚类对数据进行聚类,使得簇间数据具有较高的相似性,获得K个簇;对簇间数据的排序分为,求得加权矩阵、求马氏加权距离、整理排序三个步骤;生成数据,采用均匀交叉遗传算法,获得新样本,对于获得的新样本数据与原始的数量较多的数据集进行混合,获得新的样本集;模型评价指标。价指标。价指标。

【技术实现步骤摘要】
一种基于遗传算法和加权马氏距离的过采样改进模型


[0001]本专利技术涉及机器学习不平衡二分类领域、遗传算法的应用,具体涉及一种基于遗传算法和加权马氏距离的过采样模型。

技术介绍

[0002]随着计算机行业的迅速发展,机器学习为众多领域带去了便利,取得了巨大的成功,分类问题在机器学习领域占据了一席之地。然而,随着分类问题的不断完善,研究学者提出生活中的大多数问题都存在不平衡分类的情况,如:信用卡欺诈、交通问题、疾病的诊断等。当数据出现不平衡时,传统的分类器会受数据分布的干扰,从而出现判断误差。
[0003]在不平衡分类问题的发展上,大量的方法被研究学者提出来,Mathew等人将不平衡数据的处理分为算法级和数据级两种方式。通过算法来调整分类器对样本的识别成为算法级,算法级的处理方式不会对数据本身进行改变。数据级的方式与算法级相反,通过改变数据的分布,从而增强分类器对少数类样本的判别。Kaufhold等人提出一种基于算法级的错误分类代价算法,通过调整分类的权重,达到分类结果更佳的目的。此外,算法级方式还有基于平滑性假设、基于代价敏感等算法,但由于算法级处理方式的通用性更低,因此其成本相对数据处理级更高。数据级处理方式分为过采样和欠采样两种方式,过采样通过生成新数据改善数据的分布,欠采样通过删除数据来改善数据的分布。近几年的研究主要是解决以往过采样算法易产生过拟合和对于重叠数据处理模糊的问题。Ma等人为了改善以往过采样方法容易导致数据分布边缘化的问题,提出了一种基于改进的灰狼算法,该算法对于数据分类的准确性比以往的算法更高,但依旧会有陷入局部最优解的问题。Zhang等人提出在基于遗传理论和马氏距离的过采样的基础上加入了聚类,提高特征之间联系对新样本的影响,但该算法对特征的要求较为严格,聚类效果较佳时无法直接对数据进行马氏距离运算,通用性较低。
[0004]针对上述问题,本专利技术提出一种将皮尔逊相关性系数和小批次聚类引入基于遗传理论和马氏距离的过采样算法。先以小批次聚类对整体不平衡数据进行处理,再在每个小簇内求相关性系数,使不平衡数据特征对分类结果的影响程度有所区分,再对小簇内所有数据求得马氏距离,并对马氏距离进行加权,求得距离排序,最后使用遗传均匀交叉算法生成新数据。从而在解决以往遗传理论与马氏距离过采样算法遗漏了数据特征相关性的问题,并能够合理地解决出现簇间聚类效果好时,导致无法求得马氏距离的可能性。

技术实现思路

[0005]本专利技术的目的在于提供一种基于遗传算法和加权马氏距离的过采样改进模型,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种基于遗传算法和加权马氏距离的过采样改进模型,包括以下步骤:
[0008]步骤S1、区分样本数据集,将包括n条样本数据的原始数据集,分为两类样本数据,
其中,数量较多的一类有p个样本,数量少的有q个样本,获得两类之间的数量差距为diff,获得两类间的不平衡率为IR,不平衡率用于评判一个数据集的不平衡程度;
[0009][0010]步骤S2、使用小批次聚类对数据进行聚类,使得簇间数据具有较高的相似性,获得K个簇;
[0011]步骤S3、对簇间数据的排序分为,求得加权矩阵、求马氏加权距离、整理排序三个步骤;
[0012]3.1)求加权矩阵
[0013]采用皮尔逊相关系数对特征进行处理,分辨特征对分类结果的重要性程度,从而去除无用特征,降低无用特征对分类结果准确率的影响。令x,y为数据集中任意两个特征,求得x与y的方差:σ
x
、σ
y
,求得x与y的协方差Σ,求得皮尔逊相关系数为:
[0014][0015]由于步骤S2中对数据进行了分簇,因此簇间数据的相似程度大,可能出现某一个或某几个特征的值几乎全部一直的情况,这种情况下,为了避免冗余特征对后续马氏距离计算的影响,通过皮尔逊相关系数去除趋近于1和趋近于0的特征,随后,对剩余特征进行权重排序,用b
i
表示第i个特征的排序结果,再对其进行对角化,获得相关系数矩阵B:
[0016][0017]3.2)求马氏加权距离
[0018]马氏距离作为欧式距离的变换,解决了欧氏距离上忽略的度量问题,但马氏距离同时也完全忽略了特征带给分类结果的变化,使用加权矩阵可以修正该影响,令簇内的点为X,簇中心点为C,由以下公式可求得两点间的马氏加权距离:
[0019][0020]3.3)整体排序
[0021]对于步骤3.2)求得的马氏加权距离排序,获得簇间所有数据间的距离远近,距离越近表示两点间的相似性越高,方便后续遗传算法生成数据;
[0022]步骤S4、生成数据,为保证新生成数据与父代样本数据间的相似性,本专利技术采用均匀交叉遗传算法,设置父代样本双方对下一代的影响率相同,即影响率β为0.5,此处令父代样本为a1和b1,则新生成样本为:
[0023]x=βa1+(1

β)b1;
[0024]步骤S5、获得新样本,对于步骤S4获得的新样本数据与原始的数量较多的数据集进行混合,获得新的样本集;
[0025]步骤S6、模型评价指标,对于二分类问题而言,模型常用评价指标通常是由混淆矩
阵发散而来;
[0026]准确率:准确率用Acc表示,表现为正确分类的样本数与总样本数之比,准确率越高,表示正确分类的样本数量越多:
[0027][0028]对不平衡二分类问题而言,可信度也是一个重要指标,使用Kappa可以表示模型的可信度其中:
[0029][0030]其中p0和p
e
为:
[0031][0032][0033]优选的,所述步骤S4中生成数据的具体流程如下:
[0034]4.1)分离数据集
[0035]按3.3)排序后的簇间数据集根据远近,从中间将其分为两部分,一部分表现为离簇中心近的数据集,另一部分表现为离簇中心远的数据集;
[0036]4.2)初始化后代集
[0037]初始化一个后代集,在离簇中心近的数据集中取出最后一个样本,在离簇中心远的数据集中取出第一个样本,将两者进行均匀交叉,生成第一个后代数据,将其加入后代集;
[0038]4.3)生成剩余数据
[0039]参照步骤4.2)中生成数据的方式,倒序遍历近距离数据集,正序遍历远距离数据集,两两数据之间使用遗传算法生成后代数据;
[0040]4.4)加入后代集
[0041]对于后续生成的后代数据,需判断其数量是否小于需生成的数量,由于整体多数样本集与少数样本集间的差距为diff,令当前簇内的数据为p
i
,则当前正在遍历的簇所需生成的数量为:
[0042][0043]如果该簇当前生成的数量小于应该生成的数量,则重复本步骤,直至遍历完父代样本;
[0044]如果已经遍历完父代样本,生成的数量仍小于应该生成的数量,则把上一轮新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于遗传算法和加权马氏距离的过采样改进模型,其特征在于,包括以下步骤:步骤S1、区分样本数据集,将包括n条样本数据的原始数据集,分为两类样本数据,其中,数量较多的一类有p个样本,数量少的有q个样本,获得两类之间的数量差距为diff,获得两类间的不平衡率为IR,不平衡率用于评判一个数据集的不平衡程度;步骤S2、使用小批次聚类对数据进行聚类,使得簇间数据具有较高的相似性,获得K个簇;步骤S3、对簇间数据的排序分为,求得加权矩阵、求马氏加权距离、整理排序三个步骤;3.1)求加权矩阵采用皮尔逊相关系数对特征进行处理,分辨特征对分类结果的重要性程度,从而去除无用特征,降低无用特征对分类结果准确率的影响。令x,y为数据集中任意两个特征,求得x与y的方差:σ
x
、σ
y
,求得x与y的协方差Σ,求得皮尔逊相关系数为:由于步骤S2中对数据进行了分簇,因此簇间数据的相似程度大,可能出现某一个或某几个特征的值几乎全部一直的情况,这种情况下,为了避免冗余特征对后续马氏距离计算的影响,通过皮尔逊相关系数去除趋近于1和趋近于0的特征,随后,对剩余特征进行权重排序,用b
i
表示第i个特征的排序结果,再对其进行对角化,获得相关系数矩阵B:3.2)求马氏加权距离马氏距离作为欧式距离的变换,解决了欧氏距离上忽略的度量问题,但马氏距离同时也完全忽略了特征带给分类结果的变化,使用加权矩阵可以修正该影响,令簇内的点为X,簇中心点为C,由以下公式可求得两点间的马氏加权距离:3.3)整体排序对于步骤3.2)求得的马氏加权距离排序,获得簇间所有数据间的距离远近,距离越近表示两点间的相似性越高,方便后续遗传算法生成数据;步骤S4、生成数据,为保证新生成数据与父代样本数据间的相似性,本发明采用均匀交叉遗传算法,设置父代样本双方对下一代的影响率相同,即影响率β为0.5,此处令父代样本为a1和b1,则新生成样本为:x=βa1+(1

β)b1;步骤S5、获得新样本...

【专利技术属性】
技术研发人员:吴亚东李国链柏雨龙
申请(专利权)人:四川轻化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1