【技术实现步骤摘要】
一种基于遗传算法和加权马氏距离的过采样改进模型
[0001]本专利技术涉及机器学习不平衡二分类领域、遗传算法的应用,具体涉及一种基于遗传算法和加权马氏距离的过采样模型。
技术介绍
[0002]随着计算机行业的迅速发展,机器学习为众多领域带去了便利,取得了巨大的成功,分类问题在机器学习领域占据了一席之地。然而,随着分类问题的不断完善,研究学者提出生活中的大多数问题都存在不平衡分类的情况,如:信用卡欺诈、交通问题、疾病的诊断等。当数据出现不平衡时,传统的分类器会受数据分布的干扰,从而出现判断误差。
[0003]在不平衡分类问题的发展上,大量的方法被研究学者提出来,Mathew等人将不平衡数据的处理分为算法级和数据级两种方式。通过算法来调整分类器对样本的识别成为算法级,算法级的处理方式不会对数据本身进行改变。数据级的方式与算法级相反,通过改变数据的分布,从而增强分类器对少数类样本的判别。Kaufhold等人提出一种基于算法级的错误分类代价算法,通过调整分类的权重,达到分类结果更佳的目的。此外,算法级方式还有基于平滑性假设、 ...
【技术保护点】
【技术特征摘要】
1.一种基于遗传算法和加权马氏距离的过采样改进模型,其特征在于,包括以下步骤:步骤S1、区分样本数据集,将包括n条样本数据的原始数据集,分为两类样本数据,其中,数量较多的一类有p个样本,数量少的有q个样本,获得两类之间的数量差距为diff,获得两类间的不平衡率为IR,不平衡率用于评判一个数据集的不平衡程度;步骤S2、使用小批次聚类对数据进行聚类,使得簇间数据具有较高的相似性,获得K个簇;步骤S3、对簇间数据的排序分为,求得加权矩阵、求马氏加权距离、整理排序三个步骤;3.1)求加权矩阵采用皮尔逊相关系数对特征进行处理,分辨特征对分类结果的重要性程度,从而去除无用特征,降低无用特征对分类结果准确率的影响。令x,y为数据集中任意两个特征,求得x与y的方差:σ
x
、σ
y
,求得x与y的协方差Σ,求得皮尔逊相关系数为:由于步骤S2中对数据进行了分簇,因此簇间数据的相似程度大,可能出现某一个或某几个特征的值几乎全部一直的情况,这种情况下,为了避免冗余特征对后续马氏距离计算的影响,通过皮尔逊相关系数去除趋近于1和趋近于0的特征,随后,对剩余特征进行权重排序,用b
i
表示第i个特征的排序结果,再对其进行对角化,获得相关系数矩阵B:3.2)求马氏加权距离马氏距离作为欧式距离的变换,解决了欧氏距离上忽略的度量问题,但马氏距离同时也完全忽略了特征带给分类结果的变化,使用加权矩阵可以修正该影响,令簇内的点为X,簇中心点为C,由以下公式可求得两点间的马氏加权距离:3.3)整体排序对于步骤3.2)求得的马氏加权距离排序,获得簇间所有数据间的距离远近,距离越近表示两点间的相似性越高,方便后续遗传算法生成数据;步骤S4、生成数据,为保证新生成数据与父代样本数据间的相似性,本发明采用均匀交叉遗传算法,设置父代样本双方对下一代的影响率相同,即影响率β为0.5,此处令父代样本为a1和b1,则新生成样本为:x=βa1+(1
‑
β)b1;步骤S5、获得新样本...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。