一种基于遗传算法和加权马氏距离的过采样改进模型制造技术

技术编号：37309901 阅读：37 留言：0更新日期：2023-04-21 22:53

本发明专利技术公开了一种基于遗传算法和加权马氏距离的过采样改进模型，包括以下步骤：区分样本数据集，将包括n条样本数据的原始数据集，分为两类样本数据，其中，数量较多的一类有p个样本，数量少的有q个样本，获得两类之间的数量差距为diff，获得两类间的不平衡率为IR；使用小批次聚类对数据进行聚类，使得簇间数据具有较高的相似性，获得K个簇；对簇间数据的排序分为，求得加权矩阵、求马氏加权距离、整理排序三个步骤；生成数据，采用均匀交叉遗传算法，获得新样本，对于获得的新样本数据与原始的数量较多的数据集进行混合，获得新的样本集；模型评价指标。价指标。价指标。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于遗传算法和加权马氏距离的过采样改进模型

[0001]本专利技术涉及机器学习不平衡二分类领域、遗传算法的应用，具体涉及一种基于遗传算法和加权马氏距离的过采样模型。

技术介绍

[0002]随着计算机行业的迅速发展，机器学习为众多领域带去了便利，取得了巨大的成功，分类问题在机器学习领域占据了一席之地。然而，随着分类问题的不断完善，研究学者提出生活中的大多数问题都存在不平衡分类的情况，如：信用卡欺诈、交通问题、疾病的诊断等。当数据出现不平衡时，传统的分类器会受数据分布的干扰，从而出现判断误差。
[0003]在不平衡分类问题的发展上，大量的方法被研究学者提出来，Mathew等人将不平衡数据的处理分为算法级和数据级两种方式。通过算法来调整分类器对样本的识别成为算法级，算法级的处理方式不会对数据本身进行改变。数据级的方式与算法级相反，通过改变数据的分布，从而增强分类器对少数类样本的判别。Kaufhold等人提出一种基于算法级的错误分类代价算法，通过调整分类的权重，达到分类结果更佳的目的。此外，算法级方式还有基于平滑性假设、...

【技术保护点】

【技术特征摘要】
1.一种基于遗传算法和加权马氏距离的过采样改进模型，其特征在于，包括以下步骤：步骤S1、区分样本数据集，将包括n条样本数据的原始数据集，分为两类样本数据，其中，数量较多的一类有p个样本，数量少的有q个样本，获得两类之间的数量差距为diff，获得两类间的不平衡率为IR，不平衡率用于评判一个数据集的不平衡程度；步骤S2、使用小批次聚类对数据进行聚类，使得簇间数据具有较高的相似性，获得K个簇；步骤S3、对簇间数据的排序分为，求得加权矩阵、求马氏加权距离、整理排序三个步骤；3.1)求加权矩阵采用皮尔逊相关系数对特征进行处理，分辨特征对分类结果的重要性程度，从而去除无用特征，降低无用特征对分类结果准确率的影响。令x，y为数据集中任意两个特征，求得x与y的方差：σ
x
、σ
y
，求得x与y的协方差Σ，求得皮尔逊相关系数为：由于步骤S2中对数据进行了分簇，因此簇间数据的相似程度大，可能出现某一个或某几个特征的值几乎全部一直的情况，这种情况下，为了避免冗余特征对后续马氏距离计算的影响，通过皮尔逊相关系数去除趋近于1和趋近于0的特征，随后，对剩余特征进行权重排序，用b
i
表示第i个特征的排序结果，再对其进行对角化，获得相关系数矩阵B：3.2)求马氏加权距离马氏距离作为欧式距离的变换，解决了欧氏距离上忽略的度量问题，但马氏距离同时也完全忽略了特征带给分类结果的变化，使用加权矩阵可以修正该影响，令簇内的点为X，簇中心点为C，由以下公式可求得两点间的马氏加权距离：3.3)整体排序对于步骤3.2)求得的马氏加权距离排序，获得簇间所有数据间的距离远近，距离越近表示两点间的相似性越高，方便后续遗传算法生成数据；步骤S4、生成数据，为保证新生成数据与父代样本数据间的相似性，本发明采用均匀交叉遗传算法，设置父代样本双方对下一代的影响率相同，即影响率β为0.5，此处令父代样本为a1和b1，则新生成样本为：x＝βa1+(1
‑
β)b1；步骤S5、获得新样本...

【专利技术属性】
技术研发人员：吴亚东，李国链，柏雨龙，
申请(专利权)人：四川轻化工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人