一种基于正则化最优传输理论的不平衡数据分类方法技术

技术编号：30141247 阅读：24 留言：0更新日期：2021-09-23 15:04

本发明专利技术公开了一种基于正则化最优传输理论的不平衡数据分类方法，所述方法包括如下步骤：一：获取不平衡训练样本集和测试样本集；二：构建Monge型最优传输问题；三：将Monge型最优传输问题凸松弛化为离散的Kantorovitch型最优传输问题；四：设计合理的非凸正则项，进而构建非凸正则最优传输问题；五：设计最大—最小化最优传输求解算法，计算该算法模型在各数据集上的Pre、Rec、GM、F1M评价指标值，从而实现对不平衡数据集的有效分类。本发明专利技术构建了带有非凸正则项的最优传输问题，丰富了最优传输的理论研究。相对于常用的不平衡数据分类方法，本方法对不平衡数据的分类精度更高。本方法对不平衡数据的分类精度更高。本方法对不平衡数据的分类精度更高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于正则化最优传输理论的不平衡数据分类方法

[0001]本专利技术涉及一种处理不平衡数据的分类方法，具体涉及一种运用正则化最优传输理论设计的最大—最小化算法来实现对不平衡数据进行分类的方法。

技术介绍

[0002]不平衡数据集是指在一个数据集中某类样本数量远小于(或远大于)其他类别样本的集合。对于多数机器学习算法而言，如果训练集为不平衡数据集，则会使得分类器的性能下降。近年来，上述问题在各行各业愈发突出，引起了众多学者和专家的高度关注。
[0003]目前国内外学者所作研究大体可以分为两类：一类是从数据本身出发对数据集重构，来减轻数据集的不平衡程度，从而提高少数类的分类性能；另一类是针对传统分类模型，从分类思想和分类算法层面，提出了一系列有针对性，偏向对少数类更关注，提高少数类分类精度的改进策略。
[0004]上述研究都有效的提升了机器学习模型的分类性能，但这些方法在不同数据源数据集上表现并不鲁棒。对于如何构建一种对不平衡数据集具有一定鲁棒性的算法，暂未见权威公开文献详细阐述。

技术实现思路

[0005]为了提高不平衡数据集的分类精度，并使得分类器对不平衡数据集具有一定鲁棒性，本专利技术提供了一种基于正则化最优传输理论的不平衡数据分类方法。
[0006]本专利技术的目的是通过以下技术方案实现的：
[0007]一种基于正则化最优传输理论的不平衡数据分类方法，包括如下步骤：
[0008]步骤一：获取不平衡训练样本集和测试样本集要求训练 ...

【技术保护点】

【技术特征摘要】
1.一种基于正则化最优传输理论的不平衡数据分类方法，其特征在于所述不平衡数据分类方法包括如下步骤：步骤一：获取不平衡训练样本集和测试样本集步骤二：针对步骤一获取的训练样本集和测试样本集，构建Monge型最优传输问题；步骤三：将步骤二得到的Monge型最优传输问题凸松弛化为离散的Kantorovitch型最优传输问题；步骤四：为步骤三得到的离散的Kantorovitch型最优传输问题，设计合理的非凸正则项，进而构建非凸正则最优传输问题；步骤五：针对步骤四得到的非凸正则最优传输问题的特点，基于最大—最小化思想，设计最大—最小化最优传输求解算法，计算该算法模型在各数据集上的分类精度、召回率、几何平均、F1值评价指标值，从而实现对不平衡数据集的有效分类。2.根据权利要求1所述的基于正则化最优传输理论的不平衡数据分类方法，其特征在于所述步骤二中，Monge型最优传输问题为：其中，μ为训练样本集服从R
n
上的概率分布，ν为测试样本集服从R
n
上的概率分布，#为push forward算子，T为传输映射，Ω0为训练样本空间，f为代价函数。3.根据权利要求1所述的基于正则化最优传输理论的不平衡数据分类方法，其特征在于所述步骤三中，凸松弛后的离散Kantorovitch型最优传输问题为：其中，Π为分布μ和ν的所有联合概率分布组成的集合，x
i
、yj为样本坐标，i,j分别表示取值在0～N和0～M之间的下脚标，N为训练样本个数，...

【专利技术属性】
技术研发人员：马丽涛，文人庆，陈继强，张峰，张丽娜，付俊丰，万杰，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人