一种基于正则化最优传输理论的不平衡数据分类方法技术

技术编号:30141247 阅读:24 留言:0更新日期:2021-09-23 15:04
本发明专利技术公开了一种基于正则化最优传输理论的不平衡数据分类方法,所述方法包括如下步骤:一:获取不平衡训练样本集和测试样本集;二:构建Monge型最优传输问题;三:将Monge型最优传输问题凸松弛化为离散的Kantorovitch型最优传输问题;四:设计合理的非凸正则项,进而构建非凸正则最优传输问题;五:设计最大—最小化最优传输求解算法,计算该算法模型在各数据集上的Pre、Rec、GM、F1M评价指标值,从而实现对不平衡数据集的有效分类。本发明专利技术构建了带有非凸正则项的最优传输问题,丰富了最优传输的理论研究。相对于常用的不平衡数据分类方法,本方法对不平衡数据的分类精度更高。本方法对不平衡数据的分类精度更高。本方法对不平衡数据的分类精度更高。

【技术实现步骤摘要】
一种基于正则化最优传输理论的不平衡数据分类方法


[0001]本专利技术涉及一种处理不平衡数据的分类方法,具体涉及一种运用 正则化最优传输理论设计的最大—最小化算法来实现对不平衡数据 进行分类的方法。

技术介绍

[0002]不平衡数据集是指在一个数据集中某类样本数量远小于(或远大 于)其他类别样本的集合。对于多数机器学习算法而言,如果训练集 为不平衡数据集,则会使得分类器的性能下降。近年来,上述问题在 各行各业愈发突出,引起了众多学者和专家的高度关注。
[0003]目前国内外学者所作研究大体可以分为两类:一类是从数据本身 出发对数据集重构,来减轻数据集的不平衡程度,从而提高少数类的 分类性能;另一类是针对传统分类模型,从分类思想和分类算法层面, 提出了一系列有针对性,偏向对少数类更关注,提高少数类分类精度 的改进策略。
[0004]上述研究都有效的提升了机器学习模型的分类性能,但这些方法 在不同数据源数据集上表现并不鲁棒。对于如何构建一种对不平衡数 据集具有一定鲁棒性的算法,暂未见权威公开文献详细阐述。

技术实现思路

[0005]为了提高不平衡数据集的分类精度,并使得分类器对不平衡数据 集具有一定鲁棒性,本专利技术提供了一种基于正则化最优传输理论的不 平衡数据分类方法。
[0006]本专利技术的目的是通过以下技术方案实现的:
[0007]一种基于正则化最优传输理论的不平衡数据分类方法,包括如下 步骤:
[0008]步骤一:获取不平衡训练样本集和测试样本集要求训练 样本集与测试样本集中的类不平衡的比例(即不平衡率)接近;
[0009]步骤二:针对步骤一获取的训练样本集和测试样本集,构建 Monge型最优传输问题,其中,Monge型最优传输问题为:
[0010][0011]其中,μ为训练样本集服从R
n
上的概率分布,ν为测试样本集服从R
n
上的概率分布,#为push forward算子,T为传输映射,Ω0为训练样 本空间,f为代价函数;
[0012]步骤三:将步骤二得到的Monge型最优传输问题凸松弛化为离 散的Kantorovitch型最优传输问题,其中,凸松弛后的离散 Kantorovitch型最优传输问题为:
[0013][0014]其中,Π为分布μ和ν的所有联合概率分布组成的集合,x
i
、y
j
为样 本坐标,i,j分别
表示取值在0~N和0~M之间的下脚标,N为训练样 本个数,M为测试样本个数,γ为传输计划;
[0015]步骤四:为步骤三得到的离散的Kantorovitch型最优传输问题, 设计合理的非凸正则项,进而构建非凸正则最优传输问题,其中:
[0016]设计的非凸正则项如下:
[0017][0018]其中,p,q为任意实数,为l
p
范数的q次幂,I
c
为样本类别是c的样 本的标号集,γ(I
c
,j)为矩阵γ的第j列中属于第c类的数据构成的向量, 当p=2、q=2时,Ω(γ)为凸正则项;当p=1、时Ω(γ)为非凸正则 项;
[0019]则可得到如下非凸正则最优传输问题:
[0020][0021]其中,α为非负实数;
[0022]步骤五:针对步骤四得到的非凸正则最优传输问题的特点,基于 最大—最小化思想,设计最大—最小化最优传输(MMROT)求解算 法,计算该算法模型在各数据集上的分类精度(Pre)、召回率(Rec)、 几何平均(GM)、F1值(F1M)评价指标值,从而实现对不平衡数据 集的有效分类,其中:
[0023]最大—最小化最优传输(MMROT)求解算法的具体步骤如下:
[0024]步骤(1):计算非凸正则项的最大线性近似项G,即对于固定 的有其中β为常数,矩阵G的元素为:
[0025][0026]ε为数据的扰动项,I
c
为样本类别是c的样本的标号集,γ(I
c
,j)为矩阵 γ的第j列中属于第c类的数据构成的向量;
[0027]步骤(2):构造代价矩阵C=(||x
i

y
j
||2)+α
·
G,利用内点算法求解 如下优化问题:
[0028][0029]得到上述问题的最小值,即最优传输计划
[0030](3)根据得到的利用更新线性近似项G 重新计算代价矩阵C,直到满足迭代终止条件。
[0031]相比于现有技术,本专利技术具有如下优点:
[0032]1、本专利技术针对不平衡数据的分类问题,通过设计合适的非凸正 则项,构建了带有
非凸正则项的最优传输问题,丰富了最优传输的理 论研究。
[0033]2、本专利技术在计算非凸正则项的最大线性近似项时,考虑了数据 的扰动,使得构造的最大—最小化最优传输算法对不平衡数据集分类 具有一定的鲁棒性,可满足实际中更多不平衡数据的分类需求。
[0034]3、本专利技术结合最优传输理论,提出了一种针对不平衡数据分类 的最大—最小化最优传输算法。相对于常用的不平衡数据分类方法, 本方法对不平衡数据的分类精度更高。
附图说明
[0035]图1为表3中12种不同方法的Pre值。
[0036]图2为表3中12种不同方法的Rec值。
[0037]图3为表3中12种不同方法的F1M值。
[0038]图4为表3中12种不同方法的GM值。
[0039]图5为表4中12种不同方法的Pre值。
[0040]图6为表4中12种不同方法的Rec值。
[0041]图7为表4中12种不同方法的F1M值。
[0042]图8为表4中12种不同方法的GM值。
具体实施方式
[0043]下面结合附图对本专利技术的技术方案作进一步的说明,但并不局限 于此,凡是对本专利技术技术方案进行修改或者等同替换,而不脱离本发 明技术方案的精神和范围,均应涵盖在本专利技术的保护范围中。
[0044]本专利技术提供了一种最大化—最小化最优传输算法对不平衡数据 进行有效分类的方法,所述方法包括如下步骤:
[0045]步骤一:获取不平衡数据集,将其划分为训练样本集和测试样本 集,使测试样本集的不平衡率接近训练样本集的不平衡率。
[0046]步骤二:针对步骤一获取的训练样本集和测试样本集,构建 Monge型最优传输问题。
[0047]假设训练样本集服从R
n
上的概率分布μ,测试样本集服从R
n
上的 概率分布ν,其样本空间分别为Ω0和Ω1,代价函数为f:Ω0×
Ω1→
R。 Monge型最优传输问题的目的是寻找一个传输映射T
*
:Ω0→
Ω1使得从 分布μ到分布ν的传输代价最小,从而可构建最优传输问题:
[0048][0049]其中,#为push forward本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于正则化最优传输理论的不平衡数据分类方法,其特征在于所述不平衡数据分类方法包括如下步骤:步骤一:获取不平衡训练样本集和测试样本集步骤二:针对步骤一获取的训练样本集和测试样本集,构建Monge型最优传输问题;步骤三:将步骤二得到的Monge型最优传输问题凸松弛化为离散的Kantorovitch型最优传输问题;步骤四:为步骤三得到的离散的Kantorovitch型最优传输问题,设计合理的非凸正则项,进而构建非凸正则最优传输问题;步骤五:针对步骤四得到的非凸正则最优传输问题的特点,基于最大—最小化思想,设计最大—最小化最优传输求解算法,计算该算法模型在各数据集上的分类精度、召回率、几何平均、F1值评价指标值,从而实现对不平衡数据集的有效分类。2.根据权利要求1所述的基于正则化最优传输理论的不平衡数据分类方法,其特征在于所述步骤二中,Monge型最优传输问题为:其中,μ为训练样本集服从R
n
上的概率分布,ν为测试样本集服从R
n
上的概率分布,#为push forward算子,T为传输映射,Ω0为训练样本空间,f为代价函数。3.根据权利要求1所述的基于正则化最优传输理论的不平衡数据分类方法,其特征在于所述步骤三中,凸松弛后的离散Kantorovitch型最优传输问题为:其中,Π为分布μ和ν的所有联合概率分布组成的集合,x
i
、yj为样本坐标,i,j分别表示取值在0~N和0~M之间的下脚标,N为训练样本个数,...

【专利技术属性】
技术研发人员:马丽涛文人庆陈继强张峰张丽娜付俊丰万杰
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1