一种基于离散度平衡的度量学习方法技术

技术编号:18445624 阅读:31 留言:0更新日期:2018-07-14 10:40
本发明专利技术公开了一种基于离散度平衡的度量学习方法,包括:(1)利用采集到的不平衡样本数据,根据样本数据与标签信息,求出不同类重心间的距离,定义归一化离散度;(2)将归一化离散度与几何均值结合,最大化几何均值,并使用log函数平衡各类间离散度;(3)根据样本类别标签属性,利用最大边界理论,构建最大化问题;(4)构建度量学习算法模型,增加约束条件,得到度量学习优化模型;(5)利用梯度下降与迭代映射方法求解优化模型,获得距离度量矩阵;(6)提取不平衡数据集中待分类的样本特征,并使用距离度量矩阵进行分类实验验证。本发明专利技术利用几何均值和最大边界理论,较好的度量了不平衡数据集中样本间的距离。

A metric learning method based on discrete degree equilibrium

The invention discloses a measure learning method based on the discrete-time balance, which includes: (1) using the collected data of unbalanced sample, the distance between the center of gravity of the same kind is calculated according to the sample data and the label information, and the normalization dispersion is defined. (2) combining the normalized dispersion with the geometric mean, and maximizing the geometric mean, and Log function is used to balance all kinds of dispersion divergence; (3) according to the label attributes of the sample, maximum boundary theory is used to construct the maximum problem. (4) build a measurement learning algorithm model, increase the constraint conditions, get the optimization model of measurement learning; (5) use gradient descent and iterative mapping method to solve the optimization model and obtain the distance degree Quantity matrix; (6) extract the sample characteristics to be classified in the unbalanced data set, and use distance metric matrix to classify and verify the experiment. The invention uses geometric mean and maximum boundary theory to measure the distance between samples in an unbalanced data set better.

【技术实现步骤摘要】
一种基于离散度平衡的度量学习方法
本专利技术涉及数据挖掘与人工智能技术,具体是一种基于离散度平衡的度量学习方法,可恰当的度量不平衡数据间样本的相似度。
技术介绍
随着信息时代的发展,度量学习算法已极为广泛的应用至生产生活的各个方面。度量学习能根据已有样本的属性,针对性的学习距离度量方法,从而恰当的度量不同样本间的距离,以衡量样本间的相似性。恰当的距离度量方法能充分提高样本分类、聚类等应用的精度。近些年,研究人员从不同的角度提出了不同的解决思路,并获得了许多良好的距离度量方法。Xing.P针对样本间的度量学习,提出了一种凸优化模型,根据样本间的成对约束,使得同类间样本距离较小的同时,最大化不同类间样本的距离,在保证所获得距离度量矩阵为半正定矩阵的情况下,获得最优的距离度量。LMNN(大间隔最近邻居分类算法)是一种局部优化方法,其旨在使样本的k个近邻尽可能为同一类的样本,且尽可能的分离不同类的样本,并通过迭代求得最优解。ITML(基于信息论的距离度量学习)将信息论相关理论引入度量学习,并获得一个Bregman优化问题。ITML旨在最小化两个高斯分布间的KL散度,并在约束条件的作用下获得距离度量。研究人员针对样本的分布属性、标签信息等,提出了许多恰当的度量学习方法。然而,很多算法并不能很好的处理不平衡数据集。由于不平衡数据集中,不同类样本的数量差异较大,使得传统度量学习方法更倾向于样本数量大的类而忽略样本数量较小的类,造成距离度量不能准确的反应不同类间样本的相似性,而影响分类、聚类等应用的精度。
技术实现思路
本专利技术的目的在于提供一种基于离散度平衡的度量学习方法,能很好的处理不平衡数据集,平衡的分离来自不同类的样本数据的同时,使来自不同类样本距离之和尽可能大。为实现上述目的,本专利技术提供如下技术方案:一种基于离散度平衡的度量学习方法,包括以下步骤:(1)利用采集到的不平衡样本数据,根据样本数据与标签信息,求出不同类重心间的距离,进一步定义归一化离散度;(2)将归一化离散度与几何均值结合,最大化几何均值的过程中使得不同类间散度尽可能的一致,并使用log函数进一步平衡各类间离散度,以避免不同类在度量空间中过于紧凑的现象;(3)根据样本类别标签属性,利用最大边界理论,构建最大化问题,增强了本专利技术度量学习方法的判别能力;(4)构建本专利技术提出的度量学习算法模型,增加约束条件,使得所求距离度量有效可行,得到度量学习优化模型;(5)根据本专利技术的度量学习优化模型,利用梯度下降与迭代映射方法求解优化模型,求得本专利技术所提出的度量学习的距离度量矩阵;(6)提取不平衡数据集中待分类的样本特征,并使用步骤(5)获得的距离度量矩阵进行分类实验,对待分类样本进行分类实验,验证度量学习的性能。作为本专利技术进一步的方案:所述的步骤(1),具体包括以下步骤:11)根据样本标签l1,l2,…,ln,将所有的n个样本划分为以下样本集合:s1,s2,…,sc,其中si包含第i类的所有样本,共c类;12)根据每类样本内样本数据,计算每类样本的重心,对于第i类样本,其重心ui计算如下:其中,ni为第i类样本个数,均为来自于第i类的样本;13)在使用距离度量矩阵A时,第i类与第j类的重心间距离dA(ui,uj)定义如下:14)为了衡量两类样本间的离散程度,定义归一化类间离散度如下:其中,qi是第i类样本的个数,dA(ui,uj)是在使用距离度量矩阵A时第i与j类样本重心间的距离,是第i与j类的归一化离散度,其刻画了两类样本间的离散程度。作为本专利技术进一步的方案:所述的步骤(2),具体包括以下步骤:21)本专利技术旨在平衡的分离不同的类,使得度量学习能较好的度量来自不平衡数据样本间的距离;因此,本专利技术利用几何均值的特性,将其与归一化离散度结合可得则最大化几何均值可使得不同类间离散度尽可能的均衡,则最大化几何均值A*如下:由几何均值不等式的性质可知,当且仅当几何均值各个乘数项(即不同类间归一化离散度)相等时,几何均值可取得最大值,因此,最大化公式(4)可使得不同类间归一化离散度尽可能的平衡或相等,以避免某几个不同类在度量空间中过于集中;针对不平衡数据集,虽然不同类间样本数量差异较大,本专利技术平等的分离了不同类间的样本,以避免不平衡数据集对度量学习的影响;22)由于log函数的特殊性质,本专利技术进一步采用了log函数,并将其作用于公式(4)中的几何均值,使得不同类间离散度A*进一步平衡如下:log函数的使用,使本专利技术在学习距离度量时,更倾向于减小较大离散度的影响,增加较小类间离散度的影响,使不同类的样本在度量空间中均衡的离散,避免不同类过于集中以影响后续分类、聚类等工作。作为本专利技术进一步的方案:所述的步骤(3),具体为:为了进一步增加本专利技术提出度量学习的判别能力,本专利技术根据样本数据与类别信息,充分利用最大边界理论,使训练得到的距离度量能使得来自不同类的样本距离之和最大;因此,最大化问题构建如下:其中,yi代表样本xi的类别标签,dA(xi,xj)表示来自不同类的两个样本xj,xj之间的距离;公式(6)旨在使求得的距离度量矩阵A能使不同类间样本距离之和最大,使得不同类间距尽可能大;公式(6)增加了本专利技术度量学习算法的判别能力,减小了不同类样本被错分为同一类的概率。作为本专利技术进一步的方案:所述的步骤(4)中,本专利技术充分考虑了不平衡数据集对度量学习造成的影响,在平等的对待不同类样本的同时,使来自不同类的样本距离之和尽可能大,从而获得本专利技术的度量学习算法模型,其利用公式(5)与公式(6),构建优化模型如下:41)根据本专利技术提出的方法,构造基于离散度平衡的度量学习算法框架如下:其中,λ是正则化参数,用于平衡公式(7)中两项的比例;公式(7)最大化归一化离散度几何均值的同时,利用了最大边界理论,使不同类间样本距离之和尽可能大,从而获得本专利技术的距离度量矩阵;42)由于公式(7)所得距离度量矩阵并不能保证其为半正定矩阵,因此,本专利技术增加约束,保证其为半正定矩阵;同时,约束同类样本间距离之和小于某个常数,避免同一类样本分布距离较远;本专利技术构造的度量学习框架如下,即为度量学习优化模型:其中,由于距离度量矩阵为半正定该矩阵,因此本专利技术增加约束条件A≥0,使得度量学习求解过程A≥0保证了距离度量矩阵A为半正定矩阵;同时,本专利技术约束同类样本间距离之和小于某个常数,避免同一类样本分布距离较远,则本专利技术定义g(A)约束同类样本间距离之和小于1。作为本专利技术进一步的方案:所述的步骤(5),具体包括以下步骤:51)首先将距离度量矩阵A随机初始化;52)求解公式(7)中L(A)对矩阵A的导数(该导数的求解对于优化模型的获得至关重要)如下:其中,53)利用梯度上升方法,利用公式(9)求得的梯度方向,对距离度量矩阵A进行更新,即54)将距离度量矩阵A映射至集合中;如果A不属于集合C1,则将矩阵A沿着梯度方向进行更新,直至A属于集合C1停止更新;所获得的距离度量矩阵A在尽可能保持原有矩阵性质的同时,保证了其属于集合C1;55)为了保证矩阵A是半正定的,将矩阵A映射至集合C2={A|A≥0}A≥0中,以保证距离度量的有效性,其步骤为:将矩阵A进行特征分解,即A=PTΛP,其中Λ=diag(η1,η2,…,ηd)为本文档来自技高网...

【技术保护点】
1.一种基于离散度平衡的度量学习方法,其特征在于,包括以下步骤:(1)利用采集到的不平衡样本数据,根据样本数据与标签信息,求出不同类重心间的距离,进一步定义归一化离散度;(2)将归一化离散度与几何均值结合,最大化几何均值,并使用log函数进一步平衡各类间离散度;(3)根据样本类别标签属性,利用最大边界理论,构建最大化问题;(4)构建度量学习算法模型,增加约束条件,使得所求距离度量有效可行,得到度量学习优化模型;(5)根据度量学习优化模型,利用梯度下降与迭代映射方法求解优化模型,获得距离度量矩阵;(6)提取不平衡数据集中待分类的样本特征,并使用步骤(5)获得的距离度量矩阵进行分类实验验证。

【技术特征摘要】
1.一种基于离散度平衡的度量学习方法,其特征在于,包括以下步骤:(1)利用采集到的不平衡样本数据,根据样本数据与标签信息,求出不同类重心间的距离,进一步定义归一化离散度;(2)将归一化离散度与几何均值结合,最大化几何均值,并使用log函数进一步平衡各类间离散度;(3)根据样本类别标签属性,利用最大边界理论,构建最大化问题;(4)构建度量学习算法模型,增加约束条件,使得所求距离度量有效可行,得到度量学习优化模型;(5)根据度量学习优化模型,利用梯度下降与迭代映射方法求解优化模型,获得距离度量矩阵;(6)提取不平衡数据集中待分类的样本特征,并使用步骤(5)获得的距离度量矩阵进行分类实验验证。2.根据权利要求1所述的基于离散度平衡的度量学习方法,其特征在于,所述的步骤(1)中,根据样本数据与其标签信息,计算各类重心间距离并定义归一化离散度,用作刻画不同类间的离散程度,具体包括以下步骤:11)根据样本标签信息,将所有样本划分为以下样本集合:s1,s2,…,sc,其中si包含第i类的所有样本,共c类;12)计算每类样本的重心ui,1≤i≤c,并计算在使用距离度量矩阵A时,定义归一化类间离散度如下:其中,qi是第i类样本的个数,dA(ui,uj)是在使用距离度量矩阵A时第i与j类样本重心间的距离;是第i与j类的归一化离散度,其刻画了两类样本间的离散程度。3.根据权利要求2所述的基于离散度平衡的度量学习方法,其特征在于,所述的步骤(2),具体包括以下步骤:21)将归一化离散度与几何均值结合如下:由于几何均值不等式,当且仅当不同类间归一化离散度相等时,公式(4)取得最大值;22)进一步采用了log函数,将其作用于公式(4)中的几何均值,使得不同类间离散度进一步平衡如下:4.根据权利要求3所述的基于离散度平衡的度量学习方法,其特征在于,所述的步骤(3),具体操作如下:为了进一步增加判别能力,根据样本数据与类别信息,采用了最大边界理论如下:其中,yi代表样本xi的类别标签。5.根据...

【专利技术属性】
技术研发人员:钱冬云金慧峰叶聪相陈贤敏
申请(专利权)人:浙江工贸职业技术学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1