The invention discloses a measure learning method based on the discrete-time balance, which includes: (1) using the collected data of unbalanced sample, the distance between the center of gravity of the same kind is calculated according to the sample data and the label information, and the normalization dispersion is defined. (2) combining the normalized dispersion with the geometric mean, and maximizing the geometric mean, and Log function is used to balance all kinds of dispersion divergence; (3) according to the label attributes of the sample, maximum boundary theory is used to construct the maximum problem. (4) build a measurement learning algorithm model, increase the constraint conditions, get the optimization model of measurement learning; (5) use gradient descent and iterative mapping method to solve the optimization model and obtain the distance degree Quantity matrix; (6) extract the sample characteristics to be classified in the unbalanced data set, and use distance metric matrix to classify and verify the experiment. The invention uses geometric mean and maximum boundary theory to measure the distance between samples in an unbalanced data set better.
【技术实现步骤摘要】
一种基于离散度平衡的度量学习方法
本专利技术涉及数据挖掘与人工智能技术,具体是一种基于离散度平衡的度量学习方法,可恰当的度量不平衡数据间样本的相似度。
技术介绍
随着信息时代的发展,度量学习算法已极为广泛的应用至生产生活的各个方面。度量学习能根据已有样本的属性,针对性的学习距离度量方法,从而恰当的度量不同样本间的距离,以衡量样本间的相似性。恰当的距离度量方法能充分提高样本分类、聚类等应用的精度。近些年,研究人员从不同的角度提出了不同的解决思路,并获得了许多良好的距离度量方法。Xing.P针对样本间的度量学习,提出了一种凸优化模型,根据样本间的成对约束,使得同类间样本距离较小的同时,最大化不同类间样本的距离,在保证所获得距离度量矩阵为半正定矩阵的情况下,获得最优的距离度量。LMNN(大间隔最近邻居分类算法)是一种局部优化方法,其旨在使样本的k个近邻尽可能为同一类的样本,且尽可能的分离不同类的样本,并通过迭代求得最优解。ITML(基于信息论的距离度量学习)将信息论相关理论引入度量学习,并获得一个Bregman优化问题。ITML旨在最小化两个高斯分布间的KL散度,并在约束条件的作用下获得距离度量。研究人员针对样本的分布属性、标签信息等,提出了许多恰当的度量学习方法。然而,很多算法并不能很好的处理不平衡数据集。由于不平衡数据集中,不同类样本的数量差异较大,使得传统度量学习方法更倾向于样本数量大的类而忽略样本数量较小的类,造成距离度量不能准确的反应不同类间样本的相似性,而影响分类、聚类等应用的精度。
技术实现思路
本专利技术的目的在于提供一种基于离散度平衡的度量学习方法 ...
【技术保护点】
1.一种基于离散度平衡的度量学习方法,其特征在于,包括以下步骤:(1)利用采集到的不平衡样本数据,根据样本数据与标签信息,求出不同类重心间的距离,进一步定义归一化离散度;(2)将归一化离散度与几何均值结合,最大化几何均值,并使用log函数进一步平衡各类间离散度;(3)根据样本类别标签属性,利用最大边界理论,构建最大化问题;(4)构建度量学习算法模型,增加约束条件,使得所求距离度量有效可行,得到度量学习优化模型;(5)根据度量学习优化模型,利用梯度下降与迭代映射方法求解优化模型,获得距离度量矩阵;(6)提取不平衡数据集中待分类的样本特征,并使用步骤(5)获得的距离度量矩阵进行分类实验验证。
【技术特征摘要】
1.一种基于离散度平衡的度量学习方法,其特征在于,包括以下步骤:(1)利用采集到的不平衡样本数据,根据样本数据与标签信息,求出不同类重心间的距离,进一步定义归一化离散度;(2)将归一化离散度与几何均值结合,最大化几何均值,并使用log函数进一步平衡各类间离散度;(3)根据样本类别标签属性,利用最大边界理论,构建最大化问题;(4)构建度量学习算法模型,增加约束条件,使得所求距离度量有效可行,得到度量学习优化模型;(5)根据度量学习优化模型,利用梯度下降与迭代映射方法求解优化模型,获得距离度量矩阵;(6)提取不平衡数据集中待分类的样本特征,并使用步骤(5)获得的距离度量矩阵进行分类实验验证。2.根据权利要求1所述的基于离散度平衡的度量学习方法,其特征在于,所述的步骤(1)中,根据样本数据与其标签信息,计算各类重心间距离并定义归一化离散度,用作刻画不同类间的离散程度,具体包括以下步骤:11)根据样本标签信息,将所有样本划分为以下样本集合:s1,s2,…,sc,其中si包含第i类的所有样本,共c类;12)计算每类样本的重心ui,1≤i≤c,并计算在使用距离度量矩阵A时,定义归一化类间离散度如下:其中,qi是第i类样本的个数,dA(ui,uj)是在使用距离度量矩阵A时第i与j类样本重心间的距离;是第i与j类的归一化离散度,其刻画了两类样本间的离散程度。3.根据权利要求2所述的基于离散度平衡的度量学习方法,其特征在于,所述的步骤(2),具体包括以下步骤:21)将归一化离散度与几何均值结合如下:由于几何均值不等式,当且仅当不同类间归一化离散度相等时,公式(4)取得最大值;22)进一步采用了log函数,将其作用于公式(4)中的几何均值,使得不同类间离散度进一步平衡如下:4.根据权利要求3所述的基于离散度平衡的度量学习方法,其特征在于,所述的步骤(3),具体操作如下:为了进一步增加判别能力,根据样本数据与类别信息,采用了最大边界理论如下:其中,yi代表样本xi的类别标签。5.根据...
【专利技术属性】
技术研发人员:钱冬云,金慧峰,叶聪相,陈贤敏,
申请(专利权)人:浙江工贸职业技术学院,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。