当前位置: 首页 > 专利查询>攀枝花学院专利>正文

基于数据分布特征的保序学习机制造技术

技术编号:19009618 阅读:32 留言:0更新日期:2018-09-22 09:25
本发明专利技术涉及机器学习领域,公开了一种基于数据分布特征的保序学习机,在分类时保持样本的相对顺序不变。本发明专利技术通过引入线性判别分析中的类内离散度用以表征数据的分布特征,通过在优化问题的约束条件中增加各类样本中心相对关系的限制,用以确保分类过程中将样本的相对关系考虑在内。本发明专利技术适用于模式分类。

Order preserving learning machine based on data distribution characteristics

The invention relates to the field of machine learning, and discloses an order preserving learning machine based on data distribution characteristics, which keeps the relative order of samples unchanged during classification. By introducing the intra-class dispersion in linear discriminant analysis to characterize the distribution characteristics of the data, and by adding the restriction of the relative relation of the sample centers in the constraints of optimization problems, the method ensures that the relative relation of the samples is taken into account in the classification process. The invention is applicable to pattern classification.

【技术实现步骤摘要】
基于数据分布特征的保序学习机
本专利技术涉及机器学习领域,特别涉及基于数据分布特征的保序学习机。
技术介绍
模式分类是机器学习、模式识别、数据挖掘等领域的研究热点之一。常见的分类方法有:决策树、关联规则、朴素贝叶斯、支持向量机等。这些方法在实际应用中取得了良好的分类效果,但依然面临以下挑战:(1)分类过程并未考虑数据的分布特征,无法进一步提升分类性能;(2)分类结果忽视了各类样本的相对关系。
技术实现思路
本专利技术要解决的技术问题是:提供一种基于数据分布特征的保序学习机,在分类时保持样本的相对顺序不变。为解决上述问题,本专利技术采用的技术方案是:基于数据分布特征的保序学习机(RankPreservationLearningMachinebasedonDataDistributionFusion,RPLM-DDF),通过引入线性判别分析(LinearDiscriminantAnalysis,LDA)中的类内离散度SW用以表征数据的分布特征,通过在优化问题的约束条件中增加各类样本中心相对关系的限制,以确保分类过程中将样本的相对关系考虑在内。进一步的,具体的算法流程如下:A.利用训练数据集建立基于类内离散度以及各类样本中心相对关系的限制的学习机模型,所述学习机模型的最优化问题为:其约束条件为:s.t.WT(mi+1-mi)≥ρ,i=1,2,…,c-1其中,W为分类超平面的法向量,β为平衡因子,v是通过网格搜索策略选择的常数,ρ为各类样本间距,是各类样本均值,c是类别数,SW是类内离散度,其定义为:其中Ci表示第i类样本集合,p(Ci)=Ni/N;B.利用Lagrangian乘子法将所述学习机模型的最优化问题转化为QP对偶形式,求得分类超平面的法向量;C.根据求得的法向量定义判别函数。进一步的,步骤B中,利用Lagrangian乘子法将所述学习机模型的最优化问题转化为对偶形式的步骤包括:B1.将所述学习机模型的最优化问题表示为以下Lagrangian函数式:其中,Lagrangian乘子α≥0;B2.L(W,ρ,α)分别对ρ,α求偏导并令偏导为0,得到:B3.将步骤B2得到的等式代入步骤B1中的Lagrangian函数式得到最优化问题的以下对偶形式:其约束条件为:进一步的,所述判别函数为:其中,bk=WT(mi+1+mi)/2。进一步的,若映射函数φ满足φ:x→φ(x),所述学习机模型的最优化问题的非线性形式为:其约束条件为:其中,所述非线性形式核化对偶形式为:其约束条件为:本专利技术的有益效果是:通过引入线性判别分析中的类内离散度,使得RPLM-DDF最大限度地降低了各类数据的类内离散度,通过在优化问题的约束条件中增加各类样本中心相对关系的限制,确保了分类过程中将样本的相对关系考虑在内,使得在分类时各类样本的相对关系不变。附图说明图1为RPLM-DDF工作示意图。图2为实施例1的人工实验数据集示意图;图3为实施例1的实验结果示意图;图4为实施例2对比实验结果示意图。具体实施方式当前主流分类方法在分类过程并未考虑数据的分布特征,且分类结果忽视各类样本的相对关系。假设三类样本在原始空间的先后顺序为m1、m2、m3,分类结果应尽量保证三类样本的相对关系不变。因此,三类样本投影在W1方向上的结果优于W2方向,如图1所示,鉴于此,本专利技术提出了一种基于数据分布特征的保序学习机RPLM-DDF,该方法引入线性判别分析LDA中的类内离散度用以表征数据的分布特征,通过在优化问题的约束条件中增加各类样本中心相对关系的限制,以确保分类过程中将样本的相对关系考虑在内。假设样本集为T={(x1,y1),(x2,y2),...,(xN,yN)}∈(X×Y)N,xi∈X,yi∈Y,X表示样本集合,Y表示类别标签。表示第i类样本均值,类别数为c,各类样本数为Ni(i=1,2,…,c),N为样本总数。则RPLM-DDF的最优化问题可描述为如下形式:其约束条件为:s.t.WT(mi+1-mi)≥ρ(i=1,2,…,c-1)(2)其中W为分类超平面的法向量,参数β为平衡因子,v是通过网格搜索策略选择的常数,ρ为各类样本间距,是各类样本均值,c是类别数,SW是类内离散度,其定义为:其中Ci(i=1,2)表示第i类样本集合,p(Ci)=Ni/N(i=1,2)。公式(1)由Lagrangian定理可得:L分别对W和ρ求偏导,并令偏导为0,有:将式(4)、(5)带入式(3)中,并去掉常数项得到如下对偶形式:其约束条件为:αi≥0(i=1,2,…,c-1)假设映射函数φ满足φ:x→φ(x)条件时,RPLM-DDF最优化问题的非线性形式可表示为:其约束条件为:其中上述优化问题核化对偶形式为:其约束条件为:αi≥0(i=1,2,…,c-1)基于上述思想,本专利技术总结RPLM-DDF具体的算法流程如下:A.利用训练数据集建立基于类内离散度以及各类样本中心相对关系的限制的学习机模型,所述学习机模型的最优化问题为:其约束条件为:s.t.WT(mi+1-mi)≥ρ,i=1,2,…,c-1其中,W为分类超平面的法向量,β为平衡因子,v是通过网格搜索策略选择的常数,ρ为各类样本间距,是各类样本均值,c是类别数,SW是类内离散度,其定义为:其中Ci表示第i类样本集合,p(Ci)=Ni/N;B.利用Lagrangian乘子法将所述学习机模型的最优化问题转化为对偶形式,求得分类超平面的法向量;本步骤中,利用Lagrangian乘子法将所述学习机模型的最优化问题转化为QO对偶形式的步骤包括:B1.将所述学习机模型的最优化问题表示为以下Lagrangian函数式:其中,Lagrangian乘子α≥0;B2.L(W,ρ,α)分别对ρ,α求偏导并令偏导为0,得到:B3.将步骤B2得到的等式代入步骤B1中的Lagrangian函数式得到最优化问题的以下对偶形式:其约束条件为:B4.针对于非线性形式,若映射函数φ满足φ:x→φ(x),所述学习机模型的最优化问题的非线性形式为:其约束条件为:其中,所述非线性形式核化对偶形式为:其约束条件为:C.根据求得的法向量定义判别函数,所述判别函数为:其中,bk=WT(mi+1+mi)/2。下面对本专利技术进行实验分析。实施例1人工生成五类服从Gaussian分布数据集,各类样本40个,各类中心点分别是(0,0)、(6,6)、(12,12)、(18,18)、(24,24),标准差设定为2。生成数据集如图2所示,通过RPLM-DDF求得方向向量为W,将生成数据投影到W后得到图3所示的实验结果,可知,实施例RPLM-DDF具有良好可分性,并且保持样本的相对顺序不变。实施例2实验数据集采用Iris标准数据集。该数据集由3类不同的鸢尾花组成,样本总数为150。每个样本由花萼长度、花萼宽度、花瓣长度、花瓣宽度、种类5种属性组成。随机选取Iris数据集的60%作为训练集,剩余40%作为测试集。通过与SVC(SupportVectorClassification)、朴素贝叶斯(NaiveBayesian)的比较实验来验证RPLM-DDF的有效性。RPLM-DDF算法的核函数采用高斯核函数。利用网格搜索方法得到实验参数,ν在{0.1,0.5,1,3,5,10}中选择,σ在中选择本文档来自技高网...
基于数据分布特征的保序学习机

【技术保护点】
1.基于数据分布特征的保序学习机,其特征在于,通过引入线性判别分析中的类内离散度用以表征数据的分布特征,通过在优化问题的约束条件中增加各类样本中心相对关系的限制,用以确保分类过程中将样本的相对关系考虑在内。

【技术特征摘要】
1.基于数据分布特征的保序学习机,其特征在于,通过引入线性判别分析中的类内离散度用以表征数据的分布特征,通过在优化问题的约束条件中增加各类样本中心相对关系的限制,用以确保分类过程中将样本的相对关系考虑在内。2.如权利要求1所述的基于数据分布特征的保序学习机,其特征在于,具体的算法流程如下:A.利用训练数据集建立基于类内离散度以及各类样本中心相对关系的限制的学习机模型,所述学习机模型的最优化问题为:其约束条件为:s.t.WT(mi+1-mi)≥ρ,i=1,2,…,c-1其中,W为分类超平面的法向量,β为平衡因子,v是通过网格搜索策略选择的常数,ρ为各类样本间距,是各类样本均值,c是类别数,SW是类内离散度,其定义为:其中Ci表示第i类样本集合,p(Ci)=Ni/N;B.利用Lagrangian乘子法将所述学习机模型的最优化问题转化为对偶形式,求得分类超平面的法向量;C.根据求得...

【专利技术属性】
技术研发人员:刘忠宝张靖周方晓秦振涛罗学刚
申请(专利权)人:攀枝花学院
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1