基于数据分布特征的保序学习机制造技术

技术编号：19009618 阅读：32 留言：0更新日期：2018-09-22 09:25

本发明专利技术涉及机器学习领域，公开了一种基于数据分布特征的保序学习机，在分类时保持样本的相对顺序不变。本发明专利技术通过引入线性判别分析中的类内离散度用以表征数据的分布特征，通过在优化问题的约束条件中增加各类样本中心相对关系的限制，用以确保分类过程中将样本的相对关系考虑在内。本发明专利技术适用于模式分类。

Order preserving learning machine based on data distribution characteristics

The invention relates to the field of machine learning, and discloses an order preserving learning machine based on data distribution characteristics, which keeps the relative order of samples unchanged during classification. By introducing the intra-class dispersion in linear discriminant analysis to characterize the distribution characteristics of the data, and by adding the restriction of the relative relation of the sample centers in the constraints of optimization problems, the method ensures that the relative relation of the samples is taken into account in the classification process. The invention is applicable to pattern classification.

全部详细技术资料下载

【技术实现步骤摘要】
基于数据分布特征的保序学习机
本专利技术涉及机器学习领域，特别涉及基于数据分布特征的保序学习机。
技术介绍
模式分类是机器学习、模式识别、数据挖掘等领域的研究热点之一。常见的分类方法有：决策树、关联规则、朴素贝叶斯、支持向量机等。这些方法在实际应用中取得了良好的分类效果，但依然面临以下挑战：(1)分类过程并未考虑数据的分布特征，无法进一步提升分类性能；(2)分类结果忽视了各类样本的相对关系。
技术实现思路
本专利技术要解决的技术问题是：提供一种基于数据分布特征的保序学习机，在分类时保持样本的相对顺序不变。为解决上述问题，本专利技术采用的技术方案是：基于数据分布特征的保序学习机(RankPreservationLearningMachinebasedonDataDistributionFusion,RPLM-DDF)，通过引入线性判别分析(LinearDiscriminantAnalysis,LDA)中的类内离散度SW用以表征数据的分布特征，通过在优化问题的约束条件中增加各类样本中心相对关系的限制，以确保分类过程中将样本的相对关系考虑在内。进一步的，具体的算法流程如下：A.利用训练数据集建立基于类内离散度以及各类样本中心相对关系的限制的学习机模型，所述学习机模型的最优化问题为：其约束条件为：s.t.WT(mi+1-mi)≥ρ，i＝1,2,…,c-1其中，W为分类超平面的法向量，β为平衡因子，v是通过网格搜索策略选择的常数，ρ为各类样本间距，是各类样本均值，c是类别数，SW是类内离散度，其定义为：其中Ci表示第i类样本集合，p(Ci)＝Ni/N；B.利用Lagra...
基于数据分布特征的保序学习机

【技术保护点】
1.基于数据分布特征的保序学习机，其特征在于，通过引入线性判别分析中的类内离散度用以表征数据的分布特征，通过在优化问题的约束条件中增加各类样本中心相对关系的限制，用以确保分类过程中将样本的相对关系考虑在内。

【技术特征摘要】
1.基于数据分布特征的保序学习机，其特征在于，通过引入线性判别分析中的类内离散度用以表征数据的分布特征，通过在优化问题的约束条件中增加各类样本中心相对关系的限制，用以确保分类过程中将样本的相对关系考虑在内。2.如权利要求1所述的基于数据分布特征的保序学习机，其特征在于，具体的算法流程如下：A.利用训练数据集建立基于类内离散度以及各类样本中心相对关系的限制的学习机模型，所述学习机模型的最优化问题为：其约束条件为：s.t.WT(mi+1-mi)≥ρ，i＝1,2,…,c-1其中，W为分类超平面的法向量，β为平衡因子，v是通过网格搜索策略选择的常数，ρ为各类样本间距，是各类样本均值，c是类别数，SW是类内离散度，其定义为：其中Ci表示第i类样本集合，p(Ci)＝Ni/N；B.利用Lagrangian乘子法将所述学习机模型的最优化问题转化为对偶形式，求得分类超平面的法向量；C.根据求得...

【专利技术属性】
技术研发人员：刘忠宝，张靖，周方晓，秦振涛，罗学刚，
申请(专利权)人：攀枝花学院，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人