基于多目标优化的高维数据半监督集成分类方法技术

技术编号:15502273 阅读:204 留言:0更新日期:2017-06-03 23:14
本发明专利技术公开了一种基于多目标优化的高维数据半监督集成分类方法,涉及人工智能集成学习领域,主要解决现有技术中对子空间优化和选择以及半监督信息利用的问题。该高维数据半监督集成分类方法包括下列步骤:S1、输入训练数据集;S2、对输入的上述训练数据集进行数据归一化;S3、产生随机子空间集合;S4、多目标优化选取子空间集合;S5、寻找特征子空间中最优半监督分类器;S6、对测试样本进行分类;S7、计算分类准确率。本发明专利技术利用随机子空间解决了高维数据难处理的问题;利用多目标优化的解决方法,充分优化子空间的选择来提高子空间的鲁棒性;并充分利用无标签和有标签的信息来优化子空间的分类器,提高分类器的泛化能力。

Semi supervised integrated classification method for high dimensional data based on multi objective optimization

The invention discloses an integrated semi supervised classification methods for high dimensional data based on multi objective optimization, involving artificial intelligence integrated learning, mainly to solve the subspace selection and optimization of existing technology and semi supervised information use. The integrated semi supervised classification methods of the high dimensional data includes the following steps: S1, input training data set; S2, the training of input data sets for data normalization; S3, random subspace S4 sets; multi-objective optimization, subspace selection set; S5, to find the optimal feature subspace semi supervised classifier; S6 and to classify the test sample; S7, calculate the accuracy rate of classification. The invention solves the difficult problem of high dimensional data using stochastic subspace; solving method with multi-objective optimization, optimize subspace selection to improve the robustness of the subspace; and make full use of information and no label label to optimize subspace classifier and improve the generalization ability of the classifier.

【技术实现步骤摘要】
基于多目标优化的高维数据半监督集成分类方法
本专利技术涉及涉及计算机人工智能领域,具体涉及一种基于多目标优化的高维数据半监督集成分类方法。
技术介绍
有标签的数据的获得因为需要耗费大量的人力和物力,但是无标签的数据往往比较容易被收集到。举个例子,在文本挖掘中存在大量的无标记的网页信息,如果通过人工来一个个对网页信息作出标记则花费的时间和其他支出是难以想象的。由于有监督的学习若在在训练样本数量不足的时候训练出的学习模型分类效果会比较差,而为了解决这种问题,越来越多的研究者将其注意力放到了怎么利用无标签和有标签数据的半监督分类领域中,比如在视频标注、图像标注、自然语言处理、蛋白质功能预测、文本分类、基因信息处理等等的应用。但是单一的半监督分类方法却普遍存在对参数值敏感以及由于受到无标签数据限制而使得学习器功能泛化能力不够好这两个问题。近年来,为了解决单一半监督分类方法带来的问题,Yu等人提出了基于随机子空间下利用属性采样来学习高维数据,并且在图像处理方面得到了比较好的应用。Li等人提出了基于协同训练理论以及随机森林算法的协同森林算法。目前的半监督分类集成也有其局限性。第一,大多数分类集成框架并不能很好的处理高位数据集。第二,传统的半监督分类集成都是考虑如何将无标签数据进行标签处理并以此只是利用置信度较高的数据来进行训练。第三,一些使用随机子空间的方法仅仅只是将属性进行简单的采样,并没有对每一个子空间进行优化和选择。第四,在集成学习方法中最后一般要对每个子空间的结果进行结合来得到最终结果,但是现如今的方法仅仅是进行简单的投票方法,并不能对每个被选择出来的子空间在分类过程做出相应的评价。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于多目标优化的高维数据半监督集成分类方法。本专利技术的目的可以通过采取如下技术方案达到:一种基于多目标优化的高维数据半监督集成分类方法,所述方法包括下列步骤:S1、输入训练数据集,将一个待分类处理的高维数据集X,行向量对应样本维,列向量对应属性维,然后利用训练数据的类标签来将数据划分为无标签数据和有标签数据;S2、对输入的上述训练数据集进行数据归一化,获取第d列数据相对应的最大值W(d)max和最小值W(d)min,将第d列数据根据如下的公式进行转换:其中,为第d列第i个数据,为更新之后的数据,n为数据集中样本总的数量,D为数据集对应的维度数,i∈{1,2,.....,n},d∈{1,2,.....,D};S3、产生随机子空间集合;S31、获取高维数据集的属性维度数,产生子空间的属性维度数;S32、对原始数据集包括无标签和有标签数据重复随机采取属性列;S33、重复步骤S31和步骤S32,直到产生S个随机子空间;S4、多目标优化选取子空间集合;S41、将每个子空间的数据进行三个目标函数的计算,得到相对应目标函数的值;S42、根据每个子空间的多目标优化函数的值确定其初始的优先排序rank,找出非支配子空间集合P,即目标函数都优于其他子空间;S43、将非支配子空间集合P根据standardDE计算方式再初始化含有P/2个子空间的子空间集合Q;S44、通过基于Jaccard系数的近邻函数来求解P中分别与Q在特征上的相似性和差异性;S45、将步骤S44得到函数用于模糊成员函数中来得到P中各自子空间的在Q中各自k个近邻子空间;S46、将步骤S45得到的相邻子空间通过聚集成员函数来随机得到P中各自子空间的最近邻的子空间;S47、将P中各自子空间与相对应的最近邻子空间通过线性聚合函数得到一个新对应集合W;S48、通过快速非支配算法计算步骤S47中P与Q以及W中相对应的子空间,得到最优的子空间,更新P中的子空间;S49、通过特征间交叉变换操作和变异变换操作产生新的子空间集合Pt,得到新的子空间集合P=P∪Pt;S410、对特征集合P进行非支配排序算法操作,通过排挤和精英保留策略选出S个子空间,组成新的特征集合P;S411、对步骤S41到步骤S410进行t次循环迭代;S5、寻找特征子空间中最优半监督分类器;S51、对步骤S4得到的子空间集合进行属性采样处理;S52、输入样本采样操作的次数n;S53、对步骤S51得到的属性维采样后的数据集根据样本是否有标签分别进行采样操作,设置采样率,其中有标签样本中没有被采集到的样本作为测试样本X_test,被选择到的有标签样本和无标签样本为训练样本X_train;S54、用X_train对LapRLS分类器进行训练并对X_test进行测试,得到准确率;S55、返回步骤S53,直到采样的次数达到n;S56、对n个在属性和样本采样下训练好的LapRLS分类器根据其分类准确率进行排序,选择准确率最高的作为该子空间的最优分类器;S57、对每个子空间分别执行步骤S51到步骤56,直到结束;S6、对测试样本进行分类;S61、输入测试样本集T;S62、取出一个测试样本T进行分类;S63、将测试样本T按各自子空间的属性采样维进行采样得到各个子空间适配的样本;S64、使用每个子空间的最优分类器对相对应的样本进行分类,每个子空间得到相对应的结果;S65、综合每个子空间得到的分类结果,将被预测最多的分类结果作为最终分类结果;S66、循环步骤S62到步骤S65,将测试样本集T中的样本都进行分类预测结果集Lt;S7、计算分类准确率;S71、输入测试样本集的标签集L;S72、对比L与Lt,计算得到分类准确率。进一步地,所述步骤S31、获取高维数据集的属性维度数,产生子空间的属性维度数具体为:获取高维数据集的属性总维度数为D,产生子空间初始的属性维度数为所述步骤S32、对原始数据集包括无标签和有标签数据重复随机采取属性列具体为:构造一个[0,…,D]的特征标识数组,然后随机在特征标识数组中随机挑选d个属性。进一步地,所述步骤S41中三个目标函数分别为f1(R),f2(R),f3(R),其中,f1(R)代表特征与类别的相关性,f2(R)代表特征之间的冗余性,f3(R)代表数据集间的结构误差,所述步骤S41具体过程如下:整体的多目标优化函数为:其中,R为子空间的特征集合,目标函数f1(R)为其中(xi,xj)∈ΩML为属于相同类别的样本对,(xi,xj)∈ΩCL为属于不同类别的样本对,r为R特征集合中对应的第r个特征,fri代表样本i的第r个特征相对应的数据集,d为子空间中特征集合的数量;目标函数其中,p(fr,fc)是皮尔逊相关系数,其中和是对应的fr和fc相对应的特征数据矩阵的平均值,然后通过互信息即I(fr,fc)来衡量两个特征之间的相似性,所以f2(R)求解的是子空间中各个特征之间相似性的平均值;目标函数f3(R)为其中fiR是在子空间R下相对应的特征样本矩阵,通过求解样本与样本之间的KNN矩阵来确定两个样本之间的关系,运用有标签样本的信息来构造样本关系矩阵W。进一步地,所述步骤S42具体过程为:将求出的子空间的多目标优化函数值进行非支配排序,即寻找子空间的Pareto解,这是一个循环的适应值分级过程,即先找出子空间集合中的非支配解集,记为第一层非支配层F,将其所有的子空间赋予非支配序irank=1,其中irank是个体i的非支配序值,并从子空间集合中除去,然后继续本文档来自技高网
...
基于多目标优化的高维数据半监督集成分类方法

【技术保护点】
一种基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述方法包括下列步骤:S1、输入训练数据集,将一个待分类处理的高维数据集X,行向量对应样本维,列向量对应属性维,然后利用训练数据的类标签来将数据划分为无标签数据和有标签数据;S2、对输入的上述训练数据集进行数据归一化,获取第d列数据相对应的最大值W(d)

【技术特征摘要】
1.一种基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述方法包括下列步骤:S1、输入训练数据集,将一个待分类处理的高维数据集X,行向量对应样本维,列向量对应属性维,然后利用训练数据的类标签来将数据划分为无标签数据和有标签数据;S2、对输入的上述训练数据集进行数据归一化,获取第d列数据相对应的最大值W(d)max和最小值W(d)min,将第d列数据根据如下的公式进行转换:其中,为第d列第i个数据,为更新之后的数据,n为数据集中样本总的数量,D为数据集对应的维度数,i∈{1,2,.....,n},d∈{1,2,.....,D};S3、产生随机子空间集合;S31、获取高维数据集的属性维度数,产生子空间的属性维度数;S32、对原始数据集包括无标签和有标签数据重复随机采取属性列;S33、重复步骤S31和步骤S32,直到产生S个随机子空间;S4、多目标优化选取子空间集合;S41、将每个子空间的数据进行三个目标函数的计算,得到相对应目标函数的值;S42、根据每个子空间的多目标优化函数的值确定其初始的优先排序rank,找出非支配子空间集合P,即目标函数都优于其他子空间;S43、将非支配子空间集合P根据standardDE计算方式再初始化含有P/2个子空间的子空间集合Q;S44、通过基于Jaccard系数的近邻函数来求解P中分别与Q在特征上的相似性和差异性;S45、将步骤S44得到函数用于模糊成员函数中来得到P中各自子空间的在Q中各自k个近邻子空间;S46、将步骤S45得到的相邻子空间通过聚集成员函数来随机得到P中各自子空间的最近邻的子空间;S47、将P中各自子空间与相对应的最近邻子空间通过线性聚合函数得到一个新对应集合W;S48、通过快速非支配算法计算步骤S47中P与Q以及W中相对应的子空间,得到最优的子空间,更新P中的子空间;S49、通过特征间交叉变换操作和变异变换操作产生新的子空间集合Pt,得到新的子空间集合P=P∪Pt;S410、对特征集合P进行非支配排序算法操作,通过排挤和精英保留策略选出S个子空间,组成新的特征集合P;S411、对步骤S41到步骤S410进行t次循环迭代;S5、寻找特征子空间中最优半监督分类器;S51、对步骤S4得到的子空间集合进行属性采样处理;S52、输入样本采样操作的次数n;S53、对步骤S51得到的属性维采样后的数据集根据样本是否有标签分别进行采样操作,设置采样率,其中有标签样本中没有被采集到的样本作为测试样本X_test,被选择到的有标签样本和无标签样本为训练样本X_train;S54、用X_train对LapRLS分类器进行训练并对X_test进行测试,得到准确率;S55、返回步骤S53,直到采样的次数达到n;S56、对n个在属性和样本采样下训练好的LapRLS分类器根据其分类准确率进行排序,选择准确率最高的作为该子空间的最优分类器;S57、对每个子空间分别执行步骤S51到步骤56,直到结束;S6、对测试样本进行分类;S61、输入测试样本集T;S62、取出一个测试样本T进行分类;S63、将测试样本T按各自子空间的属性采样维进行采样得到各个子空间适配的样本;S64、使用每个子空间的最优分类器对相对应的样本进行分类,每个子空间得到相对应的结果;S65、综合每个子空间得到的分类结果,将被预测最多的分类结果作为最终分类结果;S66、循环步骤S62到步骤S65,将测试样本集T中的样本都进行分类预测结果集Lt;S7、计算分类准确率;S71、输入测试样本集的标签集L;S72、对比L与Lt,计算得到分类准确率。2.根据权利要求1所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述步骤S31、获取高维数据集的属性维度数,产生子空间的属性维度数具体为:获取高维数据集的属性总维度数为D,产生子空间初始的属性维度数为所述步骤S32、对原始数据集包括无标签和有标签数据重复随机采取属性列具体为:构造一个[0,…,D]的特征标识数组,然后随机在特征标识数组中随机挑选d个属性。3.根据权利要求1所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述步骤S41中三个目标函数分别为f1(R),f2(R),f3(R),其中,f1(R)代表特征与类别的相关性,f2(R)代表特征之间的冗余性,f3(R)代表数据集间的结构误差,所述步骤S41具体过程如下:整体的多目标优化函数为:其中,R为子空间的特征集合,目标函数f1(R)为其中(xi,xj)∈ΩML为属于相同类别的样本对,(xi,xj)∈ΩCL为属于不同类别的样本对,r为R特征集合中对应的第r个特征,fri代表样本i的第r个特征相对应的数据集,d为子空间中特征集合的数量;目标函数其中,p(fr,fc)是皮尔逊相关系数,其中和是对应的fr和fc相对应的特征数据矩阵的平均值,然后通过互信息即I(fr,fc)来衡量两个特征之间的相似性,所以f2(R)求解的是子空间中各个特征之间相似性的平均值;目标函数f3(R)为其中fiR是在子空间R下相对应的特征样本矩阵,通过求解样本与样本之间的KNN矩阵来确定两个样本之间的关系,运用有标签样本的信息来构造样本关系矩阵W。4.根据权利要求3所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述步骤S42具体过程为:将求出的子空间的多目标优化函数值进行非支配排序,即寻找子空间的Pareto解,这是一个循环的适应值分级过程,即先找出子空间集合中的非支配解集,记为第一层非支配层F,将其所有的子空间赋予非支配序irank=1,其中irank是个体i的非支配序值,并从子空间集合中除去,然后继续找出余下子空间中的非支配解集,记为第二非支配层F2,子空间被赋予非支配序irank=2,依照这样的循环,直到整个子空间集合被分层,并且同一分层内的个体具有相同的非支配序irank。5.根据权利要求4所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述步骤S48具体过程为:子空间集合P中各个子空间之间的关系主要是先产生大小为子空间集合P一半的新子空间集合Q,其中Q是通过如下公式产生:Qi=Pi1+δ(Pi2-Pi3)其中i是Q中第...

【专利技术属性】
技术研发人员:余志文张乙东陈洁彦
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1