当前位置: 首页 > 专利查询>重庆大学专利>正文

分包融合集成学习数据分类方法技术

技术编号:18713113 阅读:24 留言:0更新日期:2018-08-21 23:00
本发明专利技术公开一种分包融合集成学习数据分类方法,包括以下步骤:S1:获取数据形成训练集和测试集;S2:利用子空间划分模块将训练集分为K个子集;S3:对应一个子集训练一个分类器模型;S4:计算每个分类器模型对应的权重因子;S5:将待测数据输入每一个分类器模型中,各个分类器模型输出的样本标签与对应的权重因子相乘后加权得到最后的分类结果。其效果是:通过分包并对每个子空间中样本进行学习,弱化样本空间中混叠区域对分类器模型的影响,然后对每个子集误分类样本进行增强,传递至下一个子集中再次学习,增加样本利用率。利用多空间加权融合集成学习模块对所有子集的预测进行加权集成,从而进一步弱化混叠区域样本对分类器模型的影响,提高分类精度。

Packet classification and ensemble learning data classification method

The invention discloses a packet fusion ensemble learning data classification method, which comprises the following steps: S1: acquiring data to form a training set and a test set; S2: dividing the training set into K subsets using a subspace partitioning module; S3: training a classifier model corresponding to a subset; S4: calculating the weight corresponding to each classifier model. Factor; S5: Input the data to be tested into each classifier model, the output of each classifier model sample label and the corresponding weight factor multiplied to get the final classification results. The effect is: by subcontracting and learning the samples in each subspace, the influence of aliasing region in the sample space on the classifier model is weakened, and then the false classification samples in each subset are enhanced, and then transmitted to the next subset to learn again, so as to increase the sample utilization rate. The multi-space weighted fusion ensemble learning module is used to integrate the prediction of all subsets to further weaken the influence of aliasing region samples on the classifier model and improve the classification accuracy.

【技术实现步骤摘要】
分包融合集成学习数据分类方法
本专利技术属于大数据领域中的数据分类识别技术,具体涉及一种分包融合集成学习数据分类方法。
技术介绍
在大数据领域中,数据分类具有广泛的应用,例如医疗诊断、情感判断、语义识别以及图像识别等。常用的分类器主要采用:随机森林(RF)算法,K最近邻(KNN)算法,支持向量机(SVM)模型,极限学习机(ELM)模型等。虽然现有的研究在特征提取,特征学习和分类器设计等方面都取得了很大的进展,但是样本研究往往没有被重视。以基于语音数据的帕金森病诊断为例,在语音采样和预处理过程中,可能受到采集设备,噪声等因素的影响,最终得到的数值样本与实际样本之间可能存在较大误差,形成异常样本。异常样本通常会导致样本空间中不同类别样本混叠形成重叠区域,重叠区域样本可能误导分类器模型。目前还没有研究结果可以证明这部分样本对建立的分类器模型有利或有害。现有的方法要么删除这部分样本,要么将其视为与其他样本一样重要,并没有考虑通过算法来弱化这些样本对分类器的影响。
技术实现思路
基于上述缺陷,本专利技术提供一种分包融合集成学习数据分类方法,该方法通过对样本空间进行学习,弱化重叠区域样本对分类模型的影响。首先,将训练集中每个样本的质心距离测量比值作为样本权重进行计算。训练样本中的样本按照样本权重降序排列。然后将排序的训练集样本依次划分成若干子集。其次,采用留一交叉验证(LOO)方法对一个子集的错误分类样本和错误率进行计算,并利用每个子集训练出一个子分类器模型。基于每个子集内的样本权重计算惩罚因子,子集的权重因子由LOO之后的子集的误差率计算。在所有子集的学习过程中,来自前一个子集的误分类样本被增强后传递到下一个子集中,再对下一个子集进行学习。再次,使用子集的权重因子和惩罚因子来计算每个子集的权重,并使用子集权重对每个子分类器的测试结果进行加权。通过对每个子空间中样本进行学习,并对每个子集误分类样本进行增强,传递至下一个子集中再次学习,以此实现对现有样本的充分利用,增加样本利用率。利用多空间加权融合集成学习模块对所有子集的预测进行加权集成,从而进一步弱化混叠区域样本对分类器模型的影响,提高分类精度。为实现上述目的,本专利技术所采用的具体技术方案如下:一种分包融合集成学习数据分类方法,其特征包括以下步骤:S1:获取数据形成训练集和测试集;S2:利用子空间划分模块将训练集分为K个子集,K为大于或等于2的整数;S3:对应一个子集训练一个分类器模型;S4:计算每个分类器模型对应的权重因子;S5:将待测数据输入每一个分类器模型中,各个分类器模型输出的样本标签与对应的权重因子相乘后加权得到最后的分类结果。进一步地,步骤S2中所述子空间划分模块采用类心距离度量比值作为样本的权重,通过计算训练集中每个样本的类心距离度量比值,并按从大大小顺序依次排队,最后划分为K个子集。进一步地,步骤S3采用子空间样本传递式训练方式进行分类器模型的训练,具体为:S31:设定子集Tk的真实的标签表示为:Yk=[y1,y2,…,yj,…,ys],使用留一交叉验证法进行验证得到预测标签集合是Lk;S32:统计子集Tk中误分类样本和子集的分类错误率error_rate,S33:按照计算出K个子集训练的分类器模型的权重因子。进一步地,步骤S32中分类错误率其中:wj表示第j个样本的类心距离度量比值,表示子集Tk中s个样本的类心距离度量比值加权值,weight(j)代表第j个样本的初始化权重;I(Yk(j)≠Lk(j)表示第j个样本被误分类。进一步地,设定子集Tk中通过留一交叉验证之后的误分类样本集合为该样本经过增强后传递到下一个子集Tk+1中进行再学习。进一步地,误分类样本的增强方式为其中:是错分样本的原始权重,是增强后错分样本的权重。进一步地,采用多空间加权集成学习模块进行加权处理,具体为:S41:按照分别计算K个子集的惩罚因子;S42:按照weightk=βk·αk计算每个子集分类器的权重;S43:计算每个子集分类器输出的样本预测标签的权重。本专利技术的显著效果是:本方法提出的子空间划分模块是基于bagging算法中包的概念,将训练集按照一定的准则直接划分为若干子集,而不是像bagging算法那样重复随机抽样,算法上省去重复抽样过程,减小时间复杂度,根据样本空间中样本分布特性划分子集,弱化了混叠区域样本在训练分类器模型时对其他样本的影响,子空间之间样本传递式训练模块参考了Adaboost算法中样本增强的概念和分类器权重计算的思想,对每个子空间中样本进行学习,并对每个子集误分类样本进行增强,传递至下一个子集中再次学习,以此实现对现有样本的充分利用,增加样本利用率;最后利用多空间加权融合集成学习模块对所有子集的预测进行加权集成,从而进一步弱化混叠区域样本对分类器模型的影响,提高分类精度。附图说明图1为本专利技术的控制流程图;图2是子空间划分模块中数据分包流程图;图3是类心距离计算原理图;图4是子空间样本传递式训练流程图;图5是多空间加权集成学习的流程图;图6是不同子集数目时随机抽取样本的分类准确率平均结果;图7所示为不同情况下各个子集权重和测试集预测结果;图8为具体实施例中不同算法的性能效果图。具体实施方式为了使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。如图1所示,本实施例提供一种分包融合集成学习数据分类方法,包括以下步骤:S1:获取数据形成训练集和测试集;S2:利用子空间划分模块将训练集分为K个子集,K为大于或等于2的整数;S3:对应一个子集训练一个分类器模型;S4:计算每个分类器模型对应的权重因子;S5:将待测数据输入每一个分类器模型中,各个分类器模型输出的样本标签与对应的权重因子相乘后加权得到最后的分类结果。本实施例将该方法应用到帕金森病诊断过程中,通过对语音数据进行分类处理,实现帕金森病的早期诊断和预测。使用到的数据集是“Trainingset”,由Sakar等人提供,并从加利福尼亚大学欧文分校(UCI)机器学习数据集库网站下载。该数据集分为两个部分:患有帕金森病受试者和健康受试者。其中患有帕金森病的受试者中有男性14例,女性6例;健康受试者中有男性10例,女性10例。因此,数据集共有40个受试者。整个数据集包含1040个样本,每个样本有26个特征。值得注意的是,每个受试者有26个样本,这些样本代表26个不同的语音任务。上述方法在具体实现时可以分为子空间划分模块(SP),子空间样本传递式训练模块(TST)和多空间加权集成学习模块(MWEL)三部分实现,SP模块用于对训练集进行划分子集。在TST模块中使用每个子集来训练子分类器模型并计算子集的相关参数。用MWEL模块对所有子集的预测标签进行加权融合,得到最终的分类结果。如图2所示,bagging算法通过在训练集中采用有放回随机采样的方法来生成多个新训练集,每个新训练的样本数与原始训练集的样本数相同。然后每个新训练集训练出一个分类器模型并用测试集进行验证。最后,通过投票方式对每个新训练集的分类器模型的预测标签进行加权,得到最终结果。显然,bagging算法中的训练集是通过随机抽样获得的,这就导致了结果的不确定性。使用bagging算法进行分类实验时,通常要将实验重复多次本文档来自技高网...

【技术保护点】
1.一种分包融合集成学习数据分类方法,其特征包括以下步骤:S1:获取数据形成训练集和测试集;S2:利用子空间划分模块将训练集分为K个子集,K为大于或等于2的整数;S3:对应一个子集训练一个分类器模型;S4:计算每个分类器模型对应的权重因子;S5:将待测数据输入每一个分类器模型中,各个分类器模型输出的样本标签与对应的权重因子相乘后加权得到最后的分类结果。

【技术特征摘要】
1.一种分包融合集成学习数据分类方法,其特征包括以下步骤:S1:获取数据形成训练集和测试集;S2:利用子空间划分模块将训练集分为K个子集,K为大于或等于2的整数;S3:对应一个子集训练一个分类器模型;S4:计算每个分类器模型对应的权重因子;S5:将待测数据输入每一个分类器模型中,各个分类器模型输出的样本标签与对应的权重因子相乘后加权得到最后的分类结果。2.根据权利要求1所述的分包融合集成学习数据分类方法,其特征在于:步骤S2中所述子空间划分模块采用类心距离度量比值作为样本的权重,通过计算训练集中每个样本的类心距离度量比值,并按从大到小顺序依次排队,最后划分为K个子集。3.根据权利要求1或2所述的分包融合集成学习数据分类方法,其特征在于:步骤S3采用子空间样本传递式训练方式进行分类器模型的训练,具体为:S31:设定子集Tk的真实的标签表示为:Yk=[y1,y2,…,yj,…,ys],使用留一交叉验证法进行验证得到预测标签集合是Lk;S32:统计子集Tk中误分类样本和子集的分类错误率error_rate...

【专利技术属性】
技术研发人员:李勇明张成王品李淋玉谭晓衡颜芳
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1