The invention discloses a packet fusion ensemble learning data classification method, which comprises the following steps: S1: acquiring data to form a training set and a test set; S2: dividing the training set into K subsets using a subspace partitioning module; S3: training a classifier model corresponding to a subset; S4: calculating the weight corresponding to each classifier model. Factor; S5: Input the data to be tested into each classifier model, the output of each classifier model sample label and the corresponding weight factor multiplied to get the final classification results. The effect is: by subcontracting and learning the samples in each subspace, the influence of aliasing region in the sample space on the classifier model is weakened, and then the false classification samples in each subset are enhanced, and then transmitted to the next subset to learn again, so as to increase the sample utilization rate. The multi-space weighted fusion ensemble learning module is used to integrate the prediction of all subsets to further weaken the influence of aliasing region samples on the classifier model and improve the classification accuracy.
【技术实现步骤摘要】
分包融合集成学习数据分类方法
本专利技术属于大数据领域中的数据分类识别技术,具体涉及一种分包融合集成学习数据分类方法。
技术介绍
在大数据领域中,数据分类具有广泛的应用,例如医疗诊断、情感判断、语义识别以及图像识别等。常用的分类器主要采用:随机森林(RF)算法,K最近邻(KNN)算法,支持向量机(SVM)模型,极限学习机(ELM)模型等。虽然现有的研究在特征提取,特征学习和分类器设计等方面都取得了很大的进展,但是样本研究往往没有被重视。以基于语音数据的帕金森病诊断为例,在语音采样和预处理过程中,可能受到采集设备,噪声等因素的影响,最终得到的数值样本与实际样本之间可能存在较大误差,形成异常样本。异常样本通常会导致样本空间中不同类别样本混叠形成重叠区域,重叠区域样本可能误导分类器模型。目前还没有研究结果可以证明这部分样本对建立的分类器模型有利或有害。现有的方法要么删除这部分样本,要么将其视为与其他样本一样重要,并没有考虑通过算法来弱化这些样本对分类器的影响。
技术实现思路
基于上述缺陷,本专利技术提供一种分包融合集成学习数据分类方法,该方法通过对样本空间进行学习,弱化重叠区域样本对分类模型的影响。首先,将训练集中每个样本的质心距离测量比值作为样本权重进行计算。训练样本中的样本按照样本权重降序排列。然后将排序的训练集样本依次划分成若干子集。其次,采用留一交叉验证(LOO)方法对一个子集的错误分类样本和错误率进行计算,并利用每个子集训练出一个子分类器模型。基于每个子集内的样本权重计算惩罚因子,子集的权重因子由LOO之后的子集的误差率计算。在所有子集的学习过程中,来自前 ...
【技术保护点】
1.一种分包融合集成学习数据分类方法,其特征包括以下步骤:S1:获取数据形成训练集和测试集;S2:利用子空间划分模块将训练集分为K个子集,K为大于或等于2的整数;S3:对应一个子集训练一个分类器模型;S4:计算每个分类器模型对应的权重因子;S5:将待测数据输入每一个分类器模型中,各个分类器模型输出的样本标签与对应的权重因子相乘后加权得到最后的分类结果。
【技术特征摘要】
1.一种分包融合集成学习数据分类方法,其特征包括以下步骤:S1:获取数据形成训练集和测试集;S2:利用子空间划分模块将训练集分为K个子集,K为大于或等于2的整数;S3:对应一个子集训练一个分类器模型;S4:计算每个分类器模型对应的权重因子;S5:将待测数据输入每一个分类器模型中,各个分类器模型输出的样本标签与对应的权重因子相乘后加权得到最后的分类结果。2.根据权利要求1所述的分包融合集成学习数据分类方法,其特征在于:步骤S2中所述子空间划分模块采用类心距离度量比值作为样本的权重,通过计算训练集中每个样本的类心距离度量比值,并按从大到小顺序依次排队,最后划分为K个子集。3.根据权利要求1或2所述的分包融合集成学习数据分类方法,其特征在于:步骤S3采用子空间样本传递式训练方式进行分类器模型的训练,具体为:S31:设定子集Tk的真实的标签表示为:Yk=[y1,y2,…,yj,…,ys],使用留一交叉验证法进行验证得到预测标签集合是Lk;S32:统计子集Tk中误分类样本和子集的分类错误率error_rate...
【专利技术属性】
技术研发人员:李勇明,张成,王品,李淋玉,谭晓衡,颜芳,
申请(专利权)人:重庆大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。