基于图聚类标签传播的集成多分类器融合分类方法和系统技术方案

技术编号：9719046 阅读：321 留言：0更新日期：2014-02-27 05:55

一种基于图聚类标签传播的集成多分类器融合分类方法，包括：使用训练样本训练基本分类器，对训练样本和测试样本进行多次聚类，得到多种聚类划分状态；根据聚类划分状态进行标签传播，得到测试样本的聚类类别标签；所有聚类划分状态和基本分类器上述步骤处理，得到测试样本的聚类类别信息集合；将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵，并根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数以控制其在融合中的限制范围，根据分类融合目标方程将待分类样本的聚类类别信息和基本分类器的预测标签信息使用BGCM法进行融合分类，得到最终的类别标签。本发明专利技术在样本存在差异时，分类准确率高。

全部详细技术资料下载

【技术实现步骤摘要】
基于图聚类标签传播的集成多分类器融合分类方法和系统
本专利技术属于分类领域，特别涉及一种基于图聚类标签传播的集成多分类器融合分类方法和系统。
技术介绍
在实际分类情况下，存在测试样本和训练样本之间具有分布差异的情况。由于测试样本和训练样本之间存在聚类误差，常用分类器无法克服样本之间差异性以达到对测试样本的准确分类。在模式分类中，单一分类器一般是从某一角度对样本的属性进行描述，测试样本与训练样本之间存在分布差距时，容易出现分类误差。多分类器集成分类方法是指将多个分类器联合起来达到最优分类的方法，如现有技术中主要是由多分类器的预测标签进行融合得到测试样本的类别标签，测试样本与训练样本存在分布差距时，分类器得到的预测标签存在误差，导致最终的分类准确率低。再如聚类集成分类方法中，现有技术中根据训练样本的聚类划分分别训练分类器，该类方法的聚类误差容易导致分类误差。为了避免以上研究中的问题，本专利技术弥补现有聚类集成分类方法中因样本聚类误差而导致分类准确率低的问题，使用测试样本的聚类信息和基本分类器的预测标签集合进行分类融合以提高分类准确率。
技术实现思路
本专利技术使用多种基本分类器和多种聚类划分共同推断样本类别信息。在样本之间存在聚类误差的情况下，可以克服训练样本得到的基本分类器的分类误差，充分利用了样本聚类划分，避免聚类误差影响分类准确率。本专利技术结合基本分类器和聚类划分的分类方法解决现有集成分类器在样本存在差异时分类准确率低的问题。本专利技术提供了一种基于图聚类标签传播的集成多分类器融合分类方法，从而得到样本类别标签的方法，包括以下步骤：步骤1使用训练样本训练基...
基于图聚类标签传播的集成多分类器融合分类方法和系统

【技术保护点】
一种基于图聚类标签传播的集成多分类器融合分类方法，其特征在于，包括：步骤1使用训练样本训练基本分类器，对训练样本和测试样本进行多次聚类，得到多种聚类划分状态；步骤2根据训练样本和测试样本的聚类划分状态进行标签传播，得到测试样本的聚类类别标签CCI；步骤3所有聚类划分状态和基本分类器经过步骤1和步骤2处理，得到测试样本的聚类类别信息集合；将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵，根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数，以便于限制参数在融合中的限制范围；步骤4根据分类融合目标方程，将待分类样本的聚类类别信息和基本分类器的预测标签信息使用二分图最大共识法进行融合分类，得到最终的类别标签。

【技术特征摘要】
1.一种基于图聚类标签传播的集成多分类器融合分类方法，其特征在于，包括：步骤1使用训练样本训练基本分类器，对训练样本和测试样本进行多次聚类，得到多种聚类划分状态；具体包括：步骤11对测试样本进行语音信号预处理和特征提取；步骤12对训练样本和测试样本进行聚类划分，获得聚类划分状态；步骤2根据训练样本和测试样本的聚类划分状态进行标签传播，得到测试样本的聚类类别标签CCI；具体包括：步骤21使用基本分类器对测试样本进行预分类，得到测试样本的预分类结果；步骤22使用基于图的近邻标签传播方法，得到测试样本的聚类类别标签CCI；步骤3所有聚类划分状态和基本分类器经过步骤1和步骤2处理，得到测试样本的聚类类别标签；将聚类类别标签和基本分类器的分类信息共同构成集成分类器的决策矩阵，根据聚类类别标签和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数，以便于限制参数在融合中的限制范围；步骤4根据分类融合目标方程，将测试样本的聚类类别标签和基本分类器的分类信息使用二分图最大共识法进行融合分类，得到最终的类别标签。2.如权利要求1所述的方法，其特征在于，所述使用基于图的近邻标签传播方法，得到测试样本的聚类类别标签CCI，具体包括：根据聚类划分对测试样本建立近邻关系图G和标签图LG，其中，近邻关系图G为：G(xi,xj)＝w(xi,xj)，如果xi和xj在同一簇中且互为近邻，w(xi,xj)＝(1+dist(xi,xj))-1，其中dist(xi,xj)表示样本xi,xj之间的距离，否则w(xi,xj)＝0；标签图LG为：LG(xi)＝l,l＝label(xi)l∈[0...num]；根据待分类样本的近邻样本的类别标签计算类别相似值以推断其聚类类别标签；若无法得到聚类类别标签，则此时待分类样本的近邻样本大多数均为无标签的待分类样本，此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算类别相似值推断其在此聚类情况下的类别信息。3.如权利要求1所述的方法，其特征在于，所述目标方程为：其中，kj为基本分类器每个分组的限制范围参数，表示在融合过程中s个分类器分组起限制作用，聚类类别标签的限制作用比分类器的限制作用小；如果xi被划分到gj中，aij＝1，...

【专利技术属性】
技术研发人员：毛启容，胡素黎，王丽，詹永照，
申请(专利权)人：江苏大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人