当前位置: 首页 > 专利查询>江苏大学专利>正文

基于图聚类标签传播的集成多分类器融合分类方法和系统技术方案

技术编号:9719046 阅读:321 留言:0更新日期:2014-02-27 05:55
一种基于图聚类标签传播的集成多分类器融合分类方法,包括:使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种聚类划分状态;根据聚类划分状态进行标签传播,得到测试样本的聚类类别标签;所有聚类划分状态和基本分类器上述步骤处理,得到测试样本的聚类类别信息集合;将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵,并根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数以控制其在融合中的限制范围,根据分类融合目标方程将待分类样本的聚类类别信息和基本分类器的预测标签信息使用BGCM法进行融合分类,得到最终的类别标签。本发明专利技术在样本存在差异时,分类准确率高。

【技术实现步骤摘要】
基于图聚类标签传播的集成多分类器融合分类方法和系统
本专利技术属于分类领域,特别涉及一种基于图聚类标签传播的集成多分类器融合分类方法和系统。
技术介绍
在实际分类情况下,存在测试样本和训练样本之间具有分布差异的情况。由于测试样本和训练样本之间存在聚类误差,常用分类器无法克服样本之间差异性以达到对测试样本的准确分类。在模式分类中,单一分类器一般是从某一角度对样本的属性进行描述,测试样本与训练样本之间存在分布差距时,容易出现分类误差。多分类器集成分类方法是指将多个分类器联合起来达到最优分类的方法,如现有技术中主要是由多分类器的预测标签进行融合得到测试样本的类别标签,测试样本与训练样本存在分布差距时,分类器得到的预测标签存在误差,导致最终的分类准确率低。再如聚类集成分类方法中,现有技术中根据训练样本的聚类划分分别训练分类器,该类方法的聚类误差容易导致分类误差。为了避免以上研究中的问题,本专利技术弥补现有聚类集成分类方法中因样本聚类误差而导致分类准确率低的问题,使用测试样本的聚类信息和基本分类器的预测标签集合进行分类融合以提高分类准确率。
技术实现思路
本专利技术使用多种基本分类器和多种聚类划分共同推断样本类别信息。在样本之间存在聚类误差的情况下,可以克服训练样本得到的基本分类器的分类误差,充分利用了样本聚类划分,避免聚类误差影响分类准确率。本专利技术结合基本分类器和聚类划分的分类方法解决现有集成分类器在样本存在差异时分类准确率低的问题。本专利技术提供了一种基于图聚类标签传播的集成多分类器融合分类方法,从而得到样本类别标签的方法,包括以下步骤:步骤1使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种聚类划分状态;步骤2根据训练样本和测试样本的聚类划分状态进行标签传播,得到测试样本的聚类类别标签CCI;步骤3所有聚类划分状态和基本分类器经过步骤1和步骤2处理,得到测试样本的聚类类别标签;将聚类类别标签和基本分类器的分类信息共同构成集成分类器的决策矩阵,根据聚类类别标签和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数,以便于限制参数在融合中的限制范围;步骤4根据分类融合目标方程,将测试样本的聚类类别标签和基本分类器的分类信息使用二分图最大共识法进行融合分类,得到最终的类别标签。进一步的,上述步骤2,具体包括:对测试样本进行语音信号预处理和特征提取;对训练样本和测试样本进行聚类划分,获得聚类划分状态;使用基本分类器对测试样本进行预分类,得到测试样本的预分类结果;使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI。进一步的,上述第一方面中的所述使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI,具体包括:根据聚类划分对测试样本建立近邻关系图G和标签图LG,其中,近邻关系图G为:G(xi,xj)=w(xi,xj),如果xi和xj在同一簇中且互为近邻,w(xi,xj)=(1+dist(xi,xj))-1,其中dist(xi,xj)表示样本xi,xj之间的距离,否则w(xi,xj)=0;标签图LG为:LG(xi)=l,l=label(xi)l∈[0...num];根据测试样本的近邻样本的类别标签计算类别相似值以推断其聚类类别标签;若无法得到聚类类别标签则此时测试样本的近邻样本大多数均为无标签的测试样本,此时利用此测试样本的最大近邻子集和基本分类器的分类结果计算类别相似值推断其在此聚类情况下的类别信息。本专利技术实施例还提供了一种基于图聚类标签传播的集成多分类器融合分类的系统,包括训练模块和分类模块,其中,训练模块,用于使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种聚类划分状态;以及根据训练样本和测试样本的聚类划分状态进行标签传播,得到测试样本的聚类类别标签CCI;分类模块,用于所有聚类划分状态和基本分类器经过训练模块的处理,得到测试样本的聚类类别标签;将聚类类别标签和基本分类器的分类信息共同构成集成分类器的决策矩阵,根据聚类类别标签和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数,以便于限制参数在融合中的限制范围;以及根据分类融合目标方程,将测试样本的聚类类别标签和基本分类器的分类信息使用二分图最大共识法进行融合分类,得到最终的类别标签。进一步的,上述训练模块,具体用于对测试样本进行语音信号预处理和特征提取;对训练样本和测试样本进行聚类划分,获得聚类划分状态;使用基本分类器对测试样本进行预分类,得到测试样本的预分类结果;以及使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI。进一步的,上述使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI,具体包括:根据聚类划分对测试样本建立近邻关系图G和标签图LG,其中,近邻关系图G为:G(xi,xj)=w(xi,xj),如果xi和xj在同一簇中且互为近邻,w(xi,xj)=(1+dist(xi,xj))-1,其中dist(xi,xj)表示样本xi,xj之间的距离,否则w(xi,xj)=0;标签图LG为:LG(xi)=l,l=label(xi)l∈[0...num];根据测试样本的近邻样本的类别标签计算类别相似值以推断其聚类类别标签;若无法得到聚类类别标签则此时测试样本的近邻样本大多数均为无标签的测试样本,此时利用此测试样本的最大近邻子集和基本分类器的分类结果计算类别相似值推断其在此聚类情况下的类别信息。本专利技术有益的效果是:本专利技术针对测试样本与训练样本存在分布差异时,集成多分类方法中聚类和分类器两方面存在的分类准确率低的问题,专利技术基于图聚类标签传播方法和系统,得到与基本分类器和聚类划分相对应的聚类类别标签,然后将聚类类别标签和基本分类器组成集成分类器,对聚类类别标签和分类器信息使用修改参数的融合方法以提高分类准确率。弥补现有基本分类器对分布存在差距的样本的分类准确率低的问题,充分利用样本的聚类划分和基本分类器的分类结果以达到对测试样本类别属性的全面描述,构建一个比较完备的集成分类器实现对测试样本的准确分类。将本方法应用于语音情感分类,对6类情感的分类准确率提高至73.89%,比支持向量机(SVM,SupportVectorMachine)提高了3.33%,在多维特征样本上本方法比二分图最大共识法(BGCM,BipartiteGraphConsensusMaximization)的平均分类准确率提高8.33%,比使用有标签样本的BGCM的分类准确率提高了1.11%附图说明图1是本专利技术基于图聚类标签传播的集成多分类器融合分类方法的流程图;图2是本专利技术应用于语音情感分类的分类准确率以及与其它方法的分类准确率对比图;图3是本专利技术基于图聚类标签传播的集成多分类器融合分类系统的结构图。具体实施方式下面结合附图和实施例对本专利技术作进一步说明,应指出的是,所描述的实施例仅旨在便于对本专利技术的理解,而对其不起任何限定作用。本专利技术提供的基于图聚类标签传播的集成多分类器融合分类方法,可以应用在如下场景:在进行语音情感分类时,采用的情感语音库包括6类典型情感:高兴,伤心,惊讶,生气,害怕,厌恶。语音库由10个非专业演职人员(5男5女)录制,对每种情感每人各录制12句长度与内容均不同的情感语料,采样率为11025Hz本文档来自技高网...
基于图聚类标签传播的集成多分类器融合分类方法和系统

【技术保护点】
一种基于图聚类标签传播的集成多分类器融合分类方法,其特征在于,包括:步骤1使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种聚类划分状态;步骤2根据训练样本和测试样本的聚类划分状态进行标签传播,得到测试样本的聚类类别标签CCI;步骤3所有聚类划分状态和基本分类器经过步骤1和步骤2处理,得到测试样本的聚类类别信息集合;将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵,根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数,以便于限制参数在融合中的限制范围;步骤4根据分类融合目标方程,将待分类样本的聚类类别信息和基本分类器的预测标签信息使用二分图最大共识法进行融合分类,得到最终的类别标签。

【技术特征摘要】
1.一种基于图聚类标签传播的集成多分类器融合分类方法,其特征在于,包括:步骤1使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种聚类划分状态;具体包括:步骤11对测试样本进行语音信号预处理和特征提取;步骤12对训练样本和测试样本进行聚类划分,获得聚类划分状态;步骤2根据训练样本和测试样本的聚类划分状态进行标签传播,得到测试样本的聚类类别标签CCI;具体包括:步骤21使用基本分类器对测试样本进行预分类,得到测试样本的预分类结果;步骤22使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI;步骤3所有聚类划分状态和基本分类器经过步骤1和步骤2处理,得到测试样本的聚类类别标签;将聚类类别标签和基本分类器的分类信息共同构成集成分类器的决策矩阵,根据聚类类别标签和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数,以便于限制参数在融合中的限制范围;步骤4根据分类融合目标方程,将测试样本的聚类类别标签和基本分类器的分类信息使用二分图最大共识法进行融合分类,得到最终的类别标签。2.如权利要求1所述的方法,其特征在于,所述使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI,具体包括:根据聚类划分对测试样本建立近邻关系图G和标签图LG,其中,近邻关系图G为:G(xi,xj)=w(xi,xj),如果xi和xj在同一簇中且互为近邻,w(xi,xj)=(1+dist(xi,xj))-1,其中dist(xi,xj)表示样本xi,xj之间的距离,否则w(xi,xj)=0;标签图LG为:LG(xi)=l,l=label(xi)l∈[0...num];根据待分类样本的近邻样本的类别标签计算类别相似值以推断其聚类类别标签;若无法得到聚类类别标签,则此时待分类样本的近邻样本大多数均为无标签的待分类样本,此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算类别相似值推断其在此聚类情况下的类别信息。3.如权利要求1所述的方法,其特征在于,所述目标方程为:其中,kj为基本分类器每个分组的限制范围参数,表示在融合过程中s个分类器分组起限制作用,聚类类别标签的限制作用比分类器的限制作用小;如果xi被划分到gj中,aij=1,...

【专利技术属性】
技术研发人员:毛启容胡素黎王丽詹永照
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1