利用全局互信息加权的支持向量机分类器制造技术

技术编号:3837134 阅读:286 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种利用全局互信息加权的支持向量机分类器,本发明专利技术的步骤为:一、利用全局互信息度量同维数据的重要信息含量;二、利用加权型支持向量机融合同维数据的重要信息含量,完成加权型支持向量机的训练及测试样本的类别判定任务;三、构建分类器,并对测试样本的最终类别作出决策。本发明专利技术利用全局互信息定量分析各维数据的重要信息量指数,并作为系数加权于SVM的核函数之中,使得处于重要性较强维的数据在分类中发挥更加重要的作用,从而提高分类精度。本发明专利技术充分挖掘输入向量同维数据之间隐含的关联信息并据此来指导SVM的分类过程,进而获得分类精度上的提升。

【技术实现步骤摘要】

本专利技术涉及模式识别及分类
的方法,具体涉及一种加权型支持向量机分类器 及由其所组成的多分类器。(二)
技术介绍
支持向量机(SVM)的形成时期在1992-1995年,由Vapnik首先提出,它以训练误差作 为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险 最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。由于SVM的求解最 后转化成二次规划问题的求解,因此SVM的解是全局唯一的最优解。SVM在解决小样本、 非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他 机器学习问题中。概括的说,SVM就是首先通过用内积函数定义的非线性变换将输入空间变换到一个高 维空间,在这个高维空间中求最优分类面。根据泛函的有关理论,只要一种核函数K(x,x') 满足Mercer条件,它就对应某一变换空间中的内积,因此,在最优分类面中采用适当的内 积函数就可以实现某一非线性变换后的线性分类,而计算复杂度却不会增加。用不同核函 数《(x,x')可以构造实现输入空间中不同类型的非线性决策面的学习机,从而导致不同的支 持向量算法。SVM的各输入向量,无论是用于训练还是用于分类,都具有同等的维数。在实际应用 中,同维的数据往往具有相同的采样条件(如同一时刻采集或同一传感器采集等),因而各向 量的同维数据所构成的集合往往具有不同于其它维的特性,然而现有的支持向量机分类器 并没有考虑输入向量各维数之间的内在联系,因而在分类性能上留下了较大上升空间。(三)
技术实现思路
本专利技术的目的在于提供一种利用全局互信息来定量分析同维数据的重要信息含量,有 效地挖掘潜在信息,不仅可以作为后续分类算法中加权系数,也可用于各维数据质量评价 或分析的利用全局互信息加权的支持向量机分类器。本专利技术的目的是这样实现的通过三个步骤实现一种利用全局互信息加权的支持向量 机分类器,其流程图见图l,具体歩骤如下步骤一利用全局互信息度量同维数据的重要信息含量实际物理系统中的很多用于SVM的输入向量,其同维数据在物理采集的过程中往往具有相同或相近的采样条件,因而不同维数据对于分类而言具有不同的重要性。为了挖掘这 种潜在的重要信息含量并对其进行度量,采取一种基于全局互信息的算法,通过同维数据 与其余所有同维数据之间的互信息和来定量描述该重要信息。令x, x;'),L ,x^), 1S"似,为SVM的M个输入向量,则其可以组合成7V个同维数据的向量X,(x,w,x尸,L ,x,(M)), B"iV。互信息是信息论中用来度量两随机变量之间统计相关性的基本概念。对于X,和X,其边缘概率分布分别为j^,(x,)和;^(x》,联合概率分布为ft^O,,x》,则X,和X^的互信息M/(X,,X》被定义为<formula>formula see original document page 6</formula>由于7V个同维数据向量的数据等同于M个输入向量的数据内容,因此可以通过下式定量分析同维数据向量x,所含的重要信息量系数《<formula>formula see original document page 6</formula>本歩骤完成内容为计算重要信息量系数5,, 1SKW。同维数据之问由于采样条件的相同或相似,往往潜在含有不同于其它维数数据的关联 信息。但这种特性是普遍润含的,因此,即使同维数据的采样条件并不相同或相似,也可 以利用该歩骤挖掘出重要信息量指数,并同样对分类过程具有有益的指导作用,此种情况 亦属于本专利技术的保护之列。步骤二利用加权型支持向量机融合同维数据的重要信息含量,完成加权型支持向量 机的训练及测试样本的类别判定任务对于重要信息量系数^较大的同维数据,在分类中应该发挥更为重要的作用,进而可 以提高分类精度。为了实现这一点,需要将重要信息含量系数融合于SVM的具体算法,可 以采用加权型核函数来实现这一要求。常用的核函数有线性核函数K^(x,x')、多项式核函 数《,,一(x,x')、径向基核函数^^(x,x')和Sigmoid核函数K^(x,x'),其相应的计算公式分别如下<formula>formula see original document page 6</formula>A:s,g (x, x') = tanh(x、'+,) (6)对满足Mercer条件的核函数K(x, x'),令/(x) = Sx ,其中S e R歸,x e R嵐。则尺(x, x')是半正定的。进一步还注意到/(x)eRWx1 ,因此《(/(x),/(x'))也是半正定的。所以K(/(x),/(x'))也满足Mercer条件。将步骤一所得重要信息量系数《组合为对角矩阵S :S =, & ,L , ^) (7)则可得到加权型核函数K(Sx,Sx〕《(Sx, Sx') = AT(Wag", & ,L , ~ )x,血g(^, & ,L , ^ )x') (8)该核函数利用歩骤一中得到的重要信息量系数^对同维数据进行加权,可以实现有所侧重的精细分类,由其所构成的加权型SVM实现了在分类中融合同维数据重要信息含量的 目的。令a:(",,^,L , )为拉格朗闩乘子,乂e(-l,I)为分类目标,则加权型SVM分类器/(X)可表示为/(x) = sgn(》',cr,攀,,Sx) + 6) (9)有时会遇到两种类别评分相同的情况,此时可以将样本归入先验概率较高的类别。 本歩骤完成内容为首先,利用i:(Sx,Sx')所构造的加权型SVM对训练样本中的输入数据及对应分类目标进行训练,得到支持向量及拉格朗H乘子;然后,输入测试样本中的 输入数据,得到其对应的分类结果。如果分类任务需要构建多个加权型SVM,则本歩骤需 要执行多次,且每次对应的训练与测试样本均不同。步骤三构建分类器,并对测试样本的最终类别作出决策如果分类任务仅为二分类性质,则只需利用一个步骤二所得到的加权型SVM即可,且 分类结果直接标示出输入向量的类别归属,无需再做决策。因此对于二分类情况,歩骤三 省略。如果分类任务为多分类性质,由于SVM的本质二分性,则需要利用多个加权型SVM 结合一定的策略构建多分类器,常用的策略有"决策树"型,"一对多"型及"一对一" 型。而加权型SVM无论使用了多少个,所使用的重要信息量系数均保持一致,即步骤一只 需计算一次即可。但步骤二由于涉及多个二分类子任务,需要计算多次,并在本步骤中进 行最终的决策确定输入向量的类别归属。对于"决策树"型策略,只要完成所有分割面的二分类任务,即可得到最终的类别归 属,因此基于此种策略的加权型SVM多分类器,不需要再做类别归属的决策。对于"一对多"型策略,每个SVM都要解决某一类对其余所有类的两分类问题,最后 通过比较分类函数值的大小确定最终类别。对于『类的多分类任务,需要构造『个分类器 厶(x), 1^/^『,分别处理类别/z和其余所有类别之间的分类任务。为了完成该任务,步骤二需要执行『次。决策采用"赢家通吃"的原则,即最终判定类别r为= argmax{/(x)} (10)'=1,对于"一本文档来自技高网...

【技术保护点】
一种利用全局互信息加权的支持向量机分类器,其特征在于它包括如下步骤: 步骤一:利用全局互信息度量同维数据的重要信息含量; 步骤二:利用加权型支持向量机融合同维数据的重要信息含量,完成加权型支持向量机的训练及测试样本的类别判定任务 ; 步骤三:构建分类器,并对测试样本的最终类别作出决策。

【技术特征摘要】

【专利技术属性】
技术研发人员:沈毅张淼王强
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1