一种基于二叉树支持向量机的分类方法技术

技术编号:8300953 阅读:429 留言:0更新日期:2013-02-07 04:37
本发明专利技术公开了一种基于二叉树支持向量机的分类方法,包括步骤:一、信号采集:采用状态信息检测单元对被检测对象在N种不同工作状态时的工作状态信息分别进行检测,并将所检测信号同步传送至数据处理器,相应获得与N种不同工作状态相对应的N组工作状态检测信息;二、特征提取;三、训练样本获取:分别在经特征提取后的N组工作状态检测信息中,随机抽取m个检测信号组成训练样本集;四、分类优先级别确定;五、多分类模型建立;六、多分类模型训练;七、信号实时采集及同步分类。本发明专利技术设计合理、操作简便、实现方便且使用效果好、实用价值高,不仅可以选出SVM分类器的最优参数,且能减少噪声和孤立点对分类的影响,提高了分类速度和精度。

【技术实现步骤摘要】

本专利技术属于缺陷识别
,尤其是涉及。
技术介绍
缺陷的智能识别是在缺陷特征提取的基础上,确定识别算法,设计出相应的分类器,并用样本集合进行训练,最后完成对缺陷的自动分类。目前主要有统计分类方法、基于规则的分类方法和基于学习的分类方法。常见的分类器有决策树分类、贝叶斯分类、模糊分类法、人工神经网络分类法和支持向量机分类法等,在数据信号处理方面应用较多的是后两种。其中,人工神经网络分类法由于人工神经网络没有专门的训练和学习函数来确定网络结构,且需要大量训练样本,因而实际应用中条件往往难以满足。支持向量机(Support Vector Machine, SVM)是上世纪九十年代一种新的模式识别方法,其通过非线性变换将输入空间映射到高维空间,在新空间中求得最优分类超平面。由于实际样本中,可能存在孤立点或者噪声,它对常用的C-SVM或者v-SVM的最优分类超平面影响较大。针对该问题,有些学者提出了模糊支持向量机FSVM(Fuzzy Support VectorMachine FSVM)。孙波等人提出一种计算样本隶属度的新方法,降低噪声点的隶属度,提高了支持向量对最优分类面的贡献。陈小娟等人针对分类问题的支持向量机方法中存在对噪声和野值敏感的问题,提出了一种新的隶属度函数确定方法。徐鲁强等人提出了一种符合高斯形式的构建模糊隶属度函数方法,减弱了野点样本对分类的影响,提高了情感状态识别效果。Qi Xu等人应用模糊支持向量机对带有噪声和孤立点的脑电图信号进行分类,结果表明FSVM分类性能减少了噪声和孤立点对分类的影响。SVM本身是一个两分类方法,如何将其推广到多分类,以适应实际中缺陷或故障快速、准确识别,是一个迫切需要解决的问题。目前,多类SVM成为多类模式识别研究与应用的热点。现在已有的多类SVM分类方法大致可分为两种直接求解算法和分解重构算法。直接求解法是在所有训练样本上求解一个大型二次规划问题,同时将所有类别分开。该方法变量个数多,计算复杂度很高,尤其当类别数目较多时,它的训练速度很低,分类精度也不高;分解重构法是一种将多类分类问题转化为多个两类分类问题,并采用某种策略将多个两类分类器组合起来实现多类分类的方法。分解重构法比直接求解法更适合于实际应用,用它实现多类分类需要解决两个关键问题模糊类的生成和多个两类分类器的组合策略。当前应用较广泛的SVM分解重构算法有1-a-r (one-against-rest)方法,1-a-l(one-against-one)方法、DAGSVM(Directed Acyclic Graph Support VectorMachines)方法,DTSVM(Decision Tree Support Vector Machines)方法以及 HSVM 方法(Hierarchical Support Vector Machines)等。这些方法在多分类中各有优缺点,研究表明l-a-r分类方法简单、有效,可用于大规模数据,但当工作集过大时,训练速度将会很慢;同时它存在误分、拒分区域,泛化能力较差。1-a-l分类速度,比传统的Ι-a-r方法快,而且其分类精度也较Ι-a-r高;但其缺点是如果单个两类分类器不规范,则整个分类器将趋向于过学习,分类器的数目随类数急剧增加,导致在决策时速度很慢,存在推广误差无界及误分、拒分区域。DAGSVM方法较1-a-l方法提高了测试速度,而且不存在拒分区域;另外,由于其特殊的结构,故有一定的容错性,分类精度较一般的二叉树方法高,但该方法的泛化能力与各子分类器在有向无环图中的位置有关。DTSVM和HSVM采用树结构的组合策略,具有较高的训练和分类速度,但分类树存在错分积累,如果选择合理的树结构可以获得较高的分类速度和精度。通过以上多分类方法特点比较,二叉树SVM综合性能较好,关键是要选择合理的二叉树结构。综合分析神经网络和支持向量机在缺陷多分类方面的优缺点,为了有效提高缺陷或故障分类的可靠性、实时性,必须对现有的分类方法进行改进。
技术实现思路
本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供,其设计合理、操作简便、实现方便且使用效果好、实用价值高,不仅可以选出SVM分类器的最优参数,且能减少噪声和孤立点对分类的影响,提高了分类速 度和精度。为解决上述技术问题,本专利技术采用的技术方案是,其特征在于该方法包括以下步骤步骤一、信号采集采用状态信息检测单元对被检测对象在N种不同工作状态时的工作状态信息分别进行实时检测,并将所检测信号同步传送至数据处理器,相应获得与N种不同工作状态相对应的N组工作状态检测信息,N组所述工作状态检测信息中均包括所述状态信息检测单元在不同采样时刻检测到的多个检测信号,其中N为正整数且N > 3 ;步骤二、特征提取待数据处理器接收到所述状态信息检测单元所传送的检测信号时,自各检测信号中分别提取出能代表并区别该检测信号的一组特征参数,且该组特征参数包括W个特征量,并对W个所述特征量进行编号,W个所述特征量组成一个特征向量,其中W彡2 ;步骤三、训练样本获取分别在经特征提取后的N组所述工作状态检测信息中,随机抽取m个检测信号组成训练样本集;所述训练样本集中相应包括I个训练样本,其中m > 2,l=mXN ;I个所述训练样本分属于N种样本类,每一个样本类中均包括被检测对象工作于同一个工作状态时的m个训练样本,N种样本类分别与被检测对象的N种不同工作状态相对应的样本类I、样本类2···样本类N ;N种样本类中的每一个训练样本均记作Xks,其中k为样本类的类别标号且k=l、2···N, s为各样本类中所包括m个训练样本的样本序号且s=l、2···!!! ;Xks为样本类k中第s个训练样本的特征向量,Xks e Rd,其中d为Xks的向量维数且d=W ;步骤四、分类优先级别确定,其确定过程如下步骤401、样本类的类中心计算采用数据处理器对N种所述样本类中任一个样本类k的类中心进行计算; _m且对样本类k的类中心进行计算时,根据公式义(P) = Σ xL⑷丨m,计算得出样本Si=I类k中所有训练样本的各特征量均值;式中为样本类k中第s个训练样本的第P个特征量,X, (P)为样本类k中所有训练样本的第P个特征量均值;步骤402、类间距离计算采用数据处理器且根据公式4, (尤(P)·爲(P))2, V P=1对步骤201中所述任一个样本类k与N种所述样本类中任一个样本类h之间的间距分别进行计算,其中尤,(/^为样本类k中所有训练样本的第P个特征量均值,为样本类h中所有训练样本的第P个特征量均值,且h=l、2*"N ;步骤403、类间距之和计算采用数据处理器且根据公式&—(幻=;|> ,,对步骤401中所述任一个样本类k的类间距之和;步骤404、多次重复步骤401至步骤403,直至计算得出N种所述样本类中所有样本类的类间距之和; 步骤405、按照步骤404中计算得出的所有样本类的类间距之和由大到小的顺序,采用数据处理器确定出N种所述样本类的分类优先级别Y,其中Υ=1、2···Ν ;其中,类间距之和最大的样本类的分类优先级别最高且其分类级别为1,类间距之和最大的样本类的分类优先级别最低且其分类级别为N ;步骤本文档来自技高网
...

【技术保护点】
一种基于二叉树支持向量机的分类方法,其特征在于该方法包括以下步骤:步骤一、信号采集:采用状态信息检测单元对被检测对象在N种不同工作状态时的工作状态信息分别进行实时检测,并将所检测信号同步传送至数据处理器(2),相应获得与N种不同工作状态相对应的N组工作状态检测信息,N组所述工作状态检测信息中均包括所述状态信息检测单元在不同采样时刻检测到的多个检测信号,其中N为正整数且N≥3;步骤二、特征提取:待数据处理器(2)接收到所述状态信息检测单元所传送的检测信号时,自各检测信号中分别提取出能代表并区别该检测信号的一组特征参数,且该组特征参数包括W个特征量,并对W个所述特征量进行编号,W个所述特征量组成一个特征向量,其中W≥2;步骤三、训练样本获取:分别在经特征提取后的N组所述工作状态检测信息中,随机抽取m个检测信号组成训练样本集;所述训练样本集中相应包括l个训练样本,其中m≥2,l=m×N;l个所述训练样本分属于N种样本类,每一个样本类中均包括被检测对象工作于同一个工作状态时的m个训练样本,N种样本类分别与被检测对象的N种不同工作状态相对应的样本类1、样本类2…样本类N;N种样本类中的每一个训练样本均记作Xks,其中k为样本类的类别标号且k=1、2…N,s为各样本类中所包括m个训练样本的样本序号且s=1、2…m;Xks为样本类k中第s个训练样本的特征向量,Xks∈Rd,其中d为Xks的向量维数且d=W;步骤四、分类优先级别确定,其确定过程如下:步骤401、样本类的类中心计算:采用数据处理器(2)对N种所述样本类中任一个样本类k的类中心进行计算;且对样本类k的类中心进行计算时,根据公式计算得出样本类k中所有训练样本的各特征量均值;式中k=1、2…N,p=1、2… d,Xks(p)为样本类k中第s个训练样本的第p个特征量,为样本类k中所有训练样本的第p个特征量均值;步骤402、类间距离计算:采用数据处理器(2)且根据公式对步骤201中所述任一个样本类k与N种所述样本类中任一个样本类h之间的间距分别进行计算,其中为样本类k中所有训练样本的第p个特征量均值,为样本类h中所有训练样本的第p个特征量均值,且h=1、2…N;步骤403、类间距之和计算:采用数据处理器(2)且根据公式对步骤401中所述任一个样本类k的类间距之和;步骤404、多次重复步骤401至步骤403,直至计算得出N种所述样本类中所有样本类的类间距之和;步骤405、按照步骤404中计算得出的所有样本类的类间距之和由大到小的顺序,采用数据处理器(2)确定出N种所述样本类的分类优先级别Y,其中Y=1、2…N;其中,类间距之和最大的样本类的分类优先级别最高且其分类级别为1,类间距之和最大的样本类的分类优先级别最低且其分类级别为N;步骤五、多分类模型建立:所建立的多分类模型包括N?1个二分类模型,且N?1个所述二分类模型均为支持向量机模型;N?1个所述二分类模型按照步骤405中所确定的分类优先级别,将N种所述样本类自所述训练样本集中由先至后逐类分出来,N?1个所述二分类模型的建立方法均相同且均采用数据处理器(2)进行建立;对于N?1个所述二分类模型中的任一个二分类模型z来说,其建立过程如下:步骤501、核函数选取:选用径向基函数作为二分类模型z的核函数;步骤502、分类函数确定:待惩罚参数C与步骤501中所选用径向基函数的核参数γ确定后,获得二分类模型z的分类函数,完成二分类模型 z的建立过程;其中,0<C≤1000,0<γ≤1000;所建立的二分类模型z为待分类优先级别高于z的所有样本类自所述训练样本集中分出来后,将分类优先级别为z的样本类自所述训练样本集中剩余的N?z+1个样本类中分出来的二分类模型,其中z=1、2…N?1;步骤503、二分类模型分类优先级别设定:根据步骤502中所述二分类模型z自所述训练样本集中剩余的N?z+1个样本类中分出来的样本类的分类优先级别z,对二分类模型z的分类优先级别R进行设定,且R=z;步骤504、多次重复步骤501至步骤503,直至获得N?1个所述二分类模型的分类函数,便完成N?1个所述二分类模型的建立过程,获得建立完成的多分类模型;步骤六、多分类模型训练:将步骤三中所述训练样本集中的l个训练样本输入到步骤五中所建立的多分类模型进行训练;步骤七、信号实时采集及同步分类:采用所述状态信息检测单元对被检测对象的当前工作状态进行实时检测,且将所检测信号同步输入至步骤五中所建立的多分类模型中,并自动输出被检测对象当前工作状态的类别。FDA00002169...

【技术特征摘要】

【专利技术属性】
技术研发人员:毛清华马宏伟张旭辉陈海瑜张大伟姜俊英
申请(专利权)人:西安科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1