一种基于特征尺度和子类分裂的分类器制造技术

技术编号:21185424 阅读:90 留言:0更新日期:2019-05-22 16:03
本发明专利技术属于模式识别和机器视觉技术领域,具体涉及一种基于特征尺度和子类分裂的分类器的实现方法。该分类器在训练时,先将每个类看作一个子类,每个子类的每个特征都有各自的特征尺度,特征尺度是用来度量一个特征矢量到一个子类的样本中心的偏离度的,是有下界限定的。如果类内的样本形态并不单一,还要检测每个子类的相近的异类样本的偏离度比值来决定是否对其分裂成更多的子类。分类过程就是目标的特征矢量离哪个子类的偏离度值最小,就归类到该子类所属的类。本分类器的优势在于识别正确率高,特征范围量级、样本形态和分布均不受限制、且可度量到一个类的偏离程度。

A Classifier Based on Characteristic Scale and Subclass Splitting

The invention belongs to the field of pattern recognition and machine vision technology, and specifically relates to a method of realizing a classifier based on feature scale and subclass splitting. When training, the classifier regards each class as a sub-class, each feature of each sub-class has its own feature scale, which is used to measure the deviation of a feature vector from the sample center of a sub-class, and has a lower bound. If the sample shape in a class is not single, the deviation ratio of similar heterogeneous samples in each subclass is also detected to determine whether to split it into more subclasses. The classification process is to classify the feature vectors of the target to the subclass whose deviation degree is the smallest. The advantage of this classifier is that it has high recognition accuracy, and its feature range, sample shape and distribution are not limited, and the deviation degree of a class can be measured.

【技术实现步骤摘要】
一种基于特征尺度和子类分裂的分类器
本专利技术属于模式识别和机器视觉
,具体涉及一种基于特征尺度和子类分裂的分类器的实现方法。
技术介绍
模式识别是根据输入的目标信息对目标进行识别或归类;识别和分类在机器视觉里也经常用到。要实现分类就需要建立分类器,常见的分类器有支撑向量机(SupportVectorMachine,SVM)、多层感知机(Multi-LayerPerceptron,MLP)、K-近邻(KNN)、高斯混合模型(GMM)、最小距离法等等。很多情况下,用来分类的特征类型并不是只有一种,而不同种类的特征在范围量级上一般也各不相同,因此,相同的差值在不同种类的特征上代表的距离并不一定等价,而多数的分类器内部并没有考虑这个问题,有考虑也是用样本标准差、方差或协方差来对输入的特征值进行归一化;而这些归一化尺度如果在所有样本上统计则受各个类的样本特征分布的影响比较大,准确性会差,如果在单个类上统计则受较小的归一化尺度值的影响大,稳定性比较差。另外如果类内的样本差异不大,可以通过计算和查找离哪个的类的样本特征中心的距离最近就归到哪个类;但如果类内样本差异很大,呈现多态的时候,类内只一个样本中心是不够的;可以把每个样本作为一个中心,比如KNN的方式,但按KNN分类时计算量大且每个类的样本容量要分布比较平衡才好;也可以对每个类的样本自动聚类成若干子类,但聚类为多少个子类要手动设置且不一定很合适。因此,亟需对目前的分类器作一些改进。
技术实现思路
针对现有技术的不足,构造一种基于特征尺度和子类分裂的分类器:针对特征的量级差异,对特征尺度设置下界来达到稳定计算和提高分类正确率的目的;针对类内样本多态的情况,依据监测样本到异类和自身类的偏离度比值,采取递归分裂子类的方式来降低误分的几率;针对周期性特征,在计算距离和统计参数时给出更合理的计算方式。为实现上述目的,本专利技术采用如下技术方案:本专利技术的分类器的训练和识别的步骤如下:S1、输入所有训练样本的特征矢量和类别名;计算每个特征在所有样本上的范围长度Rf=maxsXs,f-minsXs,f,其中Xs,f表示第s个样本的第f个特征值;然后对于Rf等于或接近0的,也即Rf≤δf,设置该特征权值wf=0,当作无效特征,否则设置wf=1,其中δf是一个远比特征值域长度小的正数;S2、将每个类看作一个子类,对每个子类计算样本特征中心Cb,f和样本特征尺度首先计算出样本特征中心再计算样本特征尺度其中N为该子类的样本总数,X为特征值,b为子类序号,s为样本序号,p为正整数;S3、计算每个有效特征的特征尺度下界Lf,可选择以下两种方式之一进行计算,但如果平均每一类的不同特征的样本数<2,只能使用S31的方式计算:S31、Lf=βfRf,其中0<βf≤0.1,βf的值需手动调试或者使用经验值;S32、Lf=μfMf,其中0.01≤μf≤100,Mf为所有子类上的样本特征尺度去掉的那些值后进行排序,中值即为Mf;如果每个类的样本充足或者类内样本形态多样,μf的取值就小些,反之μf的取值就大些;然后对属于同一种的多个有效特征的Lf要平均后再赋给它们;无效特征的Lf可以赋值任意一个正数即可;S4、计算特征尺度Sb,f:如果样本特征尺度则令特征尺度Sb,f=Lf,否则令如果每个类的样本都是单一的,也即任何两个类内样本比类间样本更相似,可以跳过步骤S5;S5、子类分裂:先给出计算公式:偏离度为其中X为目标的特征矢量,f为特征序号,Xf为序号为f的特征值,也即X的第f个分量,F为特征总数;偏离度比值为其中o为本子类的序号,i为异类样本所属子类的序号,X为异类样本的特征矢量,而另外要建立一个随偏离度比值增大而减小的分裂度函数E(K),要满足K值在3的附近快速下降,其它区间慢降,K≥6时基本降到接近0;对每个子类,如果样本数多于一个,收集偏离度比值小的异类样本,统计这些异类样本对该子类的分裂度,如果达到或超过给定的阈值(这个阈值可以通过测试来获得,基本是通用的),对该子类分裂为两个及以上的新子类,分裂的原则是使每个子类内的样本更相近;再按步骤S2中的方式对新子类计算各自的样本特征中心Cb,f、样本特征尺度和特征尺度分裂后的子类也要执行本步检测和决定是否需要继续分裂;S6、输入待识别目标的特征矢量,要求特征类型与训练样本的一致,计算该特征矢量到各个子类的偏离度,得到偏离度最小的那个子类的所属类就是识别到的类。其中步骤S5中,分裂子类时可采用以下简单的方式:设本子类的序号为o,先找出这个比值最大的f,然后在本子类的第f个特征的样本均值处分开;Xo,s,f>Co,f的样本作为一个子类的样本,剩余的作为另一个子类的样本。对于周期性特征,可以使用更准确的计算方式:在步骤S1中输入周期特征的周期值;在步骤S2中,计算一个类的特征中心Cb,f和样本特征尺度时,需要计算两组:设周期值为T,一组是将所有的样本中的该特征值全部设置到[0,T)区间,计算样本特征中心和样本特征尺度,另一组是全部设置在[-T/2,T/2)区间进行计算;最后选择样本特征尺度小的那组,并将特征中心设置到[0,T)区间;在计算偏离度时,先将特征值Xf设置到[0,T)区间,计算距离Dis=|Xf-Cb,f|,如果Dis>T/2,则令Dis=T-Dis,然后将Dis的值取代偏离度计算公式中的|Xf-Cb,f|这一部分即可。上面的方法是为解决周期隔断的问题,也就是位于一个周期起始点附近的值和结束点附近的值明明很接近,但是差值却很大的问题。与现有技术相比,本专利技术的分类器识别正确率较高,且同时满足:特征范围长度的量级差异不限,待分类的种类数不受限制,类别的样本可多可少,可以度量到识别类的偏离程度,识别时计算到各个子类的偏离度互不关联,适合并行计算。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术的分类器的流程图;图2为本专利技术中的子类分裂的详细流程图。具体实施方式如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则,比如指针也可以用迭代器来替换。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。另外说明书及权利要求中的某些系数或阈值,并不是必须为特定的值,只是这个值通常情况是合适的,增大或减小一些也是可以的。图1为本分类器含有分裂子类的流程简图,简单概括之就是输入样本特征和所属类以及计算相关参数、计算样本特征中心和样本特征尺度、计算特征尺度下界和特征尺度、子类分裂以及目标识别分裂五步。在输入所有样本的特征矢量和类别名之后,可以生成一个二维数组Array,行数等于特征数,列数等于总样本数;数组的每一行代表一个特征,行号和特征序号一致,每一列代表一个样本,每个数组元素Array(f,j)包含了第j个加入到Array的样本的本文档来自技高网...

【技术保护点】
1.一种基于特征尺度和子类分裂的分类器,其特征在于:训练和识别的步骤如下:S1、输入所有训练样本的特征矢量和类别名;计算每个特征在所有样本上的范围长度Rf=maxsXs,f‑minsXs,f,其中Xs,f表示第s个样本的第f个特征值;然后对于Rf等于或接近0的,也即Rf≤δf,设置该特征权值wf=0,当作无效特征,否则设置wf=1,其中δf是一个远比特征值域长度小的正数;S2、将每个类看作一个子类,对每个子类计算样本特征中心Cb,f和样本特征尺度

【技术特征摘要】
1.一种基于特征尺度和子类分裂的分类器,其特征在于:训练和识别的步骤如下:S1、输入所有训练样本的特征矢量和类别名;计算每个特征在所有样本上的范围长度Rf=maxsXs,f-minsXs,f,其中Xs,f表示第s个样本的第f个特征值;然后对于Rf等于或接近0的,也即Rf≤δf,设置该特征权值wf=0,当作无效特征,否则设置wf=1,其中δf是一个远比特征值域长度小的正数;S2、将每个类看作一个子类,对每个子类计算样本特征中心Cb,f和样本特征尺度首先计算出样本特征中心再计算样本特征尺度其中N为该子类的样本总数,X为特征值,b为子类序号,s为样本序号,p为正整数;S3、计算每个有效特征的特征尺度下界Lf,可选择以下两种方式之一进行计算,但如果平均每一类的不同特征的样本数<2,只能使用步骤S31的方式计算:S31、Lf=βfRf,其中0<βf≤0.1,βf的值需手动调试或者使用经验值;S32、Lf=μfMf,其中0.001≤μf≤100,Mf为所有子类上的样本特征尺度去掉的那些值后进行排序,中值即为Mf;如果每个类的样本充足或者类内样本形态多样,μf的取值就小些,反之μf的取值就大些;然后对属于同一种的多个有效特征的Lf要平均后再赋给它们;无效特征的Lf可以赋值任意一个正数即可;S4、计算特征尺度Sb,f:如果样本特征尺度则令特征尺度Sb,f=Lf,否则令如果每个类的样本都是单一的,也即任何两个类内样本比类间样本更相似,可以跳过步骤S5;S5、子类分裂:先给出计算公式:偏离度为其中X为目标的特征矢量,f为特征序号,Xf为序号为f的特征值,也即X的第f个分量,F为特征总数;偏离度比值为其中o为本子类的序号,i为异类样本所属子类的序号,X为异类样本的特征矢量,而另外要建立一...

【专利技术属性】
技术研发人员:朱杰英卢盛林
申请(专利权)人:广东奥普特科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1