一种用于分类的特征尺度下界的计算方法技术

技术编号:21200985 阅读:33 留言:0更新日期:2019-05-25 01:34
本发明专利技术涉及一种用于分类的特征尺度下界的计算方法。分类问题中,不同类的特征尺度是用来度量特征到各自类的距离的标准化因子;特征尺度是根据样本的特征变化量获取的,一般情况下相对小的值并不准确和稳定,需要用共同的特征尺度下界来进行限定。本发明专利技术中每个特征尺度下界从一个远小于目标的值的开始,依据不增加异类样本误分到本类的原则逐步提升,实现了按特征尺度的中值或样本特征的范围长度的一定比例估算特征尺度下界。本方法可以有着更好的分类准确度,而且不需要调节参数,参数值一般都通用。

A Method for Calculating the Lower Bound of Characteristic Scale for Classification

The present invention relates to a method for calculating the lower bound of feature scale for classification. In the classification problem, the characteristic scales of different classes are the standardization factors used to measure the distance between features and their classes; the feature scales are obtained according to the variation of the characteristics of the samples. Generally, the relatively small values are not accurate and stable, and need to be limited by the common lower bounds of the feature scales. The lower bound of each feature scale in the present invention starts from a value far less than the target, and gradually increases according to the principle of not increasing the misclassification of heterogeneous samples to this class, thus realizing the estimation of the lower bound of the feature scale according to the median of the feature scale or a certain proportion of the range length of the sample feature. This method has better classification accuracy, and does not need to adjust the parameters. The parameters are generally universal.

【技术实现步骤摘要】
一种用于分类的特征尺度下界的计算方法
本专利技术属于模式识别和机器视觉
,具体涉及一种用于分类的特征尺度下界的计算方法。
技术介绍
在分类问题中,按目标到各个类的偏离度(也可看作距离)远近来确定目标的归属是直接又简单的分类方法,但是不同的特征的量级可能是不一样的,即使同一特征对不同的类来说量级也可能不一样,所以要对每个类的每个特征建立一个特征尺度,作为比较的依据。从每个类的样本特征变化可以估算出一个特征尺度,由于样本的不确定性和随机性,对于不同的类的同一种特征,相对小的值往往不稳定,所以用一个共同的特征尺度下界来进行约束,见参考文档[1];特征尺度下界可以从样本特征的范围长度或者特征尺度的中值乘以一个系数估算,但是这不一定能得到分类效果最合适的特征尺度下界值,而且需要手动调节系数进行尝试。
技术实现思路
本专利技术的目的在于:针对参考文档中的分类器的特征尺度下界的简单估计方式的缺点,通过训练样本的方式来得到更有利于正确分类的特征尺度下界值。为实现上述目的,本专利技术采用如下技术方案:S1、输入所有样本的特征矢量和类别名,找到每一特征在所有样本上的最大值Mf和最小值mf,记下每一个特征的范围长度Rf=Mf-mf;如果Rf≤δf,设置权值wf=0,表示该特征无效,否则设置wf=1;计算特征尺度下界的上界UfRf,并初始化特征尺度下界Lf=αUfRf,其中0<α≤0.1;S2、按参考文档[1],计算每个类的样本特征中心Cb,f和样本特征尺度其中N为该子类的样本总数,X为特征值,b为子类序号,s为样本序号,p为正整数;然后得到特征尺度另外一个样本到一个类的偏离度的计算公式:其中X为特征矢量,Xf为序号为f的特征值,也即X的第f个分量,F为特征总数;S3、对每一个类别,收集一些非本类的邻近样本做成Class-Sample对(简称CS对)放到待检测的序列Pairs中,一个CS对中含有一个类别指针和一个样本指针;加入Pairs的CS对要满足两个条件:首先,CS对中的样本不属于CS对中的类别;其次,设CS对中的类别的序号为b,CS对中的样本所属类别的序号为i,该样本的特征矢量为X,令Do=D(X,b),Di=max{D(X,i),1},计算CS对的偏离度比值K=Do/Di,只保留K≥3的CS对;S4、根据搜集的CS对序列Pairs,依次循环扫描每个有效的Lf并逐步增加Lf的值,但每次更新Lf的值要满足两个条件:一是不能大于其上界UfRf;二是更新前后,Pairs中的任何一个CS对的偏离度比值的改变都要满足:记更新前的偏离度比值为K1,更新后的比值为K2,如果K2<4则需满足K2≥γ(K1)K1,其中γ(K1)=1-(0.1K1)4或形状相近的函数也可;不满足这两个条件就停止更新Lf,直到所有wf≠0的Lf都更新完毕;最后对标记为同一种的所有特征的Lf值求平均后再赋给它们,这里的求平均也可用取中值代替。与参考文档[1]相比,本专利技术中的每个特征尺度下界从一个比较小的初始值开始,逐步循环提升,在保证不增加异类样本可能误分到本类的前提下,可以得到分类效果更好的下界值,而且不需要手动调节找合适的参数,参数值一般都通用。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术的特征尺度下界整个计算过程的流程简图;图2为本专利技术的特征尺度下界更新的详细流程图;具体实施方式如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则,比如指针也可以用迭代器来替换。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。另外说明书及权利要求中的某些系数或阈值,并不是必须为特定的值,只是这个值通常情况是合适的,增大或减小一些也是可以的。图1中给出了特征尺度下界整个计算过程的流程简图,每一步的内容写得很明确;图2给出了图1中的特征尺度逐步提升的具体实施过程的流程图。在输入所有样本的特征矢量和类别名后,可以生成一个二维数组Array,行数等于特征数,列数等于总样本数;数组的每一行代表一个特征,行号和特征序号一致,每一列代表一个样本,每个数组元素Array(f,j)包含了第j个加入到Array的样本的指针、所属类别的指针和该样本的第f个特征值;Array生成后还要对Array的每一行按特征值大小对元素进行排序,一般来说排序后的Array的同一列不再是同一个样本;但能很方便地从排序后的Array中找到步骤S1中需要的特征最大值Mf和最小值mf;此外,二维数组Array的主要作用是为快速找到一个类的邻近异类样本,生成CS对序列Pairs,步骤如下:W1、设置每个类查找邻近异类样本的最大个数maxNum(一般设置几十个到几百个就可以了,实施例中设置为100个),设置各个样本的邻近特征数NearCount为0;新建两个样本指针序列pScanned和pSelected;并标记所有的类别为未检测的;W2、清空pSelected和pScanned;取一个未检测的类别,序号记为b;令maxFind=maxNum,但如果不属于该类的样本总数Total<maxFind,则令maxFind=Total;并令f=0;W3、如果wf=0则转步骤W6,否则用二分法快速找到Cb,f在Array中的位置pos,使得Array(f,pos)≤Cb,f<Array(f,pos+1),令left=pos+1,right=pos;W4、如果right+1已达样本总数或者Array(f,left-1)的特征值比Array(f,right+1)的特征值离Cb,f更近,则令left减1并取Array(f,left)中的样本;否则令right加1并取Array(f,right)中的样本;如果是同类样本或者该样本的NearCount≥Th,则转步骤W6,否则进入步骤W5;其中Th为总有效特征数的一定百分比(一般小于40%即可,实施例中按10%),但Th的值不得小于1;W5、对该样本的NearCount增加1;然后如果NearCount为1,则将该样本指针加入到pScanned;如果NearCount≥Th,就计算该样本的偏离度比率K,如果K>3,就将该样本的指针追加到序列pSelected中,如果pSelected中的元素个数达到maxFind,则转步骤W7;W6、f增加1;如果f增1后达到了特征总数为F,则令f=0;然后转步骤W3;W7、检测完一个类别后,对pSelected序列中的每个元素,生成CS对,并追加到Pairs中;并将pScanned标记过的样本的NearCount重新置0;W8、重复步骤W2至步骤W7直到所有的类别都检测完毕。收集完CS对后,参考图2,特征尺度下界提升的实现步骤如下:T1、先初始化各特征尺度下界Lf的增量Δf为1;并令f=0;T2、如果wf=0,或者Lf已经本文档来自技高网...

【技术保护点】
1.一种用于分类的特征尺度下界的计算方法,其特征在于:S1、输入所有样本的特征矢量和类别名,找到每一特征在所有样本上的最大值Mf和最小值mf,记下每一个特征的范围长度Rf=Mf‑mf;如果Rf≤δf,设置权值wf=0,表示该特征无效,否则设置wf=1;计算特征尺度下界的上界UfRf,并初始化特征尺度下界Lf=αUfRf,其中0<α≤0.1;S2、按参考文档[1],计算每个类的样本特征中心Cb,f和样本特征尺度

【技术特征摘要】
1.一种用于分类的特征尺度下界的计算方法,其特征在于:S1、输入所有样本的特征矢量和类别名,找到每一特征在所有样本上的最大值Mf和最小值mf,记下每一个特征的范围长度Rf=Mf-mf;如果Rf≤δf,设置权值wf=0,表示该特征无效,否则设置wf=1;计算特征尺度下界的上界UfRf,并初始化特征尺度下界Lf=αUfRf,其中0<α≤0.1;S2、按参考文档[1],计算每个类的样本特征中心Cb,f和样本特征尺度其中N为该子类的样本总数,X为特征值,b为子类序号,s为样本序号,p为正整数;然后得到特征尺度另外一个样本到一个类的偏离度的计算公式:其中X为特征矢量,Xf为序号为f的特征值,也即X的第f个分量,F为特征总数;S3、对每一个类别,收集一些非本类的邻近样本做成Class-Sample对(简称CS对)放到待检测的序列Pairs中,一个CS对中含有一个类别指针和一个样本指针;加入Pa...

【专利技术属性】
技术研发人员:朱杰英卢盛林
申请(专利权)人:广东奥普特科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1