The invention belongs to the field of pattern recognition and machine vision technology, and specifically relates to a method of realizing a classifier based on feature scale and subclass splitting. When training, the classifier regards each class as a sub-class, each feature of each sub-class has its own feature scale, which is used to measure the deviation of a feature vector from the sample center of a sub-class, and has a lower bound. If the sample shape in a class is not single, the deviation ratio of similar heterogeneous samples in each subclass is also detected to determine whether to split it into more subclasses. The classification process is to classify the feature vectors of the target to the subclass whose deviation degree is the smallest. The advantage of this classifier is that it has high recognition accuracy, and its feature range, sample shape and distribution are not limited, and the deviation degree of a class can be measured.
【技术实现步骤摘要】
一种基于特征尺度和子类分裂的分类器
本专利技术属于模式识别和机器视觉
,具体涉及一种基于特征尺度和子类分裂的分类器的实现方法。
技术介绍
模式识别是根据输入的目标信息对目标进行识别或归类;识别和分类在机器视觉里也经常用到。要实现分类就需要建立分类器,常见的分类器有支撑向量机(SupportVectorMachine,SVM)、多层感知机(Multi-LayerPerceptron,MLP)、K-近邻(KNN)、高斯混合模型(GMM)、最小距离法等等。很多情况下,用来分类的特征类型并不是只有一种,而不同种类的特征在范围量级上一般也各不相同,因此,相同的差值在不同种类的特征上代表的距离并不一定等价,而多数的分类器内部并没有考虑这个问题,有考虑也是用样本标准差、方差或协方差来对输入的特征值进行归一化;而这些归一化尺度如果在所有样本上统计则受各个类的样本特征分布的影响比较大,准确性会差,如果在单个类上统计则受较小的归一化尺度值的影响大,稳定性比较差。另外如果类内的样本差异不大,可以通过计算和查找离哪个的类的样本特征中心的距离最近就归到哪个类;但如果类内样本差异很大,呈现多态的时候,类内只一个样本中心是不够的;可以把每个样本作为一个中心,比如KNN的方式,但按KNN分类时计算量大且每个类的样本容量要分布比较平衡才好;也可以对每个类的样本自动聚类成若干子类,但聚类为多少个子类要手动设置且不一定很合适。因此,亟需对目前的分类器作一些改进。
技术实现思路
针对现有技术的不足,构造一种基于特征尺度和子类分裂的分类器:针对特征的量级差异,对特征尺度设置下界来达到稳定计算和提 ...
【技术保护点】
1.一种基于特征尺度和子类分裂的分类器,其特征在于:训练和识别的步骤如下:S1、输入所有训练样本的特征矢量和类别名;计算每个特征在所有样本上的范围长度Rf=maxsXs,f‑minsXs,f,其中Xs,f表示第s个样本的第f个特征值;然后对于Rf等于或接近0的,也即Rf≤δf,设置该特征权值wf=0,当作无效特征,否则设置wf=1,其中δf是一个远比特征值域长度小的正数;S2、将每个类看作一个子类,对每个子类计算样本特征中心Cb,f和样本特征尺度
【技术特征摘要】
1.一种基于特征尺度和子类分裂的分类器,其特征在于:训练和识别的步骤如下:S1、输入所有训练样本的特征矢量和类别名;计算每个特征在所有样本上的范围长度Rf=maxsXs,f-minsXs,f,其中Xs,f表示第s个样本的第f个特征值;然后对于Rf等于或接近0的,也即Rf≤δf,设置该特征权值wf=0,当作无效特征,否则设置wf=1,其中δf是一个远比特征值域长度小的正数;S2、将每个类看作一个子类,对每个子类计算样本特征中心Cb,f和样本特征尺度首先计算出样本特征中心再计算样本特征尺度其中N为该子类的样本总数,X为特征值,b为子类序号,s为样本序号,p为正整数;S3、计算每个有效特征的特征尺度下界Lf,可选择以下两种方式之一进行计算,但如果平均每一类的不同特征的样本数<2,只能使用步骤S31的方式计算:S31、Lf=βfRf,其中0<βf≤0.1,βf的值需手动调试或者使用经验值;S32、Lf=μfMf,其中0.001≤μf≤100,Mf为所有子类上的样本特征尺度去掉的那些值后进行排序,中值即为Mf;如果每个类的样本充足或者类内样本形态多样,μf的取值就小些,反之μf的取值就大些;然后对属于同一种的多个有效特征的Lf要平均后再赋给它们;无效特征的Lf可以赋值任意一个正数即可;S4、计算特征尺度Sb,f:如果样本特征尺度则令特征尺度Sb,f=Lf,否则令如果每个类的样本都是单一的,也即任何两个类内样本比类间样本更相似,可以跳过步骤S5;S5、子类分裂:先给出计算公式:偏离度为其中X为目标的特征矢量,f为特征序号,Xf为序号为f的特征值,也即X的第f个分量,F为特征总数;偏离度比值为其中o为本子类的序号,i为异类样本所属子类的序号,X为异类样本的特征矢量,而另外要建立一...
【专利技术属性】
技术研发人员:朱杰英,卢盛林,
申请(专利权)人:广东奥普特科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。