采用概率密度函数的模式识别装置及其方法制造方法及图纸

技术编号:2934660 阅读:280 留言:0更新日期:2012-04-11 18:40
通过计算某模式集中各模式的特征向量与各标准类的平均向量之间的差,生成一差向量集。当输入未知模式的特征向量时,利用与差向量对应的误差分布作为概率密度函数,得到某类的概率密度函数的期望值,随后,基于所得期望值,确定该类的判别函数值,使该模式得以识别。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及对包含在识别目标信息中的字符模式和其它模式进行识别的装置及其方法。向量空间中每个类的代表点,是为各类预置的样本模式特征向量空间中的均值。对于距离度量,可以是城市街区距离,欧几里得距离和其它可用距离。由Tsuruoka等撰写的“采用加权定向指数直方图方法识别手写汉字/平假名”(信息与通信工程,电子研究院印刷期刊,Vol.J70-D,No.7,第1390页-1397页,1987年7月)提出了一种方法,采用修正的贝叶斯判别函数,该函数反映了每个类的特征向量空间中的分布,而非简单距离。该方法通过修正贝叶斯判别函数获得,以便解决理论和实现问题。当样本模式基于正态分布且已知均值和协方差矩阵时,修正贝叶斯判别函数是最佳判别函数。本例中的问题是,协方差矩阵的特征向量的行列数越高,估计误差就越大,需要巨大的计算量和存储能力等等。若设输入模式的(n维)特征向量为x,类c的贝叶斯判别函数fc(x)和修正的贝叶斯判别函数gc(x)定义如下。(1)贝叶斯判别函数fc(x)=(x-mc)tΣc-1(x-mc)+log|Σc|-----(1)]]>mc类c的均值向量∑c类c的协方差矩阵(2)修正的贝叶斯判别函数gc(x)=1αck+1{||x-mc||2-Σi=1k(1-αck+1αci)((x-mc)·vci)2}+log(Πi=1kαci·Πi=k+1nαck+1)(2)]]>αci∑c的第i个特征值vci对应于∑c的第i个特征值的特征向量k1和n之间的整数,包括1和n。可是,上述常见的模式识别有下述问题。即使采用修正的贝叶期判别函数,严重变形字体(与日本最流行的Mincho字体相比较而言)以及因输入/输出条件影响而严重受损的文档中的字符,其识别精度并不会好。若严重变形字体受损,识别精度会更加降低。本专利技术的模式识别装置,包含一个计算器和一个识别装置,并基于概率密度函数执行识别,该函数针对模式特征向量空间中的每个类都有定义。通过计算某模式集中各模式的特征向量和各标准类的平均向量间的差,可生成一差向量集,这时利用正态分布作为概率密度函数,确定某类的概率密度函数的期望值,该正态分布以差向量集的自相关矩阵和未知模式的特征向量分别作为协方差矩阵和均值。基于该期望值确定某特定类的判别函数,计算器计算已知模式特征向量判别函数的一个值。识别装置基于此判别函数值识别未知模式,并输出识别结果。优选实施例说明本专利技术的优选实施例,参照附图详细说明如下。附图说明图1是本专利技术的模式识别装置的基本结构。图1中的模式识别装置包含一个计算器和一个识别装置,并基于针对模式特征向量空间中的每个类定义的概率密度函数执行识别。通过计算某模式集中各模式的特征向量与各标准类的平均向量间的差,可生成一差向量集,这时,利用一正态分布作为概率密度函数,确定某类的概率密度函数的期望值,所说正态分布以差向量集的自相关矩阵和未知模式的特征向量分别作为协方差矩阵和均值。基于此期望值确定某特定类的判别函数,计算器11计算已知模式的特征向量判别函数的一个值。识别装置12基于判别函数值识别未知模式,并输出识别结果。差向量集能表示某模式集的误差分布,其自相关矩阵包含关于误差分布的信息。利用正态分布作为概率密度函数,可生成反映误差分布信息的期望值,所说正态分布以其自相关矩阵作为协方差矩阵。因此,基于此期望值确定的判别函数,反映模式集的一个特征。计算器11计算未知模式的特征向量的该判别函数值,并将计算结果输出至识别装置12。识别装置12基于所接收的判别函数值,推断未知模式的类,并输出判断结果。据此模式识别装置,可高精度地识别出具有与模式集相同特征的未知模式。例如,若差向量集自一种严重变形字体的字符模式集生成,则可以改进该字体的未知模式的识别精度。若差向量集自严重受损文档中的字符模式集生成,同样受损的未知模式的识别精度也可得到改进。图1中的计算器11和识别装置12,举例来说,相当于稍后说明的、图6中的CPU(中央处理单元)31和内存32的结合。本优选实施例采用一种方法,将某字体或受损变形的信息添加给传统的修正贝叶斯判别函数。首先,若输入某输入模式集,则计算模式集中各模式的特征向量与相应标准类的平均特征向量间的差,所得差向量集作为该模式集的一个误差分布。接着,若输入未知模式的特征向量x,相对于图2所示的特征向量空间中的点x,则模式集的误差分布被指定作为概率密度函数Fe(x)。随后,设类c的判别函数的概率密度函数为Fc(x),函数Fc(x)的期望值(相似性)为Fe(x),而类c的判别函数值基于该期望值确定。本例中,函数Fc(x)的期望值对应于图2中的区域20的面积,并按下式计算。Fc(x)的期望值=∫Fc(x)·Fe(x)dx (3)图3是采用此判别函数值的例子中,类分布的改变。根据基于初始判别函数的、类c的特征向量的分布21和某模式集的误差分布22,共同生成新的分布23。即使此时,初始分布21并不包含未知模式的特征向量,新分布23包含该特征向量,类c可被作为未知模式的识别结果。因此,若未知模式与误差分布22的模式集有相同特征,则可改进其识别精度。下面详述如何计算一个新的判别函数。首先,用均值m2、协方差矩阵∑2的正态分布,对均值m1、协方差矩阵∑1的正态分布加权求和,得到函数q(m1,m2,∑1,∑2),计算如下。q(m1,m2,∑1,∑2)=∫Rd1(2π)d2|Σ1|12exp{-12(x-m1)tΣ1-1(x-m1)}·1(2π)d2|Σ2|12exp{-12(x-m2)tΣ2-1(x-m2)}dx]]>=1(2π)d2|Σ1|12|Σ2|12|Σ1-1+Σ2-1|12exp(-12K)-----(4)]]>上式中,k=m1tΣ1-1m1+m2tΣ2-1m2-(Σ1-1m1+Σ2-1m2)t(Σ1-1+Σ2-1)-1(Σ1-1m1+Σ2-1m2)---(5)]]>采用此q(m1,m2,∑1,∑2),可定义一个新判别函数φc(x)如下。φc(x)=-2log q(mc,x,∑c,∑) (6)x输入模式的(n维)特征向量mc类c的平均向量∑c类c的协方差矩阵∑模式集的误差分布的协方差矩阵q(mc,x,∑c,∑)对应于(3)式的期望值。从φc(x)中去掉常数项,可得下述判别函数Φc(x)。 =(X-mc)t(∑+∑c)-1(x-mc)+log|∑+∑c| (7)Φc(x)等于式(1)的本文档来自技高网...

【技术保护点】
基于对模式特征向量空间中各类所确定的概率密度函数值,来识别模式的模式识别装置,包含:一个计算器,对未知模式的特征向量,先计算某模式集中各模式的特征向量与各标准类的平均向量间的差,生成一差向量集,利用一正态分布作为概率密度函数,确定某类的 概率密度函数的期望值,该正态分布以差向量集的自相关矩阵和未知模式的特征向量作为协方差矩阵和均值,而判别函数基于该期望值确定,此时,计算该类的判别函数值;以及一个识别装置,基于此判别函数值识别未知模式,并输出一识别结果。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:武部浩明
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1