一种中日文字识别方法技术

技术编号:15199984 阅读:95 留言:0更新日期:2017-04-22 00:54
本发明专利技术涉及一种通过马尔可夫随机场的方法对中日文字识别方法,步骤如下:尺寸规范化;特征点提取;匹配和识别。其中,匹配和识别具体包括:将特征点作为站点;将字符类的状态作为标签;通过马尔可夫随机场的方法将站点与标签进行比较,并获得识别结果。

Chinese character recognition method

The invention relates to a method for recognizing Chinese and Japanese characters by Markov random field method, which comprises the following steps: Dimension normalization; feature point extraction; matching and recognition. Among them, the matching and recognition include: the feature points as the site; the character class status as a label; through the Markov random field method to compare the site and tags, and get the recognition results.

【技术实现步骤摘要】

本专利技术涉及一种文字识别方法,尤其是一种中日文字识别方法。
技术介绍
联机手写字符识别是智能手机的一个非常重要的技术,iPad和平板电脑,它使用的数字转换手写输入的字符代码,这反过来又可以理解由计算机提供一个方便的用户界面。虽然在线手写汉字识别已经存在多年,它仍然是具有相同的识别精度的技术挑战,主要是因为手写字符模式往往是写在一个非常普通的或草体。此外,在试图达到更高的精度,技术已经采用复杂的模块,从而增加成本,处理时间和内存消耗。这项工作已经解决,并研究了各种这样的问题,在联机手写字符识别,并提出了一种有效的和优秀的方法,以提高识别精度。这项工作已发表在第十一国际诉讼文档分析和识别,它报道的发展马尔可夫的随机场(MRF)对手写日文在线识别模型。马尔可夫模型(HMM)是最常用的方法为在线手写汉字识别。HMM模型用一元和二元特征。每一元特征提取每一笔输入点,而每个二元特征反映了连续相邻的笔输入点之间的邻里关系。然而,尽管HMM应用二元的特点,他们只合并的二元特征为一元特征(而不是考虑他们的独立),这限制了其识别精度。在解决这一问题,本文提出了MRF模型的在线识别手写的日文字符,有效评价不仅一元特征的概率也是二元的特点。特别是,该模型评估每一元特征标记作为一个标签,每个二元特征为一对标签的概率,这是在以前的型号相比的一种新方法。
技术实现思路
现有的HMM方式只将二元特征合并成一元特征进行识别。本专利技术提供了一种可以识别二元特征的文字识别方法。本专利技术主要使用马尔可夫的随机场(MRF)进行文字识别。本专利技术的多文字识别方法,包括如下步骤:步骤S10:尺寸规范化,通过笔尖跟踪获得的输入图案进行尺寸规范化;步骤S20:特征点提取,从尺寸规范化之后的输入图案上提取特征点;以及步骤S30:匹配和识别,利用马尔可夫的随机场的方法将特征点与已有的字符类进行比较,将与特征点最接近的字符类中的那个字符识别为正确字符。步骤S30包括,步骤S301:将特征点作为站点;步骤S302:将字符类的状态作为标签;步骤S303:利用马尔可夫的随机场的方法将站点与标签进行比较,并获得识别结果。本专利技术的多文字识别方法,马尔可夫随机场的方法中加入权重参数提高识别精度。权重参数可利用条件随机场(CRF)方法获得。本专利技术的多文字识别方法,马尔可夫随机场的方法中加入权重参数提高识别精度。权重参数可利用最小分类误差方法获得。本专利技术的多文字识别方法,能量函数的公式是本专利技术的多文字识别方法,马尔可夫随机场的方法中加入权重参数提高识别精度。权重参数可利用条件随机场方法获得,公式是本专利技术的多文字识别方法,马尔可夫随机场的方法中加入权重参数提高识别精度。权重参数可利用条件随机场方法获得,公式是通过LNLL(λ,O)=-logP(C|O)公式对权重参数进行优化。本专利技术的多文字识别方法,马尔可夫随机场的方法中加入权重参数提高识别精度。权重参数可利用最小分类误差方法获得,公式是LMCE(λ,0)=σ(max(分数不正确)-分数正确)σ(x)=(1+e-x)-1本专利技术的多文字识别方法,利用马尔可夫的随机场的方法将站点与标签进行比较,并获得识别结果。其中,通过Viterbi算法或Baum-Welch算法来训练马尔可夫的随机场参数。本专利技术的多文字识别方法,步骤S10:尺寸规范化,通过笔尖跟踪获得的输入图案进行尺寸规范化。将输入图案保留水平垂直比例地转换到标准尺寸。本专利技术的多文字识别方法,步骤S20:特征点提取,从尺寸规范化之后的输入图案上采用Ramner方法提取特征点。附图说明图1是表示本专利技术的文字识别方法的框图,框图中显示本专利技术有三个主要步骤,其中第三步骤S30中还包括三个步骤。图2是表示本专利技术特征点提取的示意图,右侧代表输入图案,左侧代表现有的字符类。图3是表示本专利技术直链MRF的示意图,圆形代表一个字符类,每种字符类都有三种转换形式。具体实施方式具体实施方式一下面结合附图,对本专利技术的具体实施方式进行具体说明。本专利技术提供一种快速的多文字识别方法,如图1所示,包括如下步骤:步骤S10:尺寸规范化;步骤S20:特征点提取;以及步骤S30:匹配和识别。首先进行步骤S10的尺寸规范化,我们将通过笔尖跟踪获得的输入图案进行尺寸规范化。比如是将输入图案保留水平垂直比例地转换到标准尺寸。随后进行步骤S20的特征点提取,从尺寸规范化之后的输入图案上提取特征点。这里例如可以采用Ramner方法进行特征点的提取。最后通过步骤S30,将特征点与已有的字符类进行比较,将与特征点最接近的字符类中的那个字符识别为正确字符。步骤S30中,我们用MRF模型与每个字符类的状态相匹配的特征点,并获得每个字符类的相似性。然后,我们选择具有最大相似性作为识别结果的字符类。具体的步骤包括。步骤S301:将特征点作为站点;步骤S302:将字符类的状态作为标签;步骤S303:将站点与标签进行比较,并获得识别结果。进一步具体说明如下:步骤S301:将特征点作为站点。例如形成站点S={s1,s2,s3,…,sI本文档来自技高网...
一种中日文字识别方法

【技术保护点】
一种中日文字识别方法,本专利技术的多文字识别方法,其特征在于,包括如下步骤:步骤S10:尺寸规范化,通过笔尖跟踪获得的输入图案进行尺寸规范化;步骤S20:特征点提取,从尺寸规范化之后的输入图案上提取特征点;以及步骤S30:匹配和识别,利用马尔可夫的随机场的方法将特征点与已有的字符类进行比较,将与特征点最接近的字符类中的那个字符识别为正确字符。步骤S30包括,步骤S301:将特征点作为站点;步骤S302:将字符类的状态作为标签;步骤S303:利用马尔可夫的随机场的方法将站点与标签进行比较,并获得识别结果。所述步骤S303中,所述的马尔可夫随机场的方法中加入权重参数提高识别精度,权重参数可利用条件随机场或最小分类误差方法获得。

【技术特征摘要】
1.一种中日文字识别方法,本发明的多文字识别方法,其特征在于,包括如下步骤:步骤S10:尺寸规范化,通过笔尖跟踪获得的输入图案进行尺寸规范化;步骤S20:特征点提取,从尺寸规范化之后的输入图案上提取特征点;以及步骤S30:匹配和识别,利用马尔可夫的随机场的方法将特征点与已有的字符类进行比较,将与特征点最接近的字符类中的那个字符识别为正确字符。步骤S30包括,步骤S301:将特征点作为站点;步骤S302:将字符类的状态作为标签;步骤S303:利用马尔可夫的随机场的方法将站点与标签进行比较,并获得识别结果。所述步骤S303中,所述的马尔可夫随机场的方法中加入权重参数提高识别精度,权重参数可利用条件随机场或最小分类误差方法获得。2.如权利要求1所述的多文字识别方法,其特征在于,马尔可夫随机场的方法的公式是:E(O,F|C)=E(O|F,C)+E(F|C)=Σi=1I[-logP(Osi|lsi,C)-logP(Osisi-1|lsi,lsi-1,C)-logP(lsi|lsi-1,C)].]]>3.如权利要求1所述的多文字识别方法,其特征在于,马尔可夫随机场的方法中加入权重参数提高识别精度。权重参数可利用条件随机场方法获得,公式是P(C|O)=ΣFcexp(-E(λ,O,Fc,C))ΣCiΣFciexp(-E(λ,O,Fci,Ci))=ΣFCexp(-E(λ,O,Fc|C)-E(C))ΣCiΣFCiex...

【专利技术属性】
技术研发人员:刘建生
申请(专利权)人:上海新同惠自动化系统有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1