识别字符或图形的方法和系统技术方案

技术编号:2936547 阅读:158 留言:0更新日期:2012-04-11 18:40
一种不是使用输入字符的笔划顺序而是使用其他信息来完成字符识别的方法。用于识别联机输入书写区的字符或图形的方法,此方法包括以下步骤:对联机输入的字符或图形采样,以便提取采样信息;根据采样信息从已输入字符或图形中确定多个局部区域;为每个局部区域计算出特征向量;根据每个特征向量在书写区的位置计算出向量系列;然后根据向量系列对已输入的字符或图形进行识别。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及到识别字符或图形的方法和系统,特别涉及识别联机状态下输入的手写汉字字符或诸如此类字符的方法和系统。已经提出了许多识别联机状态下输入的手写字符或图形的自动系统。例如,日本专利申请4-220410号(美国专利5,343,537号),公开了一种方法和装置,此方法和装置是用于在一个混合的复杂体中特定的手写标记自动识别手写文本,此方法和装置考虑一个或几个特征向量空间和每个空间的高斯模拟,也考虑全部空间中所有有关的样品的贡献。特别是,为了响应书写者用输入笔(Stylus)在电子板上的书写,要对包含书写者手写输入的已知字符进行采样。机器显示出手写空间中被采样的已知字符的参数向量,并响应手写空间中被采样已知字符的参数向量,提供出手写原型。接着,为了响应书写者在电子板上用输入笔进行的书写,对包含书写者手写输入的待识别未知字符进行采样,然后显示出手写空间中被采样未知字符的参数向量。根据对手写原型与手写空间中被采样未知字符的参数向量进行的弹道式(ballistic)比较,包括制作候选字符表,于是估计出有多大可能性在手写原型中至少有一个是将被识别成未知字符的候选字符。接着,为了识别被采样未知字符(其中包括了要识别的输入手写体),要对候选字符表进行弹道式分析。此外,申请号为4-328128的日本专利申请公开了一种使用隐蔽式马尔可夫模型识别手写体的方法和系统。总的说来,如果假定那些字符是以正确的笔划顺序书写出来的,那么在联机状态下手写体字符识别方法识别出字符的概率是较高的。上述技术背景也描述了根据这种笔划顺序,即时间系列信息进行字符识别的方法。然而,由于有许多笔划的字符(如汉字)中存在取决于书写者的笔划顺序变异,因此,即使是同样的字符,时间系列信息也会变化。所以,根据笔划顺序对同样的字符也会给出错误的识别。另外,此种字符识别方法是把从已输入字符中提取并制作出来的模式与字符识别系统中字典里已存入的许多模式相比较,并计算出每次比较的比分来完成的。因此,如果,对一个已知字符来说,其字典中要预先存入预期数量的模式,而且考虑到上述笔划顺序的变异性,字典的容量就必定会变得很大。这样就不仅会造成字典容量的增大,而且会减慢识别速度。本项专利技术是为了解决上述问题而完成的,而其目的是提供一种对输入的笔划顺序和数量没有任何限制的识别技术。此技术适用于识别日语,因为日语的笔划比英语或其它类似语言的笔划多得多,它尤其适用于识别汉字。此外,本专利技术的另一个目的在于不是用字符的笔划顺序来完成字符识别工作,这就是说,是用时间系列信息以外的信息来完成的。本专利技术提供了一种把输入进书写区域的字符或图形作为对象进行识别的方法,此方法包括以下步骤对已输入的字符或图形进行采样,以提取出采样信息;根据采样信息从已输入的字符或图形中确定多个局部区域;为每个局部区域计算出特征向量;根据每个特征向量在书写区中的位置得到特征向量系列;然后根据特征向量系列识别已输入的字符或图形。书写区是指要识别的字符或图形所在的区域。根据局部区域在此书写区中的位置依次排列特征向量就能获取特征向量系列。在联机字符识别中,通常书写文字区是字符输入的框架区或下划线区。获取向量系列的方法最好是根据局部区域在书写区里从一边到另一边的位置次序来确定。再详细点儿说,也就是最好参考对应于向量系列的局部区域在以X、Y坐标代表的书写区里中的位置,并按y坐标递减顺序排列这些向量。此外,本专利技术的另一方面提供了一种用于识别联机输入到书写区的字符或图形的方法,此方法包括以下步骤对联机输入的字符或图形采样,来提取采样信息;根据采样信息从已输入的字符或图形中确定多个局部区域;为每个局部区域计算出特征向量;根据联机写入的字符或图形的笔划顺序来获得第一组特征向量系列;根据每个特征向量在书写区的位置来获得第二组特征向量系列;然后根据第一组和第二组向量系列来识别已输入的字符或已输入的图形。获得第二组系列的步骤最好是根据局部区域在书写区从一边到另一边的位置次序来确定。此外,识别步骤最好用隐蔽式马尔可夫模式方法或DP(动态编程)匹配法来识别已输入字符或已输入图形。本专利技术的另一方面提供了用于识别联机输入的字符或图形的系统,此系统包括对联机输入的字符或图形采样来提取采样信息的装置;根据采样信息从已输入字符或已输入图形确定多个局部区域并为每个局部区域计算出特征向量的装置;根据每个特征向量在书写区的位置来获得特征向量系列的装置;以及根据向量系列来识别已输入字符或已输入图形的装置。获取向量系列的装置最好是根据局部区域在文字区中从一端到另一端的顺序来计算出向量系列。附图说明图1是本实施例中手写识别系统的方框图。图2是本实施例中手写识别系统的流程图。图3是对特征向量的向量系列进行计算的流程图。图4显示了在电子书写板上的书写区中输入“ ”时的一组点和局部区域。图5的表中列出了组成每个局部区域的点。图6的表中列出了每个局部区域的y坐标。现在,举例说明作为本专利技术最佳实施例的联机字符识别。图1是本专利技术中手写识别系统的方框图。此系统包括一个计算机平台110。此计算机平台110有一个由随机存取存储器(RAM)118、中央处理机(CPU)120以及输入/输出接口122组成的硬件部件116。此计算机平台110有一个操作系统112,可能还会有微指令代码114。接在计算机平台110上的是用来对联机输入书写区的字符或图形进行采样以便提取采样信息的装置,例如电子书写板126。电子板126允许用户用输入笔在书写区里写入想要写的字符或图形。也要接上许多外围设备,如终端124,数据存储设备128,以及一个打印机130。在平台110中运行一个手写识别程序102。借助手写识别程序102运行一个前端104、一个再定位机制106以及一个模式单元108。前端104是用来根据采样信息从已输入的字符或图形中确定许多局部区域,并为每个局部区域计算出特征向量。再定位机制106是用来根据每个特征向量在书写区的位置计算出向量系列。例如这点可以根据局部区域在书写区中从一端到另一端的位置次序计算出来。另外,模式单元108是用来根据向量系列识别用户输入的字符或图形。图2是本实施例中手写识别方法的流程图。首先,联机对输入的字符或图形采样,以便提取采样信息(步骤201)。采样是对用户在电子书写板上的书写区里写入的字符或图形进行的。根据采样信息,从已输入字符或图形中确定许多局部区域(步骤202)。这就是说,每个由步骤201提取的采样点均是在书写区里由(Xn,Yn)坐标限定的点。这些点间的距离不等,这是因为书写者的书写速度不总是稳定的,表现为用户书写速度的函数。然后,要使这些单个采样点规格化,使其成为间隔统一的点P(Xm,Ym)。这样,由电子板126捕获的以时间为准的采样点转化为一个所有点间距离统一而且与时间无关的表现形式。接着,根据间隔统一的已规格化的采样点P,确定局部区域。局部区域是指对于识别某个字符或图形是必需的特征性部分。一般来讲,局部区域通常是包括一个笔划的起始点、一个笔划的终止点、或x和y坐标的最大值和最小值的那些区域。局部区域决定由等量的点(如2K+1)组成的,而一个字符或图形都有多个局部区域。对于通过步骤202获得的多个局部区域要计算出相关的特征向量(步骤203)。此步是在图本文档来自技高网...

【技术保护点】
识别一个字符或一个图形的方法,此方法包括以下步骤:对某一区域中存在的一个字符或图形采样,以提取采样信息;根据上述采样信息,确定上述字符或上述图形中的多个局部区域。为每个上述局部区域计算出一个特征向量。通过依次排列每个上述特征向量来获取上述特征向量系列,这种排列是根据上述局部区域在上述字符或图形所在区域中的位置确定的;以及根据上述特征向量系列识别上述字符或上述图形。2.如权利要求1中所述方法,其特征在于获取上述特征向量系列的上述步骤是根据上述字符所在的平面区域中从一边到另一边上述每个局部区域的位置次序完成的。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:山崎一孝
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1