手写体输入字符识别的方法和设备技术

技术编号:2936284 阅读:207 留言:0更新日期:2012-04-11 18:40
一种方法,包括以下步骤: 以笔划序列的数据形式接收手写体输入; 通过比较代表手写体输入的笔划序列与模板中多个符号的笔划序列之间一个或多个笔划参数,从已存储模板中确定可能与手写体输入匹配的多个候选符号;及 通过比较代表手写体输入的笔划序列与可能与手写体输入匹配的多个候选符号中每个符号的笔划序列之间两个或多个笔划参数,来确定一个或多个识别出的可能与手写体输入匹配的符号。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般涉及手写体识别,尤其涉及识别包含一个或多个笔划的多字符集.手写体的机器识别很困难,随着近来的笔式计算和电子设备的蓬勃发展,手写体的机器识别成为重要的待解决的问题。目前存在许多计算和电子设备能够识别手写体输入。笔式设备例如计算机,个人数字辅助器等通常有一个触敏屏幕,用户可以在它上面写字。该设备对输入信息进行数字化,其他设备,如计算机、高级电话、数字电视等信息处理设备,也能存取数字化板的输出。其它设备通过传真机、电子邮件或其它电子传输方法来接收手写体字符的输入。这些设备处理信息并且识别手写体输入信息的内容,通常给用户反馈显示信息,以便纠正识别错误。如果字符集所含的字符数目是有限的,如少于100个,那么会有多种识别方法。然而这些方法对多字符集是无效的。对亚洲的图形文字的手写体字符集进行快速、准确识别很困难,如中文简体和繁体字符、日文和其他有多字符集的文字。一些文字,如简体汉字,有几千个字符。由于字符集非常大和复杂等部分原因,使得输入多字符集数据和文字的传统方法,如键盘输入,非常困难。再加上这些语言求助于西方字符来用语音代表字符以通过键盘输入字符,使得键盘输入更加困难。因此键盘输入该文字是困难的。多字符集键盘输入困难的一个例子是中文输入。为了通过键盘输入中文数据、文本,语言要先罗马字母化。西方字符,如英文、盎格鲁撒克逊字母,用来从语音上代表中文字母。这种表示法称作拼音。要通过键盘输入中文数据和文本,必须首先知道与中文字符相对应、语音上等价的英文字符表示。基于多字符集的数据或文本的手写体识别困难的另外原因是由于字符数量的巨大和字符本身结构复杂,各种各样人的书写笔迹也极不相同。还有,很多该类语言有一种或更多的格式来表达同一个字符,比如英文、盎格鲁撒克逊字母有印刷体和草体两种格式。此外,该类语言可能有同音异意异形字,例如中文就有许多同音异意异形字,它们发音相同但有不同的含义和书写形式。同一个拼音可以表示一系列的中文字,用户不得不从列表中选取要输入的字。通常用于识别手写体英文、盎格鲁撒克逊字母等少于100个字符的有限字符集的方法应用于多字符集时,如几百或几千个不同的复杂字符时,不能产生准确结果。手写体识别少量字符集的技术应用于多字符集时,识别时间要加长。由于笔式电子输入设备的广泛使用,通过键盘输入多而复杂的字符集语言的困难,因而需要快而准确而且易用的方法和设备来识别多而复杂字符集语言。附图说明图1.示出本专利技术一种优选实施方式的操作模块图。图1a.示出适用于接收根据本专利技术所描述数据的笔式微处理器输入设备的总览图。图2.示出本专利技术一种优选实施方式的详细操作模块图。图3.示出根据本专利技术所描述数据的参考模板的一种优选实施方式的格式。图4.示出根据本专利技术的一种字符匹配优选实施方式的操作模块图。图5.示出根据本专利技术的一种快速字符匹配优选实施方式的操作模块图。图6.示出根据本专利技术的一种快速字符匹配优选实施方式的详细操作流程图。图7.根据本专利技术的一种快速字符匹配优选实施方式的图形表示。图8.根据本专利技术的一种快速字符匹配优选实施方式的图形表示。图9.示出根据本专利技术的一种详细匹配优选实施方式的操作模块图。图10.示出根据本专利技术的一种详细匹配优选实施方式的操作流程图。图11.示出根据本专利技术的一种详细匹配优选实施方式的操作流程图。图12.示出按照本专利技术优选实施例所描述的笔式微处理器输入设备的总览图,其中手写体输入已被接收并且相应的详细匹配字符已经显示出来。本专利技术一般涉及识别手写体输入的方法和设备。特别地涉及到一种识别手写体输入的方法和设备,该输入来自多而复杂的字符集,且该字符集的每个字符含有一个或多个笔划。依照本专利技术的一个优选的实施方式,通过编辑和统计分析实际手写体输入的上百种样本的经验数据,可以得到支持本专利技术手写体识别的方法和设备的候选字符。识别出的手写体输入字符可以从通过对经验数据进行编辑和统计分析得到样板而获得的选字符中选择得到。现在参看图示。图1和图1a表示根据本专利技术的一种实施方式的方法和设备的一般操作过程。图1a是笔式电子输入设备的例子。个人数字辅助器在这里用参考数字10来表示。个人电子辅助器(10)主要包括框架(12)、触摸屏(18)和适当的用于操作的笔(15)以书写。该设备通常包含一个或多个微处理器或其它数字处理设备。该类设备构成了计算平台,能够通过本专利技术的教导很容易地适应用户。又可以这样理解,虽然这种个人数字辅助器包括一个能适应用户的简便的平台,但是本专利技术的教导也可以在其它操作环境下进行。这些环境包括但并不限于以下计算机或其它带数字化屏幕、连接到数字化输入平面或能够接收传真及扫描等电子输入的电子输入设备、数字及交互电视、调制解调器、电话、寻呼机等其它能够捕捉手写体输入并进行处理的系统。参看图1,它示出本专利技术一种优选实施方式的操作模块图。根据本专利技术一种优选实施方式的手写体输入表示为(x,y,pen)序列。x和y代表某种坐标系下墨点的(x,y)坐标,pen表示抬笔(笔没有同输入板接触)或下笔(笔同接触了输入板)。依照本专利技术,手写体由数字化板捕获,或检测扫描、传真的图象的线段来获取数据。该电子捕捉手写体的方法在技术上是可理解的。在一种优选方法中,手写体输入被个人数字辅助器(PAD)等设备接收。其它可以接收手写体输入的设备包括但并不限于以下计算机或其它带数字化屏幕、连接到数字化输入平面、能够接收传真及扫描等输入数据的电子输入设备、数字及交互电视、调制解调器、电话、寻呼机等其它能够捕捉手写体输入的系统。在本专利技术中,提交给识别器的手写体输入(墨迹ink)对应于单个字符。如果两个或多个字符需要识别,那么对应于每个字符的墨迹必须在时间上分别提交给识别器,并且最好按照指定的顺序,以便确定每个字符及识别字符的预定顺序。依照本专利技术,识别器(102)对输入墨迹(104)执行一系列的操作,并且产生候选字符列(106),它对应并代表手写体输入(20)。识别器提供一候选字符列表,可选出其中最与手写体输入匹配的候选字符。组成列表的用于选择的候选字符数可以变化,从而选出最新表示并对应于手写输入的候选字符。该选择可以通过多种方法进行,包括但并不只限于如用户选择、语言建模等。依照本专利技术的一种优选实施方式,本专利技术的识别器被设计为只识别单个字符,它们是多字符集的一部分或子集,字符集包含成百上千个字符,每个字符包含一个或多个笔划。该实施方式特别适用于每个字符主要是直线段笔划的字符。这样的多字符集包括但并不限于以下几种亚洲的图形字符符号文字,包括但不限于中文,日文等。依照本专利技术的一种优选方法和实施方式,根据本专利技术的手写体识别是依照简体汉字字符集来实现的。特别适用于GB1所定义的简体汉字字符。现在参看图示。图2表示本专利技术一种优选实施方式的详细操作模块图。由图2可知,本专利技术一种优选实施方式包括一个预处理模块(122)、一个字符匹配模块(122)和一系列参考模板(160)。预处理模块(122)将手写体输入(20)或原始输入数据,如(x,y,pen)序列转换为笔划序列。依照本专利技术,笔划被定义为笔移动的基本单元。任何手写体输入都被表示为笔划序列。一种选定的笔划表示法是参数化的直线段,它使用四维向量1)mx,2)my,3)len,4)ang。mx是本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:凯恩南·帕塞萨尔泰
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1