字典制作方法、手写输入方法和设备技术

技术编号:2924773 阅读:393 留言:0更新日期:2012-04-11 18:40
公开了一种制作字典的方法、手写输入方法和设备。该制作字典的方法能够预测笔划要输入的文字,以便减轻使用者的负担。该方法包括步骤:提取文字的整字样本的整字特征,和笔划数大于预定值的文字的部分笔划样本的部分笔划特征;以及通过用机器学习算法对所述整字特征和所述部分笔划特征进行学习来生成文字的整字模板和/或部分笔划模板,作为字典中的项目。本系统具有结构简单、硬件要求低、识别速度快,识别率高等优点,可在嵌入式系统等上实现。

【技术实现步骤摘要】

本专利技术涉及文字输入,具体涉及一种应用于电子产品的字典制作 方法、手写输入方法和设备,能够用已输入的笔划预测要输入的文字, 以便减轻使用者的负担。
技术介绍
长久以来,诸如汉字之类非字母字符的快速输入是困扰人们的难 题,因为计算机的键盘适用于诸如英文之类西文的输入,而不适用于 汉字的输入。汉字的输入通常分为键盘输入和手写输入两种。键盘输入是按照 一定的编码规则给每个汉字赋予一定的编码,通过键盘输入编码来识 别汉字,例如各种拼音输入法和五笔字型输入法。手写输入通过识别 人们直接书写的笔迹来识别汉字,从而达到输入汉字的目的。由于键 盘输入需要使用者熟练使用键盘和/或牢记每个汉字的各种代码或者 编码规则,无法在不常使用键盘的人们中推广使用。另外,由于方言 的缘故,很多人会写下某个汉字,确无法准确读出其读音,这使得拼 音输入法在实际使用中遇到了难以克服的困难。由于不需要使用者在使用之前进行输入法的学习,手写输入法得 到了不常使用键盘的人的欢迎。从原理上讲,手写输入并不需要使用 者进行任何的学习,只要他会写下汉字即可。专利文献l (US6028959)披露了一种采用笔划预测技术来输入汉 字的方法。根据已经书写的汉字的笔划,在整个汉字写完之前,便可 预测出所要写的汉字,从而大大提高了手写输入的速度。具体地,专 利文献l的方法采用了时延神经网络(TDNN)结合多层感知器网络(MLP)的方式来进行笔划预测。专利文献2(特开平2005-25566)披露了一种手写输入汉字的方法, 其中将输入部输入的手写笔划集中存储在存储部中,将存储部中包括 坐标特征、向量特征和图形特征等的检索对象信息与事先创建的字典 进行匹配,使用包括OCR、 DP等各种模式匹配方法生成预测候补。然 后,候补选择部从预测的候补中选择要输入的文字。输入部将输入的 笔划集合作为整体图像来进行处理,能够减少使用者的负担。但是,专利文献l的手写输入方法预测步骤过于复杂,它采用了 包括两类共68个神经网络涉及5M多个参数,导致预测过程非常复杂。 专利文献2的方法虽然给出了不需要写完整的字,就可以通过匹配预测 要输入结果的方法,但该专利技术将输入的笔划的整体作为图像来处理, 导致效率低下。
技术实现思路
鉴于现有技术的问题,完成了本专利技术。本专利技术的目的是提供一种 完全创新的字典创建方法和设备、手写输入方法和设备,能够通过写 下的笔划来预测要输入的文字,以便减轻使用者的负担。在本专利技术的第一方面,提出了一种制作字典的方法,包括步骤 提取文字的整字样本的整字特征,和笔划数大于预定值的文字的部分笔划样本的部分笔划特征;以及通过用机器学习算法对所述整字特征和所述部分笔划特征进行学习来生成文字的整字模板和/或部分笔划 模板,作为字典中的项目。在本专利技术的第二方面,提出了一种制作字典的设备,包括提取 文字的整字样本的整字特征,和笔划数大于预定值的文字的部分笔划样本的部分笔划特征的装置;以及通过用机器学习算法对所述整字特征和所述部分笔划特征进行学习来生成文字的整字模板和/或部分笔 划模板,作为字典中的项目的装置。在本专利技术的第三方面,提出了一种手写输入方法,包括步骤提取文字的至少部分手写笔迹的特征;以及计算所述特征与根据上述第一 方面的方法所创建的字典中的模板之间的距离;以及将距离较小的至少一个的模板所代表的文字作为识别结果。在本专利技术的第四方面,提出了一种手写输入设备,包括提取文 字的至少部分手写笔迹特征的装置;计算所述特征与根据上述第一方 面的方法创建的字典中的模板之间的距离的装置;以及将距离较小的 至少一个的模板所代表的文字作为识别结果的装置。本专利技术提出了完整字样本与部分笔划字样本,并在此基础上制作 了识别字典,通过与该识别字典进行匹配,手写使用者可不完全输入 文字,自动预测出所要输入的文字候补,减少书写者的负担。本系统 具有结构简单、硬件要求低、识别速度快,识别率高等优点,可在嵌入式系统等上实现。另外,在识别字典的制作过程中,所提取的特征与手写文字的笔 顺、连笔及笔划数无关,从而使使用者在书写时摆脱了笔顺、连笔以 及笔划数的限制。另外,通过降维及量化,既极大地降低了识别字典所需的内存, 实现了小型化,又减小了识别过程中的计算量,避免了浮点运算,提 高了识别速度,有利于高速化的实现。另外,在识别过程中,采用了分段式快速匹配方法,逐级滤除候 选项,縮小比较范围,在几乎不影响识别率的情况下,大大提高了识 别速度,最终地保障了联机手写文字识别系统高速化的实现。另外,十候选字列表结合背景提示方式,提供了一种更加友善的 操作界面,避免了使用者视线在输入区与候选区之间的频繁转移,这 样一方面减小了使用者的工作强度,另一方面又提高了手写输入速度。另外,通过自适应非定时自动送字方式,系统可根据使用者的书 写习惯以及所写字,智能地调整字与字之间的间隔等待时间,提供了 一种更人性化的控制方式,也使得手写输入更高效。附图说明通过下面结合附图说明本专利技术的优选实施例,将使本专利技术的上述 及其它目的、特征和优点更加清楚,其中图l示出了根据本专利技术实施例的手写输入设备的功能框图2是部分笔划字样本的自动生成以及整字类和部分笔划字类的 示意图3是描述根据本专利技术实施例的字典制作方法的流程图4是描述在预处理过程中执行的等距重采样操作的示意图5是在预处理过程中执行的质心归一化和非线性归一化操作的 示意图6是描述提取笔划方向分布特征的过程的示意图; 图7是描述提取网格笔划特征的过程的示意图; 图8是描述提取周边方向特征的过程的示意图; 图9是描述利用GLVQ迸行学习的过程的示意图; 图10是根据本专利技术实施例的手写输入方法中的识别过程的详细 流程图ll是描述快速匹配过程的示意图;以及 图12是十候选字列表结合首选字背景提示的示意图。具体实施例方式下面参照附图对本专利技术的优选实施例进行详细说明,在描述过程 中省略了对于本专利技术来说是不必要的细节和功能,以防止对本专利技术的 理解造成混淆。图l示出了根据本专利技术实施例的手写输入设备的功能框图。如图l 所示,根据本专利技术实施例的手写输入设备包括手写输入单元110,用于采集使用者的笔迹,并且对其数字化,作为输入笔迹信号;手写笔迹存储单元120,用于存储手写输入单元110产生的输入笔迹信号;识别预测单元130,用于从输入笔迹信号中提取该信号的特征,例如某个 字的部分或者全部笔划的特征,并将其与预先创建的字典中的模板进 行匹配,按照匹配程度产生输入候补;显示控制单元150,在使用者通 过手写输入单元110输入笔划的同时在手写显示单元160上显示笔迹, 呈现给使用者,另一方面,在手写显示单元160上显示识别预测单元130 所产生的候选项,例如按照接近程度排列的十个最接近要输入的文字 的候选项;候选项选择单元140,在使用者的操作下从十个候选项中选择要输入的文字,然后由手写显示单元160显示给使用者。下面详细说明上述提及的字典的创建过程,也就是通过机器学习 方法从手写的文字样本生成针对每个文字的模板的过程。根据本专利技术,将每个文字的手写样本分成两类。 一类称为整字类, 属于该类的样本具备全部笔划,即为一个完整的字。考虑到文字书写 时"连笔"等原因,可以不要求属于该类中的样本具有相同的笔划数。 另一类则称本文档来自技高网
...

【技术保护点】
一种制作字典的方法,包括步骤: 提取文字的整字样本的整字特征,和笔划数大于预定值的文字的部分笔划样本的部分笔划特征;以及 通过用机器学习算法对所述整字特征和所述部分笔划特征进行学习来生成文字的整字模板和/或部分笔划模板,作为字典中的项目。

【技术特征摘要】

【专利技术属性】
技术研发人员:沈利吴波吴亚栋
申请(专利权)人:夏普株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利