一种联机手写句子实时识别方法技术

技术编号:3997523 阅读:396 留言:0更新日期:2012-04-11 18:40
本发明专利技术是一种联机手写句子实时识别方法,该方法是:输入开始模块启动笔划输入;笔划采集模块记录笔尖在输入平面上移动的笔划轨迹;实时识别模块对提笔后得到的笔划轨迹进行实时识别;提笔时间判断模块计算提笔时间是否够长;启动字符串识别模块,字符串识别模块根据路径评价准则计算候选切分识别网格中各切分识别路径的分数,并用动态规划算法搜索分数最优的路径得到字符串识别结果;编辑修改模块对字符串识别结果进行编辑修改,对错误的字符切分和字符识别部分通过用户操作进行编辑修改;语言联想模块在字符串识别和编辑修改的基础上,根据最后的字符类别,通过语言联想给出后续的字或词供用户选择,以提高句子输入速度。

【技术实现步骤摘要】

本专利技术属于计算机应用技术和模式识别领域,具体的说,涉及联机手写字符识别 技术和手写中文输入方法。
技术介绍
近几年来,随着笔式电脑、PDA和手机等移动终端设备的出现和越来越多地得到应 用,联机手写字符输入方法得到越来越多的关注。联机手写输入,就是在书写过程中用一个 电子板或电子笔采集文字的笔划轨迹(又称数字墨水),然后对轨迹进行识别,将识别结果 作为文本利用或保存起来。与常见的屏幕与键盘的输入方式相比,笔输入技术使用户不必 切换输入设备、输入模式或输入软件,仅仅用一支笔就可以实现输入,与传统的纸和笔的输 入方式更接近。手写输入方式对不会使用输入法的人和不习惯使用键盘的人(比如老人), 以及没有键盘或键盘很小的情况(如手持式移动终端)提供了一种更方便有效的途径。联机手写输入的核心是联机手写字符识别,字符识别准确率和速度直接决定了书 写的速度和效率。当前常用的方式是单个字的输入,即输入一个字,给出结束标志(提笔等 待时间超过一定时间或者点击按钮),然后识别给出候选识别结果供用户选择,这使得输入 速度受到了很大的限制。手写板、笔式电脑和大屏幕移动终端允许连续书写多个字符,但是 系统常常是在所有的笔划写完后才开始识别,这也使得识别速度受到限制,同时,现在的多 字符识别技术切分错误较多、识别精度较低,影响了手写输入的效率。手写字符串(句子)识别是对一行字符或者一句话进行识别的,手写句子识别在 集成切分识别的框架下,可以有效融合字符识别器输出、语言模型和几何上下文信息,能提 高字符切分和识别的准确率。在联机手写中文句子实时识别方面,即在句子书写过程当中, 系统对句子中已书写的部分字符进行自动识别,并在句子书写完成之后实时地给出整句识 别结果,这方面的技术还没有相关文献或者专利的报道。
技术实现思路
为了解决现有技术的问题,本专利技术的目的是提供一种联机手写句子实时识别方 法,该方法是基于联机手写字符串(句子)识别,在书写过程当中对已书写的部分字符进行 自动识别,并在句子书写完成之后实时地给出整句识别结果,解决了快速手写中文输入的 问题。同时,本专利技术的联机手写句子识别方法,融合了字符识别置信度、几何特征和语言模 型,能提高手写字符识别的精度;而基于与候选字符模式个数无关的路径评价准则,使得利 用动态规划算法能快速搜索最优切分识别路径得到识别结果;该方法的基本特征,还包括 利用统计语言模型和词典进行词语联想,提高输入速度;允许用户对识别结果进行部分编 辑修改。为达成所述目的,本专利技术提供,是采用手写句子 实时识别、人工编辑修改和语言联想相结合的方法,该方法主要有以下几个模块实时识 别、字符串识别(句子识别)、编辑修改和语言联想,该识别方法的步骤包括步骤Sl 输入开始模块启动笔划输入,笔尖接触输入平面表明输入开始;步骤S2 笔划采集模块记录笔尖在输入平面上移动的笔划轨迹;所述笔划轨迹用 Xn, yn点坐标序列表示(Xl,Y1),(x2,12),..., (χη, yn),其中η是笔划轨迹的采样点数;步骤S3 实时识别模块对提笔后得到的笔划轨迹进行处理,生成候选字符模式并 对每一个候选字符模式进行识别给出候选字符类别,将生成的候选字符模式及其候选字符 类别保存在候选切分识别网格;步骤S4 提笔时间判断模块计算提笔时间是否够长,如果提笔时间够长表明提笔 可能是一个字符的结束,执行步骤S5 ;如果提笔时间不够长,表明提笔只是一个笔划的结 束,执行步骤S2,继续采集下一个笔划并进行实时识别;步骤S5 启动字符串识别模块,字符串识别模块根据路径评价准则计算候选切分 识别网格中各切分识别路径的分数,并用动态规划算法搜索分数最优的路径得到字符串识 别结果;字符串识别结果包括字符切分结果和字符识别结果;步骤S6 编辑修改模块对字符串识别结果进行编辑修改,对错误的字符切分和字 符识别部分通过用户操作进行编辑修改。步骤S7 语言联想模块在字符串识别和编辑修改的基础上,根据最后的字符类 另IJ,通过语言联想给出后续的字或词供用户选择,以提高句子输入速度。步骤S8 继续输入判断模块用于在联想结束后判断是否继续输入,如果继续在输 入平面上书写,则回到步骤S2采集下一个笔划;否则,结束输入。其中,所述实时识别模块包括以下步骤步骤S201 提笔表明一个笔划书写结束,得到笔划轨迹或称为点序列;步骤S202 在笔划轨迹中笔划弯折点或可能的连笔处断开笔划,得到笔划段;步骤S203 判断一个笔划段是否一个新的笔划块的开始,判断的条件是该笔划段 与前面已经形成的笔划块相比是否有足够的水平位移;步骤S204 ;如果一个笔划段是一个新的笔划块的开始,将该笔划段作为一个新的 笔划块;步骤S205 否则,将该笔划段合并到前面与之重叠度最大的笔划块;步骤S206 顺序判断每一个笔划段直至所有的笔划段处理完毕,所述每一个笔划 段构成新的笔划块或与前面的笔划块合并;步骤S207 在所有笔划段处理完毕形成笔划块后,将每一个新生成的或者合并后 的笔划块当作候选字符模式,或者将该笔划块与前面相邻的笔划块合并构成候选字符模 式;对于新生成的候选字符模式,用字符识别器对其进行识别,给出置信度最高或匹配距离 最小的一个或多个字符类别作为候选识别结果,将新生成的候选字符模式及其候选类别存 入候选切分识别网格。其中,所述笔划块是在水平方向上重叠度较大的一个或多个笔划、一个或多个笔 划段构成的集合。其中,所述断开笔划的步骤如下步骤S2021 通过计算笔划轨迹上每一点的弯折角度,判断弯折点,在弯折点处将 笔划断开;步骤S2022 设弯折角度为笔划轨迹上一点(Xi, Yi)与之前一点(xik,yik)连线和与之后一点(Xi+k,yi+k)连线的夹角;步骤S2023 对弯折角度进行判断,若该角度在30度到150度之间而且大于(xn, yn)和(xi+1,yi+1)的角度,则认为该点是一个可能的连笔处,则将笔划在可能的连笔处的该 点处断开;断开连笔的目的是将相邻字符之间的连笔断开,得到一个或多个笔划段,表示为 其中,判断新的笔划块的条件是根据笔划段与前面已经形成的笔划块相比是否 有足够的水平位移进行判断,如果该笔划段与前面某个笔划块的水平重叠度大于0. 4或笔 划段与笔划块中的某个笔划相互交叉且水平重叠度大于0. 2,则断定该笔划段不是一个新 的笔划块的开始;如果该笔划段与前面所有笔划块的水平重叠度小于0. 2或在没有交叉的 情况下水平重叠度小于0. 4,则断定该笔划段是一个新的笔划块的开始;所述水平重叠度 的计算方式如下设笔划段外框和笔划块外框的宽度分别为W1和w2,外框区域重叠部分宽K度为w。,则S叠度i十算为min(Wi,W2)。其中,所述候选字符模式生成的条件是(1)合并的笔划块个数最多不超过8个,也就是一个候选字符模式由1到8个笔划 块组成;(2)候选字符模式的宽度不超过估计的字符高度的2. 5倍。其中,用于候选字符模式识别的字符识别器采用具有存储量小、计算速度快、排斥 非字符模式特点的最近原型分类器;在经过字符模式归一化、特征提取将字符模式表示为 一个特征矢量后,计算该特征矢量与预先训练得到的字符集中每个字符类别的原型矢量之 间的匹配距离,距离最小的类别以及距离与最小距离之差小本文档来自技高网
...

【技术保护点】
一种联机手写句子实时识别方法,其特征在于,该识别方法包括:步骤S1:输入开始模块启动笔划输入,笔尖接触输入平面表明输入开始;步骤S2:笔划采集模块记录笔尖在输入平面上移动的笔划轨迹;所述笔划轨迹用x↓[n],y↓[n]点坐标序列表示:(x↓[1],y↓[1]),(x↓[2],y↓[2]),...,(x↓[n],y↓[n]),其中n是笔划轨迹的采样点数;步骤S3:实时识别模块对提笔后得到的笔划轨迹进行处理,生成候选字符模式并对每一个候选字符模式进行识别给出候选字符类别,将生成的候选字符模式及其候选字符类别保存在候选切分识别网格;步骤S4:提笔时间判断模块计算提笔时间是否够长,如果提笔时间够长表明提笔可能是一个字符的结束,执行步骤S5;如果提笔时间不够长,表明提笔只是一个笔划的结束,执行步骤S2,继续采集下一个笔划并进行实时识别;步骤S5:启动字符串识别模块,字符串识别模块根据路径评价准则计算候选切分识别网格中各切分识别路径的分数,并用动态规划算法搜索分数最优的路径得到字符串识别结果;字符串识别结果包括字符切分结果和字符识别结果;步骤S6:编辑修改模块对字符串识别结果进行编辑修改,对错误的字符切分和字符识别部分通过用户操作进行编辑修改;步骤S7:语言联想模块在字符串识别和编辑修改的基础上,根据最后的字符类别,通过语言联想给出后续的字或词供用户选择,以提高句子输入速度;步骤S8:继续输入判断模块用于在联想结束后判断是否继续输入,如果继续在输入平面上书写,则回到步骤S2采集下一个笔划;否则,结束输入。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘成林王大寒
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利