一种提高英文在线手写草书识别速率的分割方法技术

技术编号:15250723 阅读:189 留言:0更新日期:2017-05-02 13:50
本发明专利技术涉及一种提高英文在线手写草书识别速率的分割方法,步骤如下:将用户手写的单词进行预处理,通过一系列规范调整后按一定规则提取特征点;根据特征点,运用条件随机场模型提取邻域图,并用总能量函数评价各种分割路径;最后使用无分割策略和分割策略相结合的方法,在无分割策略扩展搜索中,利用分割策略中构建的分割候选格来增加长度范围来限制搜索路径,从而缩小同步波束搜索的路径范围。相比单独使用无分割策略或者分割策略,在保证识别率的基础上,本发明专利技术极大地提升了识别的速度。

A method for improving the recognition rate of online handwritten cursive script

The invention relates to a method for improving English online cursive handwriting recognition rate segmentation method comprises the following steps: user handwritten words pretreatment, through a series of standard adjustment after extracting feature points according to certain rules; according to the feature points, using the conditional random field model to extract the neighborhood graph, and the total energy function evaluation of various segmentation path finally; the usage of the non combined segmentation strategy and segmentation strategy, in the absence of an extended search segmentation strategy, using segmentation candidate lattice segmentation strategy in construction to increase the length to limit the scope of the search path, thus narrowing the scope of synchronous beam path search. Compared with the separate use of the segmentation strategy or the segmentation strategy, the invention greatly improves the recognition speed on the basis of ensuring the recognition rate.

【技术实现步骤摘要】

本专利技术涉及一种英文在线手写草书识别的分割方法,具体地说,涉及对连续输入的手写英文字符串进行自动分割以提高识别速率的方法。
技术介绍
随着基于手写笔或者触摸板的终端输入设备(如平板电脑、智能手机、电子白板和数字笔等)的大规模开发和成熟,在线手写字符识别技术正受到越来越广泛的关注。实现高质量的在线手写字符识别是至关重要的,尤其是用于诸如智能手机上的文本输入,以提高用户的体验满意度。由于手写字符间的分割点并不明显,因缺少字符识别线索导致字符不能被明确的分割开。一种可行的克服这种分割不清的方法叫做综合分割与识别,主要分为无分割策略和分割策略。分割策略试图把草书单词以其真实边界分割成字符图案并一一标记。一个单词会被过分割成若干个初始段,每一段包含单个字符或者部分字符。这些初始段可以组合起来生成候选的字符图案(形成候选格),被字符识别结合几何形状和语言环境进行评估。另一方面,无分割策略则避免与分割相关的问题,而是利用一维结构模型比如HMMs或者MRFs等的作用。在识别过程中,根据假定的单词语料库,将字符模型串起来构造单词模型,并利用字符模型去除和选择分割点。在线手写单词识别通常使用递归神经网络算法,通过连续移动网络输入窗口横跨表示一个单词的帧序列,以便在神经网络输出端产生激活痕迹。随后这些输出痕迹被检测来确定最能表示单词图像的ASCII字符串。对于手写字符串的识别,无分割策略和分割策略孰优孰劣一直时人们关注和讨论的热点。我们通过比较他们在在线手写草书单词识别中的性能,尝试将两种方法结合起来以提高识别效果。我们使用字符同步波束搜索策略来扩展搜索空间,并利用CRF模型中一种评价标准来评估可能的搜索路径。为了更好地评价字符图案,我们结合MRF模型(结构法)和P2DBMN-MQDF识别器(非结构法)来弥补各自的缺点。
技术实现思路
本专利技术提出了一种提高英文在线手写草书识别率的分割方法,包括如下步骤:步骤100,手写输入字符;步骤102,对字符图案进行预处理,并提取特征点;步骤104,根据特征点构建各种细分单元的组合,提取邻域图,建立特征函数,并用带权重参数的总能量函数来作为评估路径标准;步骤106,从数据库中建立词汇树,以便后续匹配;步骤108,建立字符识别器;步骤110,路径分割与搜索,包括无分割和分割策略;步骤112,确认最优分割路径,输出结果;所述步骤110中,所述无分割和分割策略的特征在于无分割策略扩展搜索中,利用分割策略中构建的分割候选格来增加长度范围来限制搜索路径,从而缩小同步波束搜索的路径范围,先确定第一级的节点路径,并逐级扩展深度进行搜索。对于手写草书单词的预处理步骤如下:步骤200,对于给定一个单词,本专利技术使用线性回归线来近似轨迹的局部极小或者局部极大,以此计算基准;步骤202,根据每个单词的倾斜角来调整斜度,将单词的不同斜度归一化。步骤204,根据基准线和局部极大值线,将单词尺寸归一化;步骤206,重新采用轨迹点,使用线性内插法确保笔尖的坐标是等距的;步骤208,将高斯滤波器应用到序列中的每个坐标点来平滑轨迹。步骤210,删除一些延迟的笔画;步骤212,最后提取特征点,每一笔画的起始点和结束点都被提取为特征点,当超过一定阈值后,离相邻两特征点所连直线距离最远的点也被提取为特征点,直到没有更多的点被提取为特征点。本专利技术建立了一个基于过分割点的CRF模型来进行单词识别。对于一个输入的单词图案X,其拥有一系列的特征点F{f1,f2,f3,…,fg本文档来自技高网
...

【技术保护点】
一种提高英文在线手写草书识别率的分割方法,其特征在于,包括如下步骤:步骤100,手写输入字符;步骤102,对字符图案进行预处理,并提取特征点;步骤104,根据特征点构建各种细分单元的组合,提取邻域图,建立特征函数,并用带权重参数的总能量函数来作为评估路径标准;步骤106,从数据库中建立词汇树,以便后续匹配;步骤108,建立字符识别器;步骤110,路径分割与搜索,包括无分割和分割策略;步骤112,确认最优分割路径,输出结果;所述步骤110中,所述无分割和分割策略的特征在于无分割策略扩展搜索中,利用分割策略中构建的分割候选格来增加长度范围来限制搜索路径,从而缩小同步波束搜索的路径范围,先确定第一级的节点路径,并逐级扩展深度进行搜索。

【技术特征摘要】
1.一种提高英文在线手写草书识别率的分割方法,其特征在于,包括如下步骤:步骤100,手写输入字符;步骤102,对字符图案进行预处理,并提取特征点;步骤104,根据特征点构建各种细分单元的组合,提取邻域图,建立特征函数,并用带权重参数的总能量函数来作为评估路径标准;步骤106,从数据库中建立词汇树,以便后续匹配;步骤108,建立字符识别器;步骤110,路径分割与搜索,包括无分割和分割策略;步骤112,确认最优分割路径,输出结果;所述步骤110中,所述无分割和分割策略的特征在于无分割策略扩展搜索中,利用分割策略中构建的分割候选格来增加长度范围来限制搜索路径,从而缩小同步波束搜索的路径范围,先确定第一级的节点路径,并逐级扩展深度进行搜索。2.如权利要求1所述的一种提高英文在线手写草书识别率的分割方法,其特征在于,所述步骤102预处理过程,包含以下步骤:步骤200,对于给定一个单词,本发明使用线性回归线来近似轨迹的局部极小或者局部极大,以此计算基准;步骤202,根据每个单词的倾斜角来调整斜度,将单词的不同斜度归一化;步骤204,根据基准线和局部极大值线,将单词尺寸归一化;步骤206,重新采用轨迹点,使用线性内插法确保笔尖的坐标是等距的;步骤208,将高斯滤波器应用到序列中的每个坐标点来平滑轨迹;步骤210,删除一些延迟的笔画;步骤212,最后提取特征点,每一笔画的起始点和结束点都被提取为特征点,当超过一定阈值后,离相邻两特征点所连直线距离最远的点也被提取为特征点,直到没有更多的点被提取为特征点。3.如权利要求1所述的一种提高英文在线手写草书识别率的分割方法,其特征在于,所述步骤104中所述的特征函数,其特征在...

【专利技术属性】
技术研发人员:刘建生
申请(专利权)人:上海新同惠自动化系统有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1