文字识别装置及文字识别方法制造方法及图纸

技术编号:2936184 阅读:204 留言:0更新日期:2012-04-11 18:40
目的在于高精度且高速识别文字。由输入单元1输入手写文字(输入图形),由笔划提取单元2提取构成输入手写文字的笔划特征,由笔划分类单元4根据该特征将笔划分类为直线笔划、非直线笔划和后继字笔画,将由直线笔划对应连接单元5、非直线笔划对应连接单元7和后继字笔划对应连接单元8进行分类的各笔划的特征和笔划特征辞典3中存储的识别对象文字(标准图形)的笔划特征对应连接,由文字评价单元10根据该结果识别手写文字。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及读取用笔在输入板上所写的手写文字并对手写体进行文字识别,涉及一种,该方法是将手写文字分成构成文字的各笔划,根据分类的笔划的特征来识别所识别的对象文字。先有的吸收笔顺变化及画数变化二者的在线手写文字识别装置以特征点串记述手写文字的笔划,笔划结合是根据按笔顺进行的假定,使用过剩对应解除型和不足对应解除型的两个互补的最优对应连接算法,通过使包括笔顺·画数变化的手写文字图形的笔划和由笔顺·画数合乎标准的楷体表示的标准文字图形的笔划一一对应来吸收笔顺变化,对于未对应的笔划,利用在前后笔划结合时的距离最小的对应连接来吸收画数变化,进行文字识别(由笔划对应连接进行的在线手写汉字识别,NTT R & D第45卷第11期,1996)。例如,图34是表示先有例中所示的吸收笔顺·画数变化的先有装置的结构框图。图34中,201是输入用笔在输入板上所写的手写文字即输入图形的输入单元,202是进行输入图形的样本化和位置大小等规范化的前处理单元,203是将构成输入图形的各笔划以等间隔刻上的点作为特征点提取的特征点提取单元,204是存储了由以标准笔顺·画数所写的多个楷体文字制作的平均文字图形即标准图形的标准图形字典,205是计算输入图形的笔划和标准图形的笔划的笔划间距离的笔划间距离计算单元,206是利用两种互补的搜索算法使输入图形的笔划与标准图形的笔划一一对应连接而吸收笔顺变化的笔划一一对应连接单元,207是通过将标准图形中未对应的笔划与前后笔划结合来吸收画数变化的选择笔画结合单元,208是根据对应连接结果来计算图形间距离的图形间距离计算单元,209是控制各单元的控制单元。使用图34的框图说明先有例的动作。首先,控制单元209指示输入单元201取得输入图形。接着,控制单元209将由输入单元201输入的输入图形送到前处理单元202,进行样本化和位置大小的标准化。控制单元209将前处理后的输入图形送到特征点提取单元203,将输入图形变换成以等间隔在输入图形的各笔划上刻的特征点串。控制单元209将输入图形的特征点串送往一一对应笔画连接单元206。一一对应笔画连接单元206以笔划数少的一方的笔划为基准,将输入图形和标准图形字典204的标准图形进行对应连接,使各特征点没有过剩的对应连接(过剩对应解除型的对应连接算法)。接着,一一对应笔划连接单元206以笔划数多的一方的笔划为基准,将输入图形和标准图形字典204的标准图形进行对应连接,使各特征点没有不足的对应连接(不足对应解除型的对应连接算法)。在由上述两种对应连接的算法所得的对应连接的结果中,将距离小的结果作为由一一对应笔划连接单元206最终得到的结果。这里,在对应连接时由笔划间距离计算单元205计算的距离中,采用将始点间及终点间的距离之和被二除所得的值即端点匹配距离,以及使点数少的一方的笔划的点从点数多的一方的笔划开头的点开始顺序地对应连接、算出点间距离的和后乘以点数比的值的部分匹配。接着,选择的笔划结合单元207使由一一对应笔划连接单元206对应连接的笔划与笔划多的一方的笔顺一致后改变行。对一一对应笔划连接单元206未对应连接的笔划,根据「按照笔顺生成笔划结合」的假设来进行笔划结合。具体地说,对于比由一一对应笔划连接单元206对应连接的笔划的开头笔划先书写的未对应的笔画,依笔顺顺序与开头笔划结合。同样,对比最终笔划还后写的未对应的笔划,依笔划顺序与最终笔划结合。其他未对应笔划存在于由一一对应笔划连接单元206对应连接的笔划的任意笔划间,所以,将未对应的笔划与前后的笔划暂时结合,通过使两个笔划间的距离为最小的地方断开来分成两个笔划。这里,在选择的笔划结合单元207中,以等间隔去掉点数多的一方的笔划的点,使之与点数少的一方的点数一致后对应连接,计算点间距离的和,使用用点数少的一方的点数除得的值即整体匹配距离。然而,为了高速处理,在大分类处理中使用端点匹配距离。最后,根据对应连接的结果,对结合笔划进行适当的距离规范化,计算最终的距离,将距离最小的文字作为识别结果。在以上说明的吸收现有例的笔顺·画数变化的文字识别装置中,使用以等间隔对手写文字的各笔划刻的特征点串来计算笔划间距离,所以,存在着由撇捺等噪声成分和笔划变形、位置偏移引起的特征点的坐标值的偏移影响笔划距离、成为误读原因的问题。还有,在汉字等笔画多的文字中,各笔划多由简单的直线笔画构成,所以,笔划中的特征点即使不包括重要信息也没有关系,由于用特征点值进行对应连接,因此,在对应连接时要花费时间,存在着容易受坐标值偏移影响的问题。另外,划数变化吸收时,为了减少计算量,而使用「按照笔顺生成笔划结合」的假设,在划数变化不产生按照笔顺的变化时,存在不能对应的问题。本专利技术系为解决上述问题而完成的,其目的在于提供这样的文字识别装置与文字识别方法,即能够完全地进行笔顺·笔画变化的手写文字的笔划与笔划特征辞典的笔划对应连接,难以受笔划局部变形和位置偏移的影响,实现高精度的识别,还能够高速地进行文字识别。有关本专利技术的第一方面,包括输入单元,在线输入手写文字;笔划特征辞典,对多个识别对象文字,预先存储构成各识别对象文字的直线笔划及非直线笔划的特征;笔划特征提取单元,从由上述输入单元输入的上述手写文字提取构成该手写文字的笔划的特征;笔划分类单元,根据由笔划特征提取单元提取的特征,将上述手写文字的各笔画分类为上述直线笔划、上述非直线笔划或不可与构成上述识别对象文字的笔划对应连接的连续字笔划的某一个;直线笔划对应连接单元,进行由该笔划分类单元分类的直线笔划的特征与上述笔划特征辞典中存储的构成识别对象文字的直线笔划的特征的对应连接;非直线笔划对应连接单元,进行由该笔划分类单元分类的非直线笔划的特征与上述笔划特征辞典中存储的构成识别对象文字的非直线笔划的特征的对应连接;后继字笔划对应连接单元,将由上述笔划分类单元分类的后继字笔划分为上述直线笔划或上述非直线笔划,进行该分割的直线笔划或非直线笔划的特征与上述笔划特征辞典中存储的构成识别对象文字的直线笔划或非直线笔划的特征的对应连接;文字评价单元,根据由上述直线笔划对应连接单元、上述非直线笔划对应连接单元或上述后继字笔划对应连接单元所得的对应连接结果,识别上述手写文字。有关本专利技术的第二方面,还包括笔划对应连接确定单元,根据由上述笔划特征提取单元提取的特征,确定上述手写文字的各笔划的存在区;上述直线笔划对应连接单元、上述非直线连接笔划对应连接单元或上述后继字笔划对应连接单元进行与由上述可对应连接区确定单元确定的各笔划存在区对应的、构成存储在上述笔划特征辞典中的识别对象文字的直线笔划或非直线笔划的特征的对应连接。有关本专利技术的第三方面,上述非直线笔划对应连接单元对由上述直线笔划对应连接单元对应连接的上述识别文字进行对应连接。有关本专利技术的第四方面,上述后续字笔划对应连接单元对由上述直线笔划对应连接单元或上述非直线笔划对应连接单元对应连接的上述识别对象文字进行对应连接。有关本专利技术的第五方面,包括在线输入手写文字的输入步骤;从由上述输入步骤输入的上述手写文字提取构成该手写文字的笔划的特征的笔划特征提取步骤;根据由该笔划特征提取步骤提取的特征,将上述手写体文字的各笔划分类成上述直线笔划、上述本文档来自技高网...

【技术保护点】
一种文字识别装置,其特征在于,包括:输入单元,在线输入手写文字;笔划特征辞典,对多个识别对象文字,预先存储构成各识别对象文字的直线笔划及非直线笔划的特征;笔划特征提取单元,从由上述输入单元输入的上述手写文字提取构成该手写文字的笔划的特征;笔划分类单元,根据由笔划特征提取单元提取的特征,将上述手写文字的各笔画分类为上述直线笔划、上述非直线笔划或不可与构成上述识别对象文字的笔划对应连接的连续字笔划的某一个;直线笔划对应连接单元,进行由该笔划分类单元分类的直线笔划的特征与上述笔划特征辞典中存储的构成识别对象文字的直线笔划的特征的对应连接;非直线笔划对应连接单元,进行由该笔划分类单元分类的非直线笔划的特征与上述笔划特征辞典中存储的构成识别对象文字的非直线笔划的特征的对应连接;后继字笔划对应连接单元,将由上述笔划分类单元分类的后继字笔划分为上述直线笔划或上述非直线笔划,进行该分割的直线笔划或非直线笔划的特征与上述笔划特征辞典中存储的构成识别对象文字的直线笔划或非直线笔划的特征的对应连接;文字评价单元,根据由上述直线笔划对应连接单元、上述非直线笔划对应连接单元或上述后继字笔划对应连接单元所得的对应连接结果,识别上述手写文字。...

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:川又武典依田文夫
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1