文字辨识装置及文字辨识方法制造方法及图纸

技术编号:6412873 阅读:176 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供文字辨识装置及文字辨识方法,其能够高精度地得到辨识的候选文字。OCR识别部(111)根据稀用字的点图形和文字的点图形,提取辨识处理对象稀用字的第1候选文字。显示用候选文字列表生成部(113)根据存储在字形要素字典(14)中的文字的部首的字形要素信息、和存储在稀用字字形要素存储文件(3)中的稀用字的部首的字形要素信息,提取辨识处理对象稀用字的第2候选文字,并根据存储在字形要素字典(14)中的文字的部分的字形要素信息、和存储在稀用字字形要素存储文件(3)中的稀用字的部分的字形要素信息,提取辨识处理对象稀用字的第3候选文字。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
例如,在伴随市镇村合并等的计算机系统统合中,需要在新的计算机系统中统一 处理多个计算机系统分别处理的文字。此时,在新的计算机系统的设计阶段,需要进行将不 同的多个文字统合成1个文字的辨识作业。所谓辨识作业,是指操作员通过目视确认多个 文字,判断是否可以将该多个文字当作同一文字的作业。例如,需要进行针对JIS中没有定义的文字(换言之,稀用字)的辨识作业。此外, 需要进行针对稀用字和JIS中定义的文字的辨识作业。这种稀用字大多用于例如人名或地名。这种辨识作业例如通过打印作为辨识作业对象的文字的一览,一边目视确认所有 文字,一边搜索辨识的文字来进行。此时,使用通过OCR识别该打印的文字的铅字OCR技术, 提高辨识的效率。此外,关于光学文字读取装置,提出了以下的技术将文字图像分割为nXn的块 以后,提取各块的特征矢量,将该特征块与字典进行对照,检索候选文字组,判定候选文字 能否分割为部首,在判定为候选文字能够分割为部首的情况下,将所述文字图像分割为多 个部首部分,并对与各部首对应的图像部分进行处理,由此检索各部首部分的候选文字,并 检索部首中具有各部首的候选文字的汉字组。此外,关于文字识别系统,提出了以下的技术在对识别结果中的舍弃文字或误认 文字进行校正时,通过对舍弃文字或误认文字的图形特征量、和识别字典内的与该舍弃文 字或误认文字的正确文字对应的特征量进行合成生成新的特征量,将该新的特征量与识别 字典内的特征量替换,或追加到识别字典中。专利文献1 日本特开平4-205078号公报专利文献2 日本特开平2-186484号公报在目视确认所打印的文字一览的情况下,在作为辨识作业对象的稀用字存在几千 个文字时,作业非常繁杂。同样地,在待统合的计算机系统有2个以上时,作业极其繁杂且 困难。此外,即使在使用铅字OCR技术的情况下,由于通过文字整体的识别来提取候选 文字,因此候选文字的精度较低,只是能得到在某种程度上进行参考的资料。换言之,在不 能得到适当的文字候选的情况下,结果还必须同时由操作者对文字一览进行目视确认,并 且,这种情况的比例比较大。
技术实现思路
本专利技术的目的在于提供一种能够高精度地得到辨识的候选文字的文字辨识装置。所公开的文字辨识装置具有文字识别存储部、字形要素存储部、稀用字存储部、稀用字字形要素存储部、候选文字列表生成部以及OCR识别部。文字识别存储部对文字的点 图形进行存储。字形要素存储部针对存储在文字识别存储部中的文字,存储表示部首配置 的配置模式、包含表示部首的部首文字代码的部首字形要素信息、以及包含部分文字代码 的部分字形要素信息,部分文字代码表示除部首以外的部分。稀用字存储部对稀用字的点 图形进行存储,所述稀用字是不包含在由表示预定文字的文字代码表示的标准化文字中的 文字。稀用字字形要素存储部针对存储在稀用字存储部中的稀用字,存储表示部首配置的 配置模式、包含表示部首的部首文字代码的部首字形要素信息、以及包含部分文字代码的 部分字形要素信息,部分文字代码表示除部首以外的部分。OCR识别部针对从稀用字存储部 选择的处理对象稀用字,根据存储在稀用字存储部中的稀用字的点图形和存储在文字识别 存储部中的文字的点图形,从存储在文字识别存储部的文字中,提取辨识处理对象稀用字 的第1候选文字。候选文字列表生成部针对处理对象稀用字,根据存储在字形要素存储部 中的文字的部首字形要素信息、和存储在稀用字字形要素存储部中的稀用字的部首字形要 素信息,从存储在字形要素存储部的文字中,提取辨识处理对象稀用字的第2候选文字,针 对处理对象稀用字,根据存储在字形要素存储部中的文字的部分字形要素信息、和存储在 稀用字字形要素存储部中的稀用字的部分字形要素信息,从存储在字形要素存储部的文字 中,提取辨识处理对象稀用字的第3候选文字。根据所公开的文字辨识装置,即使在存在多个作为辨识作业的对象的稀用字的情 况下,也能够以较高精度得到辨识的候选文字,能够减轻进行辨识的操作员的负担,并缩短 构建统合了多个计算机系统的新计算机系统的时间。附图说明图1是示出文字辨识装置的结构的一例的图。图2是示出稀用字文件及稀用字字形要素存储文件的一例的图。图3是示出文字识别字典及字形要素字典的一例的图。图4是示出文字辨识的一例的图。图5是示出文字辨识的一例的图。图6是示出文字辨识的一例的图。图7是示出文字辨识的一例的图。图8是示出文字辨识的一例的图。图9是示出文字辨识的一例的图。图10是示出文字辨识的处理流程的图。图11是示出1个文字辨识的处理流程的图。图12是示出1个文字辨识的处理流程的图。图13是示出候选文字列表生成的处理流程的图。图14是示出候选文字学习的处理流程的图。符号说明1 文字辨识装置;2 稀用字文件;3 稀用字字形要素存储文件;4 文字代码转换 定义列表;5 显示部;6 键盘;11 辨识处理部;12 文字识别字典;13 :0CR候选文字列表; 14 字形要素字典;15 部首候选文字列表;16 部分候选文字列表;17 显示用候选文字列表;18 辨识源/辨识目标文字对应关系列表;111 :0CR识别部;112 候选文字列表生成部; 113 显示用候选文字列表生成部;114 文字信息学习部。具体实施例方式图1是示出文字辨识装置1的结构的一例的图。文字辨识装置1具有稀用字文件2、稀用字字形要素存储文件3、文字代码转换定 义列表4、显示部5以及键盘6。此外,文字辨识装置1具有辨识处理部11、文字识别字典 12、OCR候选文字列表13、字形要素字典14、部首候选文字列表15、部分候选文字列表16、 显示用候选文字列表17以及辨识源/辨识目标文字对应关系列表18。辨识处理部11具 有OCR识别部111、候选文字列表生成部112、显示用候选文字列表生成部113以及文字信 息学习部114。在文字辨识装置1中,稀用字文件2和稀用字字形要素存储文件3是对处理对象 稀用字(汉字)的数据进行存储的稀用字数据集。处理对象文字也可以是稀用字以外的文 字。预先准备稀用字文件2和稀用字字形要素存储文件3。如后所述,稀用字文件2和稀用 字字形要素存储文件3存储相互对应的数据。稀用字文件2针对每个稀用字存储稀用字的点图形。稀用字是不包含在通过文字 代码表示的标准化文字中的文字,所述文字代码表示预定的文字。文字代码是为了用计算 机处理文字或记号,针对每个文字或记号唯一地分配的固有数字。文字代码为例如JIS代 码。稀用字是不能通过例如JIS代码表示的文字。点图形是针对文字显示区域中的每个像 素赋予白(=0)或黑(=1)的值,由此通过黑色图形表现该文字的数据。稀用字字形要素存储文件3针对存储在稀用字文件2中的稀用字,存储配置模式、 部首的字形要素信息、和部首以外部分的字形要素信息。配置模式表示部首的配置。部首 的字形要素信息包含表示部首的部首文字代码。部首以外部分的字形要素信息包含表示部 首以外的部分的部分文字代码。此处,文字的字形要素是指部首、以及部首以外的构成部分(以下简称作“部 分”)。字形是指文字整体的形状、部首的形状以及部首以外的构成部分的形状。部首将作 为构成文字(换言之,汉字)的字形要素之一的偏旁确定为分类汉字时的基准的产物本文档来自技高网
...

【技术保护点】
一种文字辨识装置,其特征在于,具有:文字识别存储部,其对文字的点图形进行存储;字形要素存储部,其针对存储在所述文字识别存储部中的所述文字,存储表示部首配置的配置模式、包含表示部首的部首文字代码的部首字形要素信息、以及包含部分文字代码的部分字形要素信息,所述部分文字代码表示除所述部首以外的部分;稀用字存储部,其对稀用字的点图形进行存储,所述稀用字是不包含在由表示预定文字的文字代码表示的标准化文字中的文字;稀用字字形要素存储部,其针对存储在所述稀用字存储部中的所述稀用字,存储表示部首配置的配置模式、包含表示部首的部首文字代码的部首字形要素信息、以及包含部分文字代码的部分字形要素信息,所述部分文字代码表示除所述部首以外的部分;OCR识别部,其针对从所述稀用字存储部选择的处理对象稀用字,根据存储在所述稀用字存储部中的所述稀用字的点图形和存储在所述文字识别存储部中的文字的点图形,从存储在所述文字识别存储部的文字中,提取辨识所述处理对象稀用字的第1候选文字;以及候选文字列表生成部,其针对所述处理对象稀用字,根据存储在所述字形要素存储部中的文字的所述部首字形要素信息、和存储在所述稀用字字形要素存储部中的所述稀用字的所述部首字形要素信息,从存储在所述字形要素存储部的文字中,提取辨识所述处理对象稀用字的第2候选文字,针对所述处理对象稀用字,根据存储在所述字形要素存储部中的文字的所述部分字形要素信息、和存储在所述稀用字字形要素存储部中的所述稀用字的所述部分字形要素信息,从存储在所述字形要素存储部的文字中,提取辨识所述处理对象稀用字的第3候选文字。...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:大石勇村松千织
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1