字形要素判定装置及字形要素判定方法制造方法及图纸

技术编号:6416632 阅读:223 留言:0更新日期:2012-04-11 18:40
字形要素判定装置及字形要素判定方法。本发明专利技术的课题是提供能够判定文字的部首及部首以外的构成部分的字形要素判定装置。作为解决手段,定量数据生成部针对文字的轮廓图形,生成定量数据,该定量数据包含包围轮廓图形的矩形的大小和矩形的中心坐标。部首配置模式分析部根据定量数据,确定部首及部首以外的构成部分的配置模式,根据配置模式,将轮廓图形分为作为部首的第1组和作为部首以外的构成部分的第2组。转换部将第1组和第2组的轮廓图形转换为第1和第2点图形。部首/部分识别部根据第1点图形和第2点图形的OCR识别,分别判定部首及部首以外的构成部分。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
除了例如像JIS标准那样准备了预定字体的文字(汉字)以外,还存在例如使用 者制成点图形(或位图)而得到的文字、即所谓的稀用字。稀用字大多用于例如人名和地-C3 寸。例如,在市镇村合并中,各市镇村大多使用不同的稀用字字体。因此,需要能够将 多个稀用字合并为1个,例如用1个常用汉字进行代替使用。因此,需要针对稀用字检索文字图形的形状类似的文字。此时,关注于稀用字的部 首、调查相同部首的文字的方法是常用方法之一。另外,关于具有手写文字识别功能的文字输入装置及方法,提出了以下的技术对 文字框和构成该文字框的预定数量的分割区域进行显示,对构成书写者在文字框内书写的 手写文字的笔划的坐标序列进行检测并输入,根据所输入的手写文字的各笔划的坐标序列 判定该笔划是否跨越文字框内的分割区域,在跨越的情况下,合并相应的分割区域,根据合 并后的分割区域,以部首为单位切分上述手写文字,针对所切分的各部首,参照部首识别字 典进行识别处理,根据部首识别处理的结果和文字构成字典进行文字构成,取得并输出手 写文字的识别结果。专利文献1 日本特开平11-184971号公报例如在针对稀用字检索文字图形的形状类似的文字时,关注于稀用字的部首,进 行基于计算机的检索。但是,使用者需要输入稀用字的部首本身,从而作业比较麻烦。另外, 例如,在市镇村合并的规模较大的情况下,有时稀用字达到几千个字。在该情况下,进行输 入所需的使用者负担非常大。并且,在通过使用铅字OCR(光学式文字读取装置)检索类似 文字的情况下,铅字OCR只是判断文字整体的形状是否类似,不能根据部首检索文字(稀用 字)。
技术实现思路
本专利技术的目的在于提供一种能够判定文字的部首及部首以外的构成部分的字形 要素判定装置。所公开的字形要素判定装置具有轮廓图形存储部、定量数据生成部、定量数据存 储部、部首配置模式分析部、转换部、部首/部分点图形存储部以及部首/部分识别部。轮 廓图形存储部对表示判定对象文字的轮廓的轮廓图形进行存储。定量数据生成部针对存储 在轮廓图形存储部中的轮廓图形,根据轮廓图形的坐标,生成定量数据,该定量数据包含包 围轮廓图形的矩形的大小和矩形的中心坐标。定量数据存储部存储针对轮廓图形生成的定 量数据。部首配置模式分析部根据存储在定量数据存储部中的定量数据,确定判定对象文 字中的部首及部首以外的构成部分的配置模式,根据配置模式,将轮廓图形分为包含作为部首的轮廓图形的第1组和包含作为部首以外的构成部分的轮廓图形的第2组。转换部将 存储在轮廓图形存储部中的第1组的轮廓图形转换为第1点图形,将存储在轮廓图形存储 部中的第2组的轮廓图形转换为第2点图形。部首/部分点图形存储部存储第1点图形和 第2点图形。部首/部分识别部根据与存储在点图形存储部中的第1点图形相关的OCR识 别判定部首,根据与存储在点图形存储部中的第2点图形相关的OCR识别判定部首以外的 构成部分。根据所公开的字形要素判定装置,能够针对判定对象文字,判定文字的字形要素, 换言之,判定部首及部首以外的构成部分。由此,即使在例如存在几千个稀用字的情况下, 也能够判定其字形要素,高效地生成字形要素的字典,能够高效地进行文字的检索、识别作 业。附图说明图1是示出所公开的字形要素判定装置的结构的图。图2是示出点图形、轮廓图形以及定量数据的一例的图。图3是示出部首/部分点图形以及字形要素信息的一例的图。图4是示出字形要素分析的一例的图。图5是示出文字代码的一例的图。图6是示出字形要素判定的处理流程的图。图7是示出字形要素分析的处理流程的图。图8是示出字形要素分析的处理流程的图。图9是示出部首配置模式判定的处理流程的图。图10是示出部首配置模式判定的处理流程的图。图11是示出字形要素判定结果的一例的图。图12是示出字形要素判定结果的一例的图。图13是示出字形要素判定结果的一例的图。图14是示出字形要素判定结果的一例的图。标号说明1字形要素判定装置;2稀用字文件;3字形要素数据库;11点图形生成部;12点 图形存储部;13字形要素分析部;14轮廓图形存储部;15定量数据存储部;16部首分析字 典;17部首/部分点图形存储部;18部首识别字典;19部分识别字典;131轮廓提取部;132 定量数据生成部;133部首配置模式分析部;134部首/部分光栅化部;135部首/部分识别 部;136字形要素存储部。具体实施例方式图1是示出所公开的字形要素判定装置1的结构的图。字形要素判定装置1针对所输入的文字数据,进行判定文字的字形要素的形状 (以下,称为字形要素判定)的处理,并将该判定结果作为字形要素信息,存储到字形要素 数据库3中。所输入的文字数据例如是从稀用字文件2输入的稀用字数据。文字的字形要 素是部首、和部首以外的构成部分。所谓字形,是指文字整体的形状、部首的形状、部首以外的构成部分的形状。所谓部首,是指字旁、字边、字头等。部首以外的构成部分是部首以外 的文字构成要素,是从该文字去除该文字的部首后的部分。字形要素信息是针对包含在1 个文字的文字数据中的各个字形要素,表示该字形要素的信息,如后所述,例如是包含文字 代码、配置代码等的信息。字形要素判定装置1具有稀用字文件2和字形要素数据库3。稀用字文件2存储 多个稀用字的稀用字数据。稀用字数据例如是用点图形表示该稀用字的数据。点图形是针 对文字显示区域中的每个像素赋予白(=0)或黑(=1)的值来用黑色图形表现该文字的 数据。字形要素数据库3是存储与包含在1个文字的文字数据中的各个字形要素相关的字 形要素信息的数据库。字形要素判定装置1具有点图形生成部11、点图形存储部12、字形要素分析部13、 轮廓图形存储部14、定量数据存储部15、部首分析字典16、部首/部分点图形存储部17、部 首识别字典18以及部分识别字典19。字形要素分析部13还具有轮廓提取部131、定量数 据生成部132、部首配置模式分析部133、部首/部分光栅化部134、部首/部分识别部135 以及字形要素存储部136。如图2 (A)所示,点图形生成部11从稀用字文件2读入1个文字的稀用字数据21, 并且在所读入的1个文字的稀用字数据21是点图形的情况下,将稀用字数据21作为点图 形121存储到点图形存储部12中。在所读入的1个文字的稀用字数据不是点图形的情况 下,点图形生成部11将稀用字数据21转换为点图形121而生成点图形121并存储到点图 形存储部12中。点图形存储部12是存储1个文字的稀用字的点图形121的存储器。存储在点图 形存储部12中的点图形121、换言之即由点图形生成部11读入的1个文字的稀用字数据 21是判定对象文字。轮廓提取部131从点图形存储部12读出点图形121,提取与所读出的点图形121 相关的轮廓图形。由此提取出表示判定对象文字的轮廓的轮廓图形。轮廓提取部131将所 提取的轮廓图形作为轮廓图形141存储到轮廓图形存储部14中。轮廓图形存储部14对表示判定对象文字的轮廓的轮廓图形141进行存储。图2 (B) 示出轮廓图形141的一例。如图2(B)所示,轮廓图形141是针对每1个轮廓进行提取的,针对每1个文字例 如提取多个轮廓。各个轮廓图形141包含轮廓编号、轮廓本文档来自技高网
...

【技术保护点】
一种字形要素判定装置,其特征在于,该字形要素判定装置具有:轮廓图形存储部,其存储轮廓图形,该轮廓图形表示判定对象文字的轮廓;定量数据生成部,其针对存储在所述轮廓图形存储部中的所述轮廓图形,根据所述轮廓图形的坐标,生成定量数据,该定量数据包含包围所述轮廓图形的矩形的大小和所述矩形的中心坐标;定量数据存储部,其存储针对所述轮廓图形生成的所述定量数据;部首配置模式分析部,其根据存储在所述定量数据存储部中的所述定量数据,确定所述判定对象文字中的部首及所述部首以外的构成部分的配置模式,根据所述配置模式,将所述轮廓图形分为包含作为所述部首的轮廓图形的第1组和包含作为所述部首以外的构成部分的轮廓图形的第2组;转换部,其将存储在所述轮廓图形存储部中的所述第1组的轮廓图形转换为第1点图形,将存储在所述轮廓图形存储部中的所述第2组的轮廓图形转换为第2点图形;部首/部分点图形存储部,其存储所述第1点图形和所述第2点图形;以及部首/部分识别部,其根据与存储在所述点图形存储部中的所述第1点图形相关的OCR识别判定所述部首,根据与存储在所述点图形存储部中的所述第2点图形相关的OCR识别判定所述部首以外的构成部分。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:大石勇村松千织
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利