字符识别装置、字符识别方法制造方法及图纸

技术编号:2928794 阅读:227 留言:0更新日期:2012-04-11 18:40
公开了一种用来识别通过以光学方式扫描原件而获得的图像数据中的字符的技术。确定所扫描的字符的字体类型与字体大小。通过比较具有所确定的字体类型与字体大小的、包括与对应于字符的字符代码相关联地存储的字体类型与字体大小的字符数据,识别对应于所扫描字符的字符代码。

【技术实现步骤摘要】

本专利技术涉及从光学扫描的文件的图像数据中识别字符的字符识别装置与字符识别方法、以及用于字符识别的字符数据。
技术介绍
存在常规字符识别技术,用来数字化在利用字处理器准备的原始文件的上打印的字符,并且在诸如计算机等信息处理装备中利用这些数字化的字符。具体地,通过利用图像扫描器等等读取原件来识别字符,将所识别的字符转换为拉丁字母字符、数字、日语双字节字符(平假名、日本汉字等等)等等的字符代码,并且保存字符代码。在常规字符识别装置中,平均多种典型字体(gothic(哥特体)、minchou(明朝体)、serif(衬线)、sans-serif(无衬线)、单间距等等)的特征量,以创建识别字典,其包括用于识别字符的字符模式。但是,无法通过创建具有平均特征量的字符模式以足够的精度识别字符。相应地,人们已经提出了以下字符识别技术对于每种字体类型创建识别字典(例如参见专利文件1)。该技术涉及检测在字处理器中包含的字体类型,并且为每种字体类型的每个字符创建参照模式,并且在识别字典中登记这些参照模式。所登记的参照模式用于识别扫描器等等读取的图像数据中的字符。人们还提出另一种字符识别技术抽取扫描器等等读取的图像数据中的字符形状的特征量,计算所抽取的特征量与各种字体类型的预定特征量之间的相似性,并且根据所计算的相似性识别字体类型(例如参见专利文件2)。在这一技术中,对于每种字体类型,字符轮廓线(profile line)信息是预定的。一旦识别了字体类型,就根据字符的轮廓线信息,纠正图像数据中字符的形状。然后存储或显示纠正后的字符。相应地,只有通过识别字体类型,才能避免错误识别字符,而不用进行字符识别。专利文件1日本公开专利申请第2002-27935号专利文件2日本公开专利申请第H8-123904号但是,在专利文件1公开的字符识别方法中,虽然为每种字体类型都登记参照模式,但是不能以足够的精度识别字符。这是因为用来识别字符的特征量是不规则的。专利文件1中描述的特征量包括字符线倾角、环的数目、线宽度、以及字符面积的那些特征量。但是,在某些情况下,单单这些不足以识别字符。如果为了提高识别率而增加特征量,则识别速度会下降。另外,在专利文件2中,字符被保存为轮廓线信息。由此,可以与原纸件中相同的形状获取字符。但是,所获取的字符信息不是字符代码,由此难于在字处理软件等等中进行再处理。
技术实现思路
本专利技术提供了字符识别装置、字符识别方法、以及字符数据,其中消除了上述缺点中的一或多个。本专利技术的优选实施例提供了用于字符识别的字符识别装置、字符识别方法、以及字符数据,利用其可以高精度与高速度识别字符。本专利技术的一个实施例提供了一种字符识别装置,用来识别通过以光学方式扫描原件而获得的图像数据中的字符,该装置包括字体类型确定单元,被配置来确定所扫描的字符的字体类型;字体大小确定单元,被配置来确定所扫描的字符的字体大小;存储器,用来存储用于识别对应于所扫描字符的字符代码的字符数据,该字符数据包括与对应于字符的字符代码相关联地存储的字体类型与字体大小;以及字符识别单元,被配置来通过比较具有字体类型确定单元所确定的字体类型、以及字体大小确定单元所确定的字体大小的字符数据,识别对应于所扫描字符的字符代码。本专利技术的一个实施例提供了一种用于识别通过以光学方式扫描原件而获得的图像数据中的所扫描字符的字符数据,该字符数据包括与对应于字符的字符代码相关联地存储的字体类型与字体大小,其中所扫描字符由被分为预定数目的像素的位图数据表示,并且字符数据包括每个字符的、按字符预定方向逐行计数的、在像素行中首先出现的黑像素的数目。本专利技术的一个实施例提供了一种用于识别通过以光学方式扫描原件而获得的图像数据中的所扫描字符的字符数据,该字符数据包括与对应于字符的字符代码相关联地存储的字体类型与字体大小,其中所扫描字符由被分为预定数目的像素的位图数据表示,并且字符数据对应于每个字符的、包括关于每个像素为黑还是白的信息的像素字符数据。本专利技术的一个实施例提供了一种用于识别通过以光学方式扫描原件而获得的图像数据中的所扫描字符的字符数据,该字符数据包括与对应于字符的字符代码相关联地存储的字体类型与字体大小,其中所扫描字符由被分为预定数目的像素的位图数据表示,并且字符数据包括每个字符中的多个像素对之间的多个距离。本专利技术的一个实施例提供了一种字符识别方法,用来识别通过以光学方式扫描原件而获得的图像数据中的字符,该方法包括以下步骤(a)确定所扫描的字符的字体类型;(b)确定所扫描的字符的字体大小;(c)通过比较具有步骤(a)所确定的字体类型、以及步骤(b)所确定的字体大小的、包括与对应于字符的字符代码相关联地存储的字体类型与字体大小的字符数据,识别对应于所扫描字符的字符代码。根据本专利技术的一个实施例,提供了可以利用其以高精度与高速度识别字符的字符识别装置、字符识别方法、以及用于字符识别的字符数据。附图说明从以下参照附图的详细描述中,可以清楚本专利技术的其他目的、特征、以及优点,其中图1为包含字符识别装置的字符识别系统的总体方框图;图2为字符识别装置的硬件配置的例子;图3为字符识别装置的功能方框图;图4为日语双字节字符“漢”的位图数据的例子;图5为字符数据的例子;图6为字符尺度测度的例子;图7为利用字符的区别部分的尺度的字符数据的例子;图8为日语双字节字符“合”的不同字体类型的位图数据;图9为由字符识别装置执行的字符识别过程的流程图;图10A、10B为倾斜方式下扫描的原件的例子;图11为由字符识别装置执行的识别倾斜字符的过程的流程图; 图12为倾斜倾角θ的像素字符数据的例子;图13为用于创建字符数据的系统的方框图;图14为通过使用由字符数据创建单元创建的字符数据来执行的字符识别过程的流程图。具体实施例方式以下参照附图描述本专利技术的实施例。根据本专利技术的字符识别方法用于根据本专利技术的字符识别装置的实施例;由此,与字符识别装置的实施例一道描述字符识别方法的实施例。<第一实施例> 图1为包含根据本专利技术第一实施例的字符识别装置的字符识别系统的总体方框图。该字符识别系统包括字符识别装置1、扫描器2、以及打印机3,其通过网络4互连,从而相互通信。字符识别装置1包括以后描述的字符数据5。字符识别装置1可以与扫描器2集成配置、或者与扫描器2以及打印机3两者集成配置。扫描器2可以具有传真功能。以下给出由字符识别装置1执行的字符识别方法的大概。字符识别装置1包括字符数据5,其为各种字体类型(例如MS minchou,MS gothic,OSAKA)的每个字符的预定数字化位图数据。字符数据5根据其字体大小(点数)存储。通过获取每个像素的黑或白值来获得位图数据。如果确定了字符的字体类型与字体大小,则字符的位图数据成为该字体类型与字体大小特有的二进制(黑与白)图像。相应地,可以利用字符数据5,以非常高的精度识别字符。扫描器2读取以特定字体类型的字符打印的原件,并且将所读取的信息送往字符识别装置1。字符识别装置1确定打印字符的字体类型与字体大小,并且通过参照字符数据5来进行字符识别。扫描器2以光学手段扫描放置在曝光玻璃上的原件。光被照射在原件上,并且反射光被输入到一维成像设备(例如CCD),由此被转换本文档来自技高网
...

【技术保护点】
一种字符识别装置,用来识别通过以光学方式扫描原件而获得的图像数据中的字符,该装置包括:字体类型确定单元,被配置来确定所扫描的字符的字体类型;字体大小确定单元,被配置来确定所扫描的字符的字体大小;存储器,用来存储用于识 别对应于所扫描字符的字符代码的字符数据,该字符数据包括与对应于字符的字符代码相关联地存储的字体类型与字体大小;以及字符识别单元,被配置来通过比较具有字体类型确定单元所确定的字体类型、以及字体大小确定单元所确定的字体大小的字符数据,识 别对应于所扫描字符的字符代码。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:鲤沼敦
申请(专利权)人:株式会社理光
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1