字符识别装置制造方法及图纸

技术编号:3894111 阅读:132 留言:0更新日期:2012-04-11 18:40
字符识别装置。本发明专利技术的目的在于提供一种能够减少字符识别时操作者的工作量、并且对字符框所使用的颜色没有限制的字符识别装置。首先将票据的彩色图像数据中由操作者指定的分析范围大致分类为背景、字符框及字符,根据该分类结果高精度地确定字符框,然后从去除了背景后的彩色图像数据中去除字符框,并对剩下的字符进行字符识别。

【技术实现步骤摘要】

本专利技术涉及识别票据中字符框内的字符的字符识别装置
技术介绍
通常,字符识别装置读取手写字符或铅字作为彩色图像数据,并根 据该彩色图像数据与预先登记的字符图案之间的对照结果来识别字符。当在这种字符识别装置中识别票据中字符框内的字符时,在确定字 符框之后,从票据的彩色图像数据中去除该确定的字符框而对剩下的字 符进行识别。此外,在确定字符框时,需要由操作者预先登记字符框信息(例如, 字符框形状和字符框颜色等)(例如参照专利文献1)。此外,还存在如下字符识别装置,该字符识别装置对于票据的字符框使用脱落色(dropout color),在字符识别时去除该脱落色而对剩下的 字符进行识别。此时,因为在字符识别装置中己经登记有脱落色的信息, 所以不需要由操作者登记字符框信息。专利文献1日本特开昭61-253587号公报 但是,在如上所述由操作者预先登记字符框信息的情况下,通常, 操作者需要一边观察显示器上的票据的彩色图像数据一边操作鼠标或键 盘等来指定字符框形状和字符框颜色等,存在操作者的工作量变多的问 题。并且,在字符框使用脱落色的情况下,存在无法识别使用了该脱落 色以外的颜色的字符框内的字符的问题。
技术实现思路
因此,本专利技术的目的在于,提供一种能够减少字符识别时操作者的工作量、并且对字符框使用的颜色没有限制的字符识别装置。 为了解决上述课题,在本专利技术中采用了如下结构。 艮口,本专利技术的字符识别装置具有图像读取单元,其读取票据作为 第l彩色图像数据;显示单元,其显示所述第l彩色图像数据;分析范围 指定单元,其提取所述显示单元上显示的第l彩色图像数据中、与操作者 所指定的分析范围对应的第2彩色图像数据;第l线段提取单元,其根据 所述第2彩色图像数据中具有直线性的数据,从所述第2彩色图像数据中 提取线段;背景去除单元,其从所述第2彩色图像数据中去除背景而作为 第3彩色图像数据;第l格线提取单元,其从所述第3彩色图像数据中提取 由所述第l线段提取单元提取出的线段的代表色,合并与该代表色相同颜 色的线段来提取格线;分离单元,其从所述第3彩色图像数据中去除由所 述第l格线提取单元提取出的格线而分离为字符和字符框;第2线段提取 单元,其根据所述第3彩色图像数据中具有直线性的数据和由所述分离单 元分离出的字符框的颜色,从所述第3彩色图像数据中提取线段;第2格 线提取单元,其根据由所述第2线段提取单元提取出的线段,从所述第3 彩色图像数据中提取格线;字符框确定单元,其根据由所述第2格线提取 单元提取出的格线和预先登记的字符框形状图案来确定字符框;第l字符 框去除单元,其根据由所述分离单元分离出的字符的颜色和由所述字符 框确定单元确定的字符框的颜色,保留字符与字符框的重叠部分,并从 所述第3彩色图像数据中去除字符框来提取字符;以及字符识别单元,其 识别由所述第1字符框去除单元提取出的字符。此外,可以通过如下方式构成所述第2格线提取单元具有第3格 线提取单元,其从所述第3彩色图像数据中提取与由所述第2线段提取单 元提取出的线段的代表色相同颜色的线段,合并这些提取出的线段来提 取格线;确定单元,其确定由所述第3格线提取单元提取出的格线中、可 能还存在连接关系的部位;以及连接单元,其根据由所述确定单元确定 的部位的边缘成分来判断所述部位是否能够进行连接,在其判断结果为 能够进行连接的情况下,连接所述部位来提取格线。此外,可以通过如下方式构成所述字符框确定单元具有间隔表生成单元,其计算在从所述第2格线提取单元所提取出的格线的各纵线中 选择任意两条纵线的情况下、所有组合各个中所述任意两条纵线之间的间隔,生成表示该计算出的间隔的间隔表;投票表生成单元,其生成表 示所述间隔表中示出的间隔的总数的投票表;间隔暂定单元,其将所述 投票表中示出的总数较大的间隔暂定为所述字符框的间隔;间隔变更单 元,其将所述字符框的形状图案的间隔变更为由所述间隔暂定单元暂定 的间隔;以及确定单元,其进行由所述间隔变更单元变更间隔后的字符 框形状图案与由所述第2格线提取单元提取出的格线之间的图案匹配,并 根据该图案匹配的结果来确定字符框。此外,可以通过如下方式构成本专利技术的字符识别装置具有第2字符 框去除单元,该第2字符框去除单元从所述第3彩色图像数据中去除根据 操作者预先登记的字符框信息而确定的字符框,来提取字符,该字符识 别装置将与所述字符框确定单元所确定的字符框对应的字符框信息反映 到所述操作者预先登记的字符框信息中。此外,本专利技术的字符框确定装置用于确定票据内的字符框,该字符 框确定装置具有线段提取单元,其从所述票据的图像数据中提取与字 符框对应的线段;间隔表生成单元,其计算在从所述线段提取单元所提 取出的线段的各纵线中选择任意两条纵线的情况下、所有组合各个中所 述任意两条纵线之间的间隔,生成表示该计算出的间隔的间隔表;投票 表生成单元,其生成表示所述间隔表中示出的间隔的总数的投票表;间 隔暂定单元,其将所述投票表中示出的总数较大的间隔暂定为所述字符 框的间隔;间隔变更单元,其将预先登记的字符框形状图案的间隔变更 为由所述间隔暂定单元暂定的间隔;以及确定单元,其进行由所述间隔 变更单元变更间隔后的字符框形状图案与由所述线段提取单元提取出的 线段之间的图案匹配,并根据该图案匹配的结果来确定字符框。根据本专利技术,在通过字符识别装置识别票据中字符框内的字符时, 能够减少操作者的工作量,并且对票据的字符框使用的颜色没有限制。附图说明图l示出了本专利技术实施方式的字符识别装置。图2是用于说明字符识别装置的动作的流程图。图3示出了票据的彩色图像数据的显示画面例。图4示出了字符与字符框的重叠部分的颜色。图5示出了字符识别结果和字符框分析结果的显示画面例。图6示出了在分辨率240dpi下0.1mm的字符框的彩色图像数据与RGB信息之间的关系。图7是用于说明利甩边缘成分的格线提取方法的流程图。图8是用于说明利用边缘成分的格线提取方法的图。图9是用于说明字符框确定方法的概念的图。图10是用于说明字符框确定方法的流程图。图ll示出了线段提取后各纵线的间隔的一例。图12示出了间隔表的一例。图13示出了投票表的一例。图14示出了字符框的形状图案的一例。图15是用于说明在预先登记的字符框信息中反映字符框的分析结果 时的动作的流程图。 标号说明1:字符识别装置;2:图像输入部;3:图像读取部;4:图像显示 部;5:分析范围指定部;6:分类部;7:字符框确定部;8:字符框去 除部;9:字符识别部;10:分析结果显示部;11:字符框;12:票据; 13:显示器;14:结果显示栏;15:执行字符识别按钮。具体实施例方式以下,使用附图对本专利技术的实施方式进行说明。 图1示出了本专利技术实施方式的字符识别装置。图1所示的字符识别装置1具有图像输入部2、图像读取部3、图像显 示部4、分析范围指定部5、分类部6、字符框确定部7、字符框去除部8、 字符识别部9以及分析结果显示部10。图2是用于说明字符识别装置1的动作的流程图。首先,图像读取部3读取从扫描仪等图像输入部2输入的票据作为彩 色图像数据(第l彩色图像数据)(以下,简称为票据)(Sl)。接下来,图像显示部4在显示器上显示图像读取部3所读取的票据 (S本文档来自技高网...

【技术保护点】
一种字符识别装置,其特征在于,该字符识别装置具有: 图像读取单元,其读取票据作为第1彩色图像数据; 显示单元,其显示所述第1彩色图像数据; 分析范围指定单元,其提取所述显示单元上显示的第1彩色图像数据中、与操作者所指定的分 析范围对应的第2彩色图像数据; 第1线段提取单元,其根据所述第2彩色图像数据中具有直线性的数据,从所述第2彩色图像数据中提取线段; 背景去除单元,其从所述第2彩色图像数据中去除背景而作为第3彩色图像数据; 第1格线提取单元 ,其从所述第3彩色图像数据中提取由所述第1线段提取单元提取出的线段的代表色,合并与该代表色相同颜色的线段来提取格线; 分离单元,其从所述第3彩色图像数据中去除由所述第1格线提取单元提取出的格线而分离为字符和字符框; 第2线段提取 单元,其根据所述第3彩色图像数据中具有直线性的数据和由所述分离单元分离出的字符框的颜色,从所述第3彩色图像数据中提取线段; 第2格线提取单元,其根据由所述第2线段提取单元提取出的线段,从所述第3彩色图像数据中提取格线; 字符框确 定单元,其根据由所述第2格线提取单元提取出的格线和预先登记的字符框形状图案来确定字符框; 第1字符框去除单元,其根据由所述分离单元分离出的字符的颜色和由所述字符框确定单元确定的字符框的颜色,保留字符与字符框的重叠部分,并从所述第3彩色 图像数据中去除字符框来提取字符;以及 字符识别单元,其识别由所述第1字符框去除单元提取出的字符。...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:江口真一川岛哉金元浩一长谷川将平小原胜利矢吹真纪
申请(专利权)人:富士通先端科技株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1