图像处理装置、方法制造方法及图纸

技术编号:2928653 阅读:116 留言:0更新日期:2012-04-11 18:40
图像处理装置、方法以及存储图像处理程序的存储介质。图像处理装置包括输入单元、提取单元、读取单元和处理单元。输入单元将经数字化的区域指定用文档数据变换为可在图像处理装置内处理的格式并输入该区域指定用文档数据,所述区域指定用文档数据包括区域信息,该区域信息表示为了执行预定处理而预先指定的区域。提取单元从区域指定用文档数据中提取区域信息,读取单元读取用于执行预定处理的文档图像。处理单元从读取单元读取的文档图像中提取与提取单元提取的区域信息相对应的区域,并执行预定处理。

【技术实现步骤摘要】

本专利技术涉及一种图像处理装置、图像处理方法以及存储图像处理程序的存储介质,具体地说,本专利技术涉及一种对指定区域执行OCR(光学字符识别)处理的图像处理装置、图像处理方法以及存储图像处理程序的存储介质。
技术介绍
在其上记录有文档图像等的纸张上指定了区域并执行OCR处理的情况下,存在以下方法,诸如使用GUI(图形用户界面)等通过鼠标等指定矩形区域的方法、预先设置要经过OCR处理的区域并将其用作模板的方法等。此外,例如,日本专利申请特开平7-282192和特开平5-159099中公开的技术已经提出了与前述区域指定相似的技术。日本专利申请特开平7-282192中公开的技术提出了基于来自拍摄者的视线(line-of-sight)信息设置字符区域,并且对通过图像拾取单元的图像拾取而获取的图像信号之中的与该字符区域相对应的图像信号执行字符识别处理,从而提高了精确度并且提高了字符识别速度。日本专利申请特开平5-159099中公开的技术提出了在制作商务表格时,放宽作为识别对象的字符框的印刷精确度,并使表格能够通过诸如电子复印等的简易印刷(easy printing)来制作。在电子复印等的情况下,在各商务表格中,从表格的外沿到字符识别区的偏移量大。然而,印刷自身之间的偏移量(即,印刷之间的相对偏移量)小。因此,通过用与由顶线和右线构成的基准印刷的相对位置来指定商务表格图像中的字符识别区域,消除了精确印刷从表格的边缘或外侧到字符识别区域的距离的需要,并且放宽了印刷表格的精确度。因此,传统上只能通过印刷来制作的字符识别装置用商务表格可以通过诸如字处理器、电子复印等的简易印刷来制作。然而,日本专利申请特开平7-282192中公开的技术在指定区域时使用视线信息。因此,检测视线的结构昂贵,并且当被用于指定通常文档的区域时存在区域指定的精确度的问题。此外,日本专利申请特开平5-159099中公开的技术预先设置外框等,并用相对位置对区域进行指定。然而,需要系统能够识别的基准标记(外框等),且存在这样的问题难以将识别应用于各种类型的文档。
技术实现思路
开发出本专利技术以解决上述问题,使得能够容易地执行对要经过OCR处理的区域的指定。本专利技术的第一方面的一种图像处理装置包括接收单元,其接收包括区域信息的区域指定用文档数据并将所述文档数据变换为可由所述图像处理装置处理的格式,所述区域信息表示文档数据的区域,所述区域是所述图像处理装置的处理目标;提取单元,其从所述区域指定用文档数据中提取区域信息;读取单元,其读取文档图像;和处理单元,其从读取单元读取的文档图像中提取与提取单元提取的区域信息相对应的区域,并对文档图像的所述区域执行处理。附图说明将基于以下附图详细描述本专利技术的实施例,其中图1是示出了与本专利技术实施例相关的图像处理装置的结构的图;图2是示出了关于与本专利技术实施例相关的图像处理装置的从外部计算机等设置要经过OCR的区域的区域指定处理的流程的示例的流程图;图3是示出了区域登记处理的流程的示例的流程图,该区域登记处理登记要经过OCR处理的区域并在与本专利技术实施例相关的图像处理装置执行;和图4是示出了在与本专利技术实施例相关的图像处理装置执行OCR处理的流程的示例的流程图。具体实施例方式下文中将参照附图详细描述本专利技术实施例的示例。图1是示出了与本专利技术实施例相关的图像处理装置的结构的图。如图1所示,与本专利技术实施例相关的图像处理装置10具有图像读入部12、区域指定读入模块14、区域指定方法设置UI(用户接口)16、OCRUI(用户接口)18、识别区域数据存储部20、识别区域数据库22、识别区域数据获取部24、和OCR识别模块26。图像读入部12读入通过使用扫描仪或传真机等使要经过OCR处理的纸文档(例如诸如商务表格等的固定格式文档)电子化而制成的图像数据。区域指定读入模块14获取通过使纸文档等数字化而制成的区域指定用文档,或者获取通过各种类型的应用软件而制成的区域指定用文档。区域指定用文档包括由各种类型的应用软件指定的作为OCR处理对象的区域信息(例如,可在应用软件中使用的诸如框、颜色、颜色标记等的指定了区域的信息)。区域指定读入模块14从区域指定用文档中提取由各种类型的应用软件指定的作为OCR处理对象的区域。要注意,区域指定读入模块14可获取通过对纸文档等进行数字化而制成的区域指定用文档,在所述纸文档等中指定了由手写标记等指定的作为OCR处理对象的区域(例如框或颜色标记等)。区域指定读入模块14由各种类型的读入插件28和识别区域指定读入部30构成。各种类型的读入插件28将在各种类型的应用软件等中使用的数据格式变换为可在图像处理装置10处理的格式,并将它们输入到(将它们送入)图像处理装置10中。各种类型的读入插件28例如包括图像读入插件模块,其读入通过对纸文档进行数字化而制成的图像数据(区域指定用文档),在该纸文档中通过笔迹等指定了作为OCR处理对象的区域(例如,诸如通过矩形框或颜色标记等的笔迹指定的OCR对象区域),并且图像读入插件模块读入通过对纸文档进行数字化而制成的图像数据(区域指定用文档),在该图像数据中由各种类型的图像编辑器等指定了作为OCR处理对象的区域;读入PPT文档的插件模块,在该PPT文档中,微软公司的软件Power Pointer(PPT)指定了作为OCR处理对象的区域;读入WORD文档的插件模块,在WORD文档中微软公司的软件Word指定了作为OCR处理对象的区域;读入XDW文档的插件模块,在该XDW文档中富士施乐有限公司(Fuji Xerox Co.,Ltd)的软件Docuworks(XDW)指定了作为OCR处理对象的区域;等等。要注意到各种类型的插件28不限于上述插件模块,可使用其他插件模块。识别区域指定读入部30根据在区域指定方法设置UI16处指定的设置,从各种类型的插件28读入区域指定用文档,并提取作为OCR处理对象的区域。在从各种类型的读入插件28读入所述区域时的处理方法由区域指定方法设置UI 16设置。指定这样的处理方法作为要设置的处理方法,该处理方法例如具有诸如矩形框、填色的(co1ored-in)区域、颜色指定、自动之类的设置并且根据所述设置提取要作为OCR处理对象的区域。要注意到可以执行诸如要读入的文档的类型之类的设置。OCR UI 18执行作为由识别区域指定读入部30提取的OCR处理对象的区域的索引信息(例如应用于从给定装置获取的图像数据的规则等)的输入,并且执行输入以执行在区域指定方法设置UI 16处设置的处理方法的选择等。识别区域数据存储部20将OCR UI 18输入的索引信息和表示作为由识别区域指定读入部30提取的OCR处理对象的区域(识别区域)的区域信息存储在识别区域数据库22中并彼此关联。要注意到,可将识别区域数据自身与索引信息关联地存储在识别区域数据库22中,来代替存储在识别区域数据库22中的识别区域作为区域信息。识别区域数据获取部24根据从外部UI或系统输入的区域选择信息(例如,读取要经过OCR的图像的装置的信息)产生索引数据(索引信息),并从识别区域数据库22中存储的数据中选择并获取与索引数据(索引信息)相对应的区域信息。OCR识别模块26从图像读入部12获取通过对要经过OCR处理的纸文档本文档来自技高网
...

【技术保护点】
一种图像处理装置,其包括:接收单元,其接收包括区域信息的区域指定用文档数据并将所述文档数据变换为可由所述图像处理装置处理的格式,所述区域信息表示文档数据的区域,所述区域是所述图像处理装置的处理目标;提取单元,其从所述区域指定 用文档数据中提取区域信息;读取单元,其读取文档图像;和处理单元,其从读取单元读取的文档图像中提取与提取单元提取的区域信息相对应的区域,并对文档图像的所述区域执行处理。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:饭田博史
申请(专利权)人:富士施乐株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1