图像处理装置及图像处理方法制造方法及图纸

技术编号:6632883 阅读:186 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种图像处理装置及图像处理方法。即使当多个对象的注释使用相同锚表述时,本发明专利技术也能够将适当的正文中的说明文本作为元数据与对象关联。

【技术实现步骤摘要】

本专利技术涉及一种生成用于搜索文档中的对象的电子文档数据的。
技术介绍
传统地,考虑了提供一种搜索包含在文档中的诸如照片、图(线图)或者表等的对象的方法。(这里所使用的术语“对象”是指包括字符以外的诸如照片、图(线图)或者表等的对象。)例如,存在如下一种方法在从文档中提取的对象的附近,添加描述对象的字符串 (注释(caption))并将其作为元数据关联以使得能够搜索对象。当一般文档中的注释包含诸如图编号(例如“照片1”、“第一图”或“表1”)等用于识别对象的表述(以下称为“锚表述(anchor expression)")时,在正文中也使用锚表述来说明对象的更为详细的描述。如上所述的锚表述也被用作用于识别文档中的对象的手段。根据日本特开平11-025113(1999)号公报中公开的专利技术,提取包含锚表述的正文中的说明部分(以下称为“正文中的说明文本(explanatory text)”)并将其作为对象的元数据关联。当与图的对象邻近的注释包含锚表述“图1”并且正文包含例如“图1是AAA”的说明时,将锚表述“图1”作为图的对象的标识信息进行关联。同时,还将正文中的说明文本 “图1是AAA”作为元数据进行关联,由此提供利用元数据对图的对象的搜索。近年来,例如一些字处理器具有编辑功能(例如自动生成锚表述的功能以及将文档中存在的对象与正文中的说明文本关联的功能)。可以将通过这些功能给出的信息(元数据)存储在电子文档中,由此实现对文档的有效编辑。近年来的扫描器具有诸如自动文档给送器的功能,因此能够容易地读取多页纸。 因此,这种扫描器还能够同时读取多种文档。另一方面,当这种扫描器必须读取混合的不同文档时,存在如下可能性,即可能产生具有包含相同锚表述的注释的多个对象。例如,可能存在如下情况同时读取的多个文档中的一个文档具有注释为“表1是YYY”的表对象,而其中的另一个文档具有注释为“表1示出ZZZ”的表对象。如果在这种情况下简单地进行上述关联处理,则相同的锚表述“表1”与两个表对象关联,从而无法提供与锚表述“表1”适当地对应的正文中的说明文本。由于上述情形,期望这样一种方法即使当必须读取多种文档并且多个注释使用同一锚表述时,也能够将注释或正文中的说明文本作为元数据与对象适当地关联。
技术实现思路
根据本专利技术的图像处理装置包括区域划分单元,其被配置为将多页的图像分别划分为多个区域;属性信息添加单元,其被配置为向划分的所述多个区域中的各个添加与区域对应的属性;字符识别单元,其被配置为对由所述属性信息添加单元分别添加了注释属性和正文属性的注释区域和正文区域进行字符识别处理;以及元数据处理单元,其被配置为将元数据与附有所述注释区域的对象区域进行关联;其中,所述元数据处理单元包括 第一提取单元,其被配置为从对所述注释区域的所述字符识别处理的结果中,提取由预定字符串构成的锚表述以及由所述锚表述以外的字符串构成的注释表述;确定单元,其被配置为确定是否存在附有包含相同锚表述的注释区域的多个对象区域;第二提取单元,其被配置为从对所述正文区域的所述字符识别处理的结果中,提取包含所述锚表述的说明文本;第一关联单元,其被配置为在所述确定单元确定存在附有包含所述相同锚表述的注释区域的一个对象区域的情况下,将所述对象区域与由所述第二提取单元提取的所述说明文本获得的元数据进行关联;类似度计算单元,其被配置为在所述确定单元确定存在附有包含所述相同锚表述的注释区域的多个对象区域的情况下,分别计算包含所述相同锚表述的各个注释区域的注释表述、与由所述第二提取单元提取的包含所述相同锚表述的所述说明文本之间的类似度;以及第二关联单元,其被配置为基于由所述类似度计算单元计算出的所述类似度,来确定针对所述多个对象区域中的各个对象区域的最佳说明文本,并将由所确定的最佳说明文本获得的元数据与所述各个对象区域进行关联。根据本专利技术,即使存在包含相同锚表述的多个对象,也能够将对象与适当的元数据关联。因此,甚至在包含多个文档的混合的图像数据中,也能够准备向各个对象添加了适当的元数据的电子文档。从以下参照附图对示例性实施例的描述中,本专利技术的其它特征将变得清楚。 附图说明图1是示出根据本专利技术的图像处理系统的配置的框图;图2示出MFP 100的配置;图3是示出数据处理单元218的内部配置的框图;图4是示出元数据处理单元304的内部配置的框图;图5A至图5C示出数据处理单元218的处理详情,其中图5A示出如何将图像数据划分为区域,图5B是示出区域划分单元301、属性信息添加单元302以及字符识别单元303 的处理结果的示例的表,图5C示出格式转换单元305使用的对应表的示例;图6A和图6B示出在本专利技术中生成的电子文档,其中图6A示出利用SVG格式描述的电子文档的示例,图6B以表的形式示出电子文档中的元数据;图7是示出根据本专利技术的图像处理装置的处理的概要的流程图;图8A和图8B是示出元数据提取和添加处理的流程的流程图;图9A和图9B示出根据本专利技术的图像处理装置的处理,其中图9A示出输入到数据处理单元218的图像数据以及对其的区域划分的示例,图9B是示出在图像数据的情况下区域划分单元301、属性信息添加单元302以及字符识别单元303的处理结果的示例的表;图10是示出根据实施例1的、用于将正文中的说明文本与对象区域关联的处理的流程的流程图;图11是示出根据实施例1的类似度计算处理的流程的流程图;图12A和图12B示出通过类似度计算处理获得的中间结果,其中图12A示出通过到步骤1103的处理获得的结果的示例,图12B示出在步骤1105和步骤1106中的处理的示例;图13以表的形式示出通过对图9A的图像数据901至907进行根据实施1的处理获得的元数据信息;图14是示出图14A和图14B之间的关系的图;图14A和图14B是示出根据实施例2的、用于将正文中的说明文本与对象区域进行关联的处理的流程的流程图;图15是示出根据实施例2的类似度计算处理的流程的流程图;图16是示出根据实施例3的、用于将正文中的说明文本与对象区域进行关联的处理的流程的流程图;图17示出在操作单元203上显示的用户界面(UI)画面的示例;图18示出在操作单元203上显示的警告画面的示例;以及图19是示出根据实施例4的、用于将正文中的说明文本与对象关联的处理的流程的流程图。具体实施例方式下文将参照附图描述用于实现本专利技术的实施例。图1是示出根据本实施例的图像处理系统的配置的框图。在图1中,在办公室A中构建的LAN 102连接到作为用于实现多种功能(例如复印功能、打印功能、发送功能)的图像处理装置的多功能外围设备(MFP) 100。LAN 102还经由代理服务器103连接到外部网络104。客户端PC 101经由LAN 102接收从MFP 100发送的数据并使用MFP 100拥有的功能。例如,客户端PC 101还可以向MFP 100发送打印数据, 由此使得通过MFP 100来打印基于打印数据的打印物。图1的配置是示例。因此,也可以使用其它配置,其中具有与办公室A相同的构成部件的多个办公室经由网络104连接。网络104典型地是由例如互联网、LAN、WAN、电话线路、专用数字线路、ATM、帧中继线路、通信卫星线路、有线电视线路或本文档来自技高网
...

【技术保护点】
1.一种图像处理装置,所述图像处理装置包括:区域划分单元,其被配置为将页的图像划分为多个区域;属性信息添加单元,其被配置为向划分的所述多个区域添加与区域对应的属性;字符识别单元,其被配置为对由所述属性信息添加单元分别添加了注释属性和正文属性的注释区域和正文区域进行字符识别处理;以及元数据处理单元,其被配置为将元数据与附有所述注释区域的对象区域进行关联;其中,所述元数据处理单元包括:第一提取单元,其被配置为从对所述注释区域的所述字符识别处理的结果中,提取由预定字符串构成的锚表述以及由所述锚表述以外的字符串构成的注释表述;确定单元,其被配置为确定是否存在附有包含相同锚表述的注释区域的多个对象区域;第二提取单元,其被配置为从对所述正文区域的所述字符识别处理的结果中,提取包含所述锚表述的说明文本;第一关联单元,其被配置为在所述确定单元确定存在附有包含所述相同锚表述的注释区域的一个对象区域的情况下,将所述对象区域与由所述第二提取单元提取的所述说明文本获得的元数据进行关联;类似度计算单元,其被配置为在所述确定单元确定存在附有包含所述相同锚表述的注释区域的多个对象区域的情况下,分别计算包含所述相同锚表述的各个注释区域的注释表述、与由所述第二提取单元提取的包含所述相同锚表述的所述说明文本之间的类似度;以及第二关联单元,其被配置为基于由所述类似度计算单元计算出的所述类似度,来确定针对所述多个对象区域中的各个对象区域的最佳说明文本,并将由所确定的最佳说明文本获得的元数据与所述各个对象区域进行关联。...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:相马英智金津知俊小坂亮三沢玲司
申请(专利权)人:佳能株式会社
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1