商业文档处理器制造技术

技术编号:7151367 阅读:264 留言:0更新日期:2012-04-11 18:40
提供一种用于当对以灰度保存的商业文档应用OCR时即使字符串和印痕互相重叠也在保留字符串信息的同时仅去除印痕的技术。通过将在印痕附近存在的字符串与数据库相匹配来推断与印痕重叠的字符串。更具体地,首先,去除以灰度输入的商业文档中的印痕区域。随后,提取在被去除的印痕区域附近存在的并且由于印痕导致其部分字符不清楚的字符信息作为印痕相关信息。然后,识别所提取的印痕相关信息的属性,参考保存了包括客户信息的字符串候选的客户数据库,并基于通过属性分类的印痕相关信息,推断与印痕区域重叠并因此不清楚的字符串。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及商业文档处理器以及例如用于去除商业文档内的印痕(seal impression)的技术。
技术介绍
对于在公司内存档的庞大数量的纸质商业文档,近年来在实现检索性能、纸质文档的安全存储和通过经由扫描和OCR的字符识别来共享知识的改进方面以及通过文档管理系统管理文档数据方面存在兴趣。虽然当前状态下的OCR对于没有干扰的文档具有高的字符串识别准确性,但是, 例如当如公司印章的印章图像等印章图像与字符串重叠时,存在该部分可能被错误识别的问题。如果该部分被错误识别,则不仅可能不能获得该部分的字符信息,而且还可能作为干扰出现并保留没有意义的字符信息,并且妨碍随后的检索。在商业文档中出现的印章图像具有以下特性通常以印章图像与例如客户名称、客户的代表的名称等客户的信息重叠的方式附加印章图像。这样条目的信息在识别文档时通常是至关重要的。从而,如果不能识别这样的信息,则在检索过程中将不返回这些文档,并且将必须检查所有所注册的文档数据。 为此,当应用OCR时还需高度准确地识别与印痕重叠的字符串。为了改善这样的OCR的识别准确性,提出了用于将与字符串重叠的印痕分离的方法。例如,在专利文献1和专利文献2中,提出了用于通过使用印痕的颜色和文档中的文本的颜色之间的区别从文本中辨别印痕来识别并去除印痕的技术。从而,即使文本和印痕互相重叠,也可以仅去除印痕而保留重叠的文本。另外,在专利文献3中,提出了用于利用印痕的轮廓通常呈现规则的多边形的形式的事实来识别并去除印痕的技术。从而,在文本和印痕互相重叠的情况下,可以通过去除印痕和与该印痕重叠的字符串来防止OCR的错误识别。引用列表专利文献1 日本专利公开(Kokai)No. 2008-176521A专利文献2 日本专利公开(Kokai)No. 2006-309781A专利文献3 日本专利公开(Kokai) No. 9-229646A (1997)
技术实现思路
技术问题然而,由于有时以灰度来保存已经电子存档的商业文档,因此专利文献1和2中的技术(其是通过颜色识别印痕的技术)是不可用的。图2是示出以灰度扫描的商业文档的示例,其中公司印章以与一部分公司信息重叠的方式被附加在右上部。由于以灰度扫描这种文本,因此即使应用使用颜色信息识别印痕的专利文献1和2中的技术,也不可能识别附加了印痕的部分。另外,图3是示出其中通过专利文献3中的技术去除图2中的商业文档中的印痕并通过OCR识别剩余字符的结果。当通过专利文献3中的技术去除印痕时,如图3所示,重叠的字符串也与印痕一起被去除。因此,所去除的字符串信息丢失。另外,由于文本是部分剩余的,因此存在剩余的文本成为随后检索过程中的干扰的可能性。考虑到上述这些情况做出本专利技术,本专利技术提供一种用于在对以灰度保存的商业文档应用OCR时即使在字符串和印痕互相重叠的情况下也在保留字符串信息的同时仅去除印痕的技术。技术方案为了解决上述问题,根据本专利技术的商业文档处理器包括印痕检测处理部,用于检测以灰度输入的商业文档中的印痕区域,并从商业文档中去除印痕区域;印痕相关信息提取处理部,用于提取在已经去除了印痕区域的所述商业文档中的被去除的印痕区域附近存在的字符信息作为印痕相关信息(例如,与客户相关的信息),其中由于所述印痕区域导致部分字符是不清楚的;属性分类处理部,用于识别所提取的印痕相关信息的属性;及字符推断(extrapolation)处理部,用于参考保存了字符串候选的字符串候选数据库(例如,保存客户信息的客户数据库),并基于通过属性分类的印痕相关信息来推断与印痕区域重叠并且由此不清楚的字符串。另外,字符推断处理部用通过推断获得的字符串替代由于印痕区域导致不清楚的部分,并在文档数据库中与以灰度输入的商业文档成对地注册替代有字符串的商业文档数据。商业文档处理器可以进一步包括显示处理部,显示处理部用于在显示部上显示替代有字符串的商业文档数据。在这种情况下,如果存在被替代的多个字符串候选,则显示处理部在显示部上显示替代有多个字符串候选的多个商业文档数据,并且字符推断处理部在文档数据库中注册多个商业文档数据中的、由用户选择的商业文档数据。另外,字符推断处理部可以计算在字符串候选数据库中保存的信息和通过属性分类的印痕相关信息之间的匹配度,并且当所述匹配度超出预定值时使字符串候选数据库中保存的信息成为用于替代的字符串候选。另一方面,如果所述匹配度等于或小于预定值,则字符推断处理部在不用任何字符替代印痕区域的情况下终止处理。通过下面提供的实现本专利技术的最佳实施方式和附图,使得本专利技术的进一步的特征变得清楚。本专利技术的有益效果根据本专利技术,即使在文档中找到的字符串与例如公司印章的印痕等印痕重叠,也可以识别以灰度输入的文档。从而改善了商业文档的搜索性能,并进一步提高了文档管理系统的效率。附图说明图1是示意性地示出根据本专利技术实施例的商业文档处理器的配置的功能框图。图2是示出在图1中的数据存储器中保存的灰度图像数据的示例的示意图。图3是示出在图1中的数据存储器中保存的OCR结果数据的示例的示意图。图4A是说明与在图1所示的数据存储器中保存的印痕相关数据的处理的示意图 ⑴。图4B是说明与在图1所示的数据存储器中保存的印痕相关数据的处理的示意图 ⑵。图4C是说明与在图1所示的数据存储器中保存的印痕相关数据的处理的示意图 ⑶。图4D是说明与在图1所示的数据存储器中保存的印痕相关数据的处理的示意图 ⑷。图4E是说明与在图1所示的数据存储器中保存的印痕相关数据的处理的示意图 ⑶。图5A是示出在图1所示的文档数据库中包括的文档数据的示例的示意图。图5B是示出在图1所示的文档数据库中包括的文档数据的示例的示意图。图6是示出在图1中所示的客户数据库中包括的客户数据的示例的示意图。图7是示出在图1中所示的属性数据库中包括的属性数据的示例的示意图。图8是说明关于根据本专利技术实施例的商业文档处理器的处理的流程图。图9是具体说明由商业文档处理程序的字符替代处理部执行的处理(步骤S805) 细节的流程图。图10是示出显示了由于印痕而丢失的字符串已经被替代的结果的确认屏幕的示例的示意图。具体实施例方式下面,参考附图具体描述用于实现本专利技术的商业文档处理器的最佳模式。图1到 10是示出本专利技术的示例性实施例的示意图。在这些示意图中,假设具有相同附图标记的部件代表相同的部件,并且它们的基本配置和操作是相同的。注意,在本专利技术的实施例中使用的装置、方法等仅是示例,而本专利技术并不局限于此。<商业文档处理器的配置>图1是示意性地示出根据本专利技术实施例的商业文档处理器的配置的功能框图。这个商业文档处理器包括保存与客户的交易等相关的商业文档以及对其构造的索引的文档数据库51 ;保存包括客户的公司名称、地址、主要电话号码等客户信息以及对其构造的索引的客户数据库52 ;保存字符串属性的定义数据的属性数据库53 ;用于输入/输出数据的输入/输出装置30 ;执行所需要的计算处理、控制处理等的中央处理单元10 ;保存对于中央处理单元10中的处理必需的程序的程序存储器40 ;及保存对于中央处理单元10中的处理必需的数据的数据存储器20。输入/输出装置30包括包含用于显示数据的显示装置32、打印机(未示出)等的输出部;及包含用于执行如关于本文档来自技高网
...

【技术保护点】
1.一种商业文档处理器,所述商业文档处理器扫描商业文档并执行识别处理,所述商业文档处理器包括:印痕检测处理部,用于检测以灰度输入的商业文档中的印痕区域,并从所述商业文档中去除所述印痕区域;印痕相关信息提取处理部,用于提取在已经去除了印痕区域的所述商业文档中的被去除的印痕区域附近存在的字符信息作为印痕相关信息,其中由于所述印痕区域导致部分字符是不清楚的;属性分类处理部,用于识别所提取的所述印痕相关信息的属性;及字符推断处理部,用于参考保存了字符串候选的字符串候选数据库,并基于通过属性分类的所述印痕相关信息来推断与印痕区域重叠并且不清楚的字符串。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:大峡光晴
申请(专利权)人:日立系统解决方案有限公司
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1