商业文档处理器制造技术

技术编号：7151367 阅读：264 留言：0更新日期：2012-04-11 18:40

提供一种用于当对以灰度保存的商业文档应用ＯＣＲ时即使字符串和印痕互相重叠也在保留字符串信息的同时仅去除印痕的技术。通过将在印痕附近存在的字符串与数据库相匹配来推断与印痕重叠的字符串。更具体地，首先，去除以灰度输入的商业文档中的印痕区域。随后，提取在被去除的印痕区域附近存在的并且由于印痕导致其部分字符不清楚的字符信息作为印痕相关信息。然后，识别所提取的印痕相关信息的属性，参考保存了包括客户信息的字符串候选的客户数据库，并基于通过属性分类的印痕相关信息，推断与印痕区域重叠并因此不清楚的字符串。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及商业文档处理器以及例如用于去除商业文档内的印痕(seal impression)的技术。
技术介绍
对于在公司内存档的庞大数量的纸质商业文档，近年来在实现检索性能、纸质文档的安全存储和通过经由扫描和OCR的字符识别来共享知识的改进方面以及通过文档管理系统管理文档数据方面存在兴趣。虽然当前状态下的OCR对于没有干扰的文档具有高的字符串识别准确性，但是，例如当如公司印章的印章图像等印章图像与字符串重叠时，存在该部分可能被错误识别的问题。如果该部分被错误识别，则不仅可能不能获得该部分的字符信息，而且还可能作为干扰出现并保留没有意义的字符信息，并且妨碍随后的检索。在商业文档中出现的印章图像具有以下特性通常以印章图像与例如客户名称、客户的代表的名称等客户的信息重叠的方式附加印章图像。这样条目的信息在识别文档时通常是至关重要的。从而，如果不能识别这样的信息，则在检索过程中将不返回这些文档，并且将必须检查所有所注册的文档数据。为此，当应用OCR时还需高度准确地识别与印痕重叠的字符串。为了改善这样的OCR的识别准确性，提出了用于将与字符串重叠的印痕分离的方法。例如，在专利文献1和专利文献2中，提出了用于通过使用印痕的颜色和文档中的文本的颜色之间的区别从文本中辨别印痕来识别并去除印痕的技术。从而，即使文本和印痕互相重叠，也可以仅去除印痕而保留重叠的文本。另外，在专利文献3中，提出了用于利用印痕的轮廓通常呈现规则的多边形的形式的事实来识别并去除印痕的技术。从而，在文本和印痕互相重叠的情况下，可以通过去除印痕和与该印痕重叠的字符串来防止OCR的错误识别。引用...

【技术保护点】
１．一种商业文档处理器，所述商业文档处理器扫描商业文档并执行识别处理，所述商业文档处理器包括：印痕检测处理部，用于检测以灰度输入的商业文档中的印痕区域，并从所述商业文档中去除所述印痕区域；印痕相关信息提取处理部，用于提取在已经去除了印痕区域的所述商业文档中的被去除的印痕区域附近存在的字符信息作为印痕相关信息，其中由于所述印痕区域导致部分字符是不清楚的；属性分类处理部，用于识别所提取的所述印痕相关信息的属性；及字符推断处理部，用于参考保存了字符串候选的字符串候选数据库，并基于通过属性分类的所述印痕相关信息来推断与印痕区域重叠并且不清楚的字符串。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：大峡光晴，
申请(专利权)人：日立系统解决方案有限公司，
类型：发明
国别省市：JP

全部详细技术资料下载我是这个专利的主人