文档处理方法及其装置制造方法及图纸

技术编号:8161557 阅读:129 留言:0更新日期:2013-01-07 19:33
本申请涉及文档处理方法及其装置,其中对于多个输入的文档图像中的每个文档图像:检测与初始关键字符相匹配的初始关键字符图像,所述初始关键字符是所述多个文档图像的标题中的关键字符;针对每个初始关键字符图像,提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像,其中初始关键字符图像与相邻字符图像构成准标题区域;计算每个准标题区域的置信度值,并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选,其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性;基于从所述多个文档图像获得的标题候选对文档图像进行聚类,从而得到具有同类标题的文档分类。

【技术实现步骤摘要】

本申请总体上涉及图像处理的领域,更具体而言,涉及一种文档处理方法及其装置
技术介绍
文档标题通常隐含了文档的主题,对于分析、理解以及管理文档有重要意义。在文档系统中,通常将具有相同标题的文档划归一类文档。在传统方法中,通常提供了一种根据人工生成的模板来定位标题的位置和内容,从而对文档分类,然而此方法并不适合应用于 大规模数据处理。此外,现有技术中还存在一种基于OCR识别的文档分类方法,其首先借助OCR识别检测文档的标题字符串并且基于所识别的文档标题对文档进行分类,然而此方法应用领域单一,并不适于包含多种标题的文档。
技术实现思路
在下文中将给出关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。根据本申请的实施例,在对文档进行处理时,对于多个输入的文档图像中的每个文档图像检测与初始关键字符相匹配的初始关键字符图像,所述初始关键字符是所述多个文档图像的标题中的关键字符;针对每个初始关键字符图像,提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像,其中初始关键字符图像与相邻字符图像构成准标题区域;计算每个准标题区域的置信度值,并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选,其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性;基于从所述多个文档图像获得的标题候选对文档图像进行聚类,从而得到具有同类标题的文档分类。这样,通过上述文档处理,能够实现从对文档中每个文档图像提取标题候选。基于所提出的标题候选,对所述多个文档图像获得的标题候选进行聚类,从而得到具有同类标题的文档分类。由此,显著缩减了文档处理的耗时。而且,基于上述文档处理,能够实现对大规模文档进行处理,尤其是分类和归档。根据本申请的实施例还提出了一种文档处理装置,其包括检测单元,其配置成对于多个输入的文档图像中的每个文档图像检测与初始关键字符相匹配的初始关键字符图像,其中所述初始关键字符是所述多个文档图像的标题中的关键字符;提取单元,其配置成针对每个初始关键字符图像,提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像,其中初始关键字符图像与相邻字符图像构成准标题区域;选择单元,其配置成计算每个准标题区域的置信度值,并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选,其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性;聚类单元,其配置成基于从所述多个文档图像获得的标题候选对文档图像进行聚类,从而得到具有同类标题的文档分类。借助该文档处理装置,显著缩减了文档处理的耗时。而且借助该文档处理装置,能够实现对大规模文档进行处理,尤其是分类和归档。附图说明本专利技术可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。在附图中图I示出了根据本专利技术的一个实施例的文档处理方法的流程图,图2示出了根据本专利技术的另一实施例的文档处理方法的流程图,图3示出了图2所示的根据本专利技术的实施例的文档处理方法的一个改进方案的流 程图,图4示出了根据本专利技术的另一实施例的文档处理方法的流程图,图5示出了图4所示的根据本专利技术的实施例的文档处理方法的一个改进方案的流程图,图6示出了根据本专利技术的另一实施例的文档处理方法的流程图,图7示出了图6所示的根据本专利技术的实施例的文档处理方法的一个改进方案的流程图,图8a示出了根据本专利技术的一个实施例的文档处理方法的实例,图8b示出了图8a中所示的文档的实例,图9示出了根据本专利技术的一个实施例的文档处理装置的示意性结构图;图10示出了根据本专利技术的另一实施例的文档处理装置示意性结构图;以及图11示出了可用于作为实施根据本专利技术的实施例的信息处理设备的示意性框图。具体实施例方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构,而省略了与本专利技术关系不大的其他细节。第一实施例图I示出了根据本专利技术的一个实施例的文档处理方法的流程图100。经统计,大量存在的常用文档标题通常具有共同关键字符,如“书”、“表”、“单”、“票”、“据”等等。在进行文档处理时,尤其是在提取文档标题时,上述这类共同关键字符非常适于作为初始关键字符。当然,在针对特定文档进行处理时,还可能涉及其他特定的关键字符。在此情况下也可以由用户预先给定初始关键字符或者通过一定的学习而获得特定的关键字符。由于本专利技术并不涉及对特定的关键字符的获取的方法的改进,故在此不再赘述。另外还需说明的是,在此仅仅以汉语文字为例来说明根据本专利技术的实施例的文档处理方法的说明。鉴于中日韩三国文字上的相似性,根据本专利技术的实施例的文档处理方法同样也适用于韩文或日文编辑的文档以及未在此提及且适于本专利技术的方法处理的象形文字编辑的文档。出于简洁目的,在此以及在下文中并未针对日文和韩文而逐一举例说明。在借助根据本专利技术的实施例的文档处理方法对文档进行处理时,如图I所示,该方法在步骤SllO开始。在步骤S120,对于多个输入的文档图像中的每个文档图像,检测与初始关键字符相匹配的初始关键字符图像。初始关键字符是多个文档图像的标题中的关键字符。该初始关键字符可以根据统计来确定,也可以根据待处理的文档的特点由用户输入特定的关键字 符,或者也可以基于学习来确定。多个输入的文档图像可以是已经存在于电子文档中的文档图像,也可以根据应用需要而输入的文档图像。在此还需说明的是,初始关键字符图像可能包含单个字符也可能包含多个字符,即字符串。在此和在下文中出于描述的简洁仅就初始关键字符图像为单个字符的情况予以充分描述。对于关键字符串的情况处理是类似的。由于文档来源各异,文档标题在编排(字形、字体、大小、各字符间的间距)往往差异巨大。例如,在相同文档标题的多个文档中可能存在以宋体印刷的关键字符,也可能存在以楷体印刷的关键字符,又或者文档标题之间间隔或大小不一样等等,所以“与初始关键字符相匹配”在此应理解为与初始关键字符在编排上(例如大小、形状等)具有一定的相似性,而非严格的完全相同。这种匹配也可能基于对初始关键字符进行一定的放缩。同时,在同一文档中也可能检测到多个与初始关键字符相匹配的初始关键字符图像。这些初始关键字符图像可能位于同一文档中的不同部位中。在执行步骤S120检测与初始关键字符相匹配的初始关键字符图像,并不仅仅获取初始关键字符图像,而是还获取初始关键字符图像在文档图像中的位置、其大小等等信息,以便后续进一步处理。在此,初始本文档来自技高网...

【技术保护点】
一种文档处理方法,其包括:对于多个输入的文档图像中的每个文档图像:检测与初始关键字符相匹配的初始关键字符图像,所述初始关键字符是所述多个文档图像的标题中的关键字符;针对每个初始关键字符图像,提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像,其中初始关键字符图像与相邻字符图像构成准标题区域;计算每个准标题区域的置信度值,并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选,其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性;基于从所述多个文档图像获得的标题候选对文档图像进行聚类,从而得到具有同类标题的文档分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:常兰兰孙俊何源于浩直井聪
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1