表格处理系统及方法技术方案

技术编号:2933299 阅读:152 留言:0更新日期:2012-04-11 18:40
一种表格处理系统,包括:    一存储设备,配置成存储一个表格的多个字段的格式信息;    一图像输入设备,配置成获取该表格的多个段的图像;    一读取设备,配置成从该存储设备中读取该表格的多个字段的格式信息;    一匹配设备,配置成把该多个段的格式信息与相应的该多个字段的格式信息相匹配以获得匹配结果;以及    一组合设备,配置成依据该匹配结果而把该多个段的格式信息与相应的该多个字段的格式信息相组合,其中该组合设备被进一步配置成获得该图像的一个确定格式。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般地涉及一种光符阅读器(OCRs)以及表格处理系统,并且更具体地,涉及一种确定输入到表格上的字符的位置的格式信息发生器,一种用于操作该发生器的程序,一种使用格式信息来识别该表格的表格处理系统,以及一种用于操作该处理器的程序。
技术介绍
表格“格式信息”意指定义字符及验证标记被描述处的单元格及字段以用于读取表格上的字符以及检测该位置的信息。格式信息不仅可以包括坐标信息,而且可以包括属性,诸如字段的读取项名称以及字符的类型。关于被存储用于一种表格类型的一种格式信息的例子的其它细节,请参看’99六月版的“日立图象OCR产品(Hitachi ImagingOCR Products)”目录中第11页上的“格式发生器”的说明。格式发生器中所使用的格式信息严格规定了每种表格类型的字符单元格以及文本字段框的位置。现有OCR的许多类型都采用与该格式发生器的格式信息相类似的格式信息。关于通过预先定义表格上的列表结构并把输入的表格图像与该列表相匹配来自动检测单元格位置的方法的其它细节,请参看申请号为No.282193/1995的日本专利申请。该方法产生这样的作用使得对于一固定的表格,由局部失真以及剪切表格中的错误所引起的单元格位置的差异能够被检测到。而且,能够进行与模糊线条或中断线条以及干扰的列表的匹配。对于采用表格单元格之间的排列关系作为格式信息的方法的其他细节,请参见1992年文档分析及信息检索研讨会会刊第77-95页上由Watanabe等所著的“A Framework of Layout Recognition forDocument Understanding”一文。在此方法中,把整个表格上的单元格之间的排列关系预先描述成一个模型。该方法产生这样的作用即使一个表格包含了在位置及大小上都存在差异的多个单元格也能够通过把输入的表格图像与该模型匹配而检测出一个单元格的位置。下面将描述由表格处理系统处理的表格的类型。就格式而言,除专用于OCR的表格之外的表格被分成固定表格,半固定表格,以及非固定表格三种类型。固定表格意指其中嵌线(rule)及字符的位置为固定的相同类型的表格。半固定表格意指即使各表格的类型与收入和预扣税款凭单以及体检费用收据的类型相同,但其中每个表格的嵌线及单元格的位置也存在细微差异。如果嵌线与单元格的位置之间的差异在表格大小的20%之内,那么把该表格称作半固定表格。非固定表格意指即使表格是与收据属于同一类型的表格,但其格式及内容也不同的表格,以及意指半固定表格之外的表格。下面将使用图3所示的收入和预扣税款凭单作为例子描述半固定表格的问题。尽管在收入和预扣税款凭单中单元格的排列基本上被确定,但是每个表格的单元格位置存在细微差异。原因在于尽管诸如各项的排列顺序之类的粗略格式已被确定,但颁发该证书的公司依其自己的条款确定具体的格式,诸如单元格的大小。图18A,18B和18C示出在格式上存在差异的表格的例子。图18A示出了几个具有相同的项而单元格的大小不同的表格的例子。图18B示出了几个在是否存在线段以及主要是金额总计字段的线段长度上存在不同的表格的例子。图18C示出了单元格本身的排列不同的表格的例子。对于在表格识别中共同存在的问题,除了上述格式上的差异外,还存在图像质量问题。由于表格印刷的质量及状况是多种多样的,所以图像被输入时的图像质量是不固定的并且会产生模糊线条和干扰。当产生模糊线条和干扰时,在依据表格图像而判断嵌线及单元格的位置的情况下,产生相应错误的可能性会增大。通过上述现有技术,很难识别出具有上述特性的半固定表格。由于第一个常规例子假定单元格及字符的位置是相同的,因此难于识别半固定表格。原则上通过记录要被识别的表格的所有格式信息就可以识别半固定表格。然而,出于以下三个原因,这种识别实际上是很困难的。第一个原因是,由于一个表格中要被生成的格式信息的数目巨大,因此用于生成格式信息的成本增大。第二个原因是,难于预先准备全部表格和生成它们的格式信息。在收入和预扣税款凭单的例子中,需要收集由所有国内公司发出的收入和预扣税款凭单。另外,由于同一家公司每年都会更改格式,因此不可能全部收集。第三个原因是,即使上述两个问题都能够被解决,也很难实现用于区分表格中的细微差异以及自动选择适合的格式信息的技术。在第二个常规例子中,尽管能够解决字符单元及文本字段框的位置差异,但是也不可能识别在单元格的大小上存在差异的半固定表格。在第三个常规例子中,尽管能够解决字符单元格及文本字段框的位置及大小的差异,但是即使仅仅是该表格的分段字段内的单元格排列不同,也要求整个表格的格式信息是最新生成的。因此,为了识别其中每个表格的单元格排列存在细微不同的半固定表格,存在着格式信息数目巨大的问题。由于该方法所用的模型不能包括除矩形单元格以外的单元格,因此存在着许多表格都具有现有的对应模型的问题。此外,由于该方法中,匹配是依据单元格的排列信息而进行的,因此存在这样的问题,即该方法不适合于其中由于模糊线条及干扰而使单元格不能被准确提取的表格图像。
技术实现思路
本专利技术的目的是解决与识别半固定表格有关的问题。本专利技术提供了准确匹配相同表格类型的半固定表格的格式的格式处理器。依据少量格式信息,即可实现单元格的位置及大小是不同的,并且一部分单元格的排列是不同的。此外,本专利技术还提供了能够匹配低质量的表格图像的格式的表格处理系统。应当理解能够以许多方式来实现本专利技术,包括进程,装置,系统,设备或是方法。下面描述本专利技术的几个具体实施例。在一个实施例中,提供了一种表格处理系统,包括一存储设备,配置成存储一个表格的多个字段的格式信息;一图像输入设备,配置成获取该表格的多个段的图像;一读取设备,配置成从该存储设备中读取该表格的多个字段的格式信息;一匹配设备,配置成把该多个段的格式信息与该多个字段的相应格式信息相匹配以获得匹配结果;以及一组合设备,配置成依据该匹配结果而把该多个段的格式信息与该多个字段的相应格式信息相组合,其中该组合设备被进一步配置成获得该图像的一个确定格式。在另一个实施例中,提供了一种在具有一存储设备的系统上进行表格处理的方法。该方法包括存储一个表格的多个字段的格式信息;获取该表格的多个段的一个图像;从该存储设备读取该表格的多个字段的格式信息;把该多个段的格式信息与该多个字段的相应格式信息相匹配以获得匹配结果;以及依据该匹配结果而把该多个段的格式信息与该多个字段的相应格式信息相组合;以及获得该图像的一个确定格式。在又一个实施例中,提供了一种用于表格处理的方法。该方法包括获取一表格的图像;显示该图像;分析该图像的布局;提取该图像布局的一种栅格表示;把该栅格表示存入一存储设备;指定该图像的一段;从该存储设备读取应用在该段上的栅格表示;以及把该段的属性信息与该栅格表示相联系以获得联系结果;以及把该联系结果存入该存储设备,其中读取步骤和联系步骤被应用于一个字段中除该段外新指定的一个段。本专利技术包含了方法,装置,以及计算机可读介质的其它实施例,它们的配置如上所述并具有其它特征及替换。附图说明通过下面结合附图的详细描述将容易地理解本专利技术。为了便于进行描述,相同的附图标记表示相同的结构元件。图1是表示本专利技术一实施例中的表格处理系统的示意结构的方框图;本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:新庄广古川直广
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1