用于扫描图像中的表格信息的数据结构生成制造技术

技术编号:26846180 阅读:32 留言:0更新日期:2020-12-25 13:09
本申请涉及用于扫描图像中的表格信息的数据结构生成。提供了用于生成表示扫描图像中的表格信息的数据结构的计算机实现的方法。这样的方法可以包括:存储表示表格的扫描图像的图像数据;处理图像数据以识别图像中的字符和线的位置;以及根据所述位置映射信息单元格在图像中的位置,每个信息单元格包含一组字符。该方法还可以包括,对于每个单元格,根据单元格定位来确定用于预定义的单元格属性集的单元格属性值,并将该属性值作为输入提供给机器学习模型,该机器学习模型被训练为根据单元格属性值将单元格预分类为标题单元格或数据单元格。

【技术实现步骤摘要】
用于扫描图像中的表格信息的数据结构生成
本公开总体上涉及用于扫描图像中的表格信息的数据结构生成。提供了用于生成表示这样的表格信息的数据结构的方法,以及实现这样的方法的装置和计算机程序产品。
技术介绍
科学、医学和财务文档通常以表格形式描绘结构化信息。出于共享和存档目的,文档经常被扫描,并且所得到的扫描(光栅)图像被存储用于后续信息检索。扫描图像中的表格的结构是不能容易地由基于计算机的技术读取。在表格的结构、复杂性和可视化表示方面存在巨大的可变性。例如,表格标题可以以多种方式被结构化,以指示数据的行和列与分层的标题之间的对应关系。这种可变性对从扫描图像中自动提取表格信息提出了重大挑战。
技术实现思路
根据本专利技术的一个方面,提供了一种用于生成表示扫描图像中的表格信息的数据结构的计算机实现的方法。该方法包括:存储表示表格的扫描图像的图像数据;处理图像数据以识别图像中的字符和线的位置;以及根据所述位置映射信息单元格在图像中的定位,每个信息单元格包含一组字符。该方法包括,对于每个单元格,根据单元格定位来确定用于预定义的单元格属性集的单元格属性值,并将该属性值作为输入提供给机器学习模型,该机器学习模型被训练为根据单元格属性值将单元格预分类为标题单元格或数据单元格。然后,该方法将预定义的规则应用于预分类的单元格以识别角落数据单元格,该角落数据单元格标记图像中包含数据单元格的区域和包含标题单元格的边缘区域之间的过渡。该方法还包括,对于行标题单元格集和列标题单元格集中的每一个,根据图像中这些单元格的相对定位,定义层次树,层次树指示标题单元格的层次结构,并使用层次树来生成将每个数据单元格映射到层次结构中对应的行和列标题单元格的数据结构。所得到的数据结构被存储以提供表格的可查询表示。本专利技术的又一方面提供了一种计算机程序产品,该计算机程序产品包括体现程序指令的计算机可读存储介质,该程序指令可由计算装置执行,以使计算装置执行如上所述的用于生成数据结构的方法。本专利技术的另一方面提供了一种计算装置,该计算装置包括用于存储表示表格的扫描图像的图像数据的存储器,以及适于实现如上所述的用于生成数据结构的方法的逻辑。下面将通过说明性和非限制性示例,参照附图更详细地描述本专利技术的实施例。附图说明图1是用于实现体现本专利技术的方法的计算装置的示意图;图2a至图2g示出了不同的表格结构的示例;图3是用于实现体现本专利技术的方法的计算装置的组件模块的示意图;图4指示了体现本专利技术的数据结构生成方法的步骤;图5指示了体现本专利技术的方法的附加步骤;图6a至图6c示出了图4方法中的对象检测步骤;图7a至图7d示出了图4方法中的单元格检测步骤;图8示出了数据结构生成方法的优选实施例中的单元格分类过程;图9a至图9d示出了优选实施例中的单元格分析步骤;图10a和图10b示出了图4方法中的层次提取操作的步骤;图11指示了优选实施例中的层次提取过程的步骤;图12示出了图11过程中的示例性列标题结构的Voronoi图的构建;图13示出了用于示例性行标题结构的类似过程;图14示出了在优选实施例中的层次树生成中使用的另一过程;图15示出了由体现本专利技术的方法生成的数据结构;以及图16和图17示出了用体现本专利技术的方法获得的性能结果。具体实施方式本专利技术可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本专利技术的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。用于执行本专利技术操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本专利技术的各个方面。这里参照根据本专利技术实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本专利技术的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它本文档来自技高网...

【技术保护点】
1.一种用于生成表示扫描图像中的表格信息的数据结构的计算机实现的方法,所述方法包括:/n存储表示表格的扫描图像的图像数据;/n处理所述图像数据以识别所述图像中的线和字符的位置;/n根据所述位置映射信息单元格在所述图像中的定位,每个信息单元格包含一组所述字符;/n对于每个单元格,根据所述定位来确定用于预定义的单元格属性集的单元格属性值,并将所述属性值作为输入提供给机器学习模型,所述机器学习模型被训练为根据单元格属性值将单元格预分类为标题单元格或数据单元格;/n将预定义的规则应用于经预分类的单元格以识别角落数据单元格,所述角落数据单元格标记所述图像中包含数据单元格的区域和包含标题单元格的边缘区域之间的过渡,并且根据所述边缘区域中的单元格定位来定义行和列标题单元格;/n对于所述行标题单元格集和所述列标题单元格集中的每一个,根据所述图像中这些单元格的相对定位,定义层次树,所述层次树指示所述标题单元格的层次结构;/n使用所述层次树来生成将每个数据单元格映射到所述层次结构中对应的行和列标题单元格的数据结构;以及/n存储所述数据结构以提供所述表格的可查询表示。/n

【技术特征摘要】
20190624 US 16/450,0781.一种用于生成表示扫描图像中的表格信息的数据结构的计算机实现的方法,所述方法包括:
存储表示表格的扫描图像的图像数据;
处理所述图像数据以识别所述图像中的线和字符的位置;
根据所述位置映射信息单元格在所述图像中的定位,每个信息单元格包含一组所述字符;
对于每个单元格,根据所述定位来确定用于预定义的单元格属性集的单元格属性值,并将所述属性值作为输入提供给机器学习模型,所述机器学习模型被训练为根据单元格属性值将单元格预分类为标题单元格或数据单元格;
将预定义的规则应用于经预分类的单元格以识别角落数据单元格,所述角落数据单元格标记所述图像中包含数据单元格的区域和包含标题单元格的边缘区域之间的过渡,并且根据所述边缘区域中的单元格定位来定义行和列标题单元格;
对于所述行标题单元格集和所述列标题单元格集中的每一个,根据所述图像中这些单元格的相对定位,定义层次树,所述层次树指示所述标题单元格的层次结构;
使用所述层次树来生成将每个数据单元格映射到所述层次结构中对应的行和列标题单元格的数据结构;以及
存储所述数据结构以提供所述表格的可查询表示。


2.如权利要求1所述的方法,包括在存储所述数据结构之后,响应于接收到对于所述表格中的信息的请求:
从所述数据结构中提取与所请求的信息相对应的数据;以及
输出所提取的数据。


3.如权利要求1所述的方法,其中:
所述规则通过马尔可夫逻辑网络在与单元格有关的谓词上定义,所述马尔可夫逻辑网络具有预训练的规则权重,所述规则权重指示用于识别角落数据单元格的相应规则的重要性;以及
应用所述规则的步骤包括将所述马尔可夫逻辑网络应用于经预分类的单元格以识别所述角落数据单元格。


4.如权利要求1所述的方法,包括,对于所述行标题单元格集和所述列标题单元格集中的至少一个,通过以下方式定义所述层次树:
生成加权图,所述加权图包括表示所述图像中的所述标题单元格、标题单元格的相邻数据单元格和预定义的根单元格的节点,每个单元格的节点通过边与表示所述图像中的相邻单元格的至少一组所述节点相互连接,其中,每对节点之间的所述边具有权重,所述权重取决于这些节点所表示的单元格在所述图像中的相对位置;以及
根据所述权重,在表示数据单元格的每个节点和表示所述根单元格的节点...

【专利技术属性】
技术研发人员:A·F·罗德瑞格兹M·嘉芭拉尼W·法尔鲁克
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1