表格结构化方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26304847 阅读:34 留言:0更新日期:2020-11-10 20:01
本发明专利技术实施例提供一种表格结构化方法、装置、电子设备及存储介质,所述方法包括:确定待结构化图像所包含表格的单元格信息和文本信息;基于单元格信息,对表格中各个线段进行延伸,得到表格的最小单元尺寸,基于最小单元尺寸建立网格;基于单元格信息和文本信息,将表格中的各个单元格以及各个文本行映射到网格中,得到表格的结构化信息。本发明专利技术实施例提供的表格结构化方法、装置、电子设备及存储介质,实现了不同结构的表格的统一形式的结构化表示,有利于实现对电子化后的表格的统一管理。

【技术实现步骤摘要】
表格结构化方法、装置、电子设备及存储介质
本专利技术涉及图像处理
,尤其涉及一种表格结构化方法、装置、电子设备及存储介质。
技术介绍
随着计算机的普及和电子信息技术的快速发展,纸质文档也逐渐电子化,表格文档是一种常见的文档形式。现有技术主要是通过自动提取表格文档中的表格结构信息和文本信息,以实现表格文档的电子化。然而实际应用中大部分表格的结构是不标准的,例如单元格跨行、跨列合并或者表格部分残缺等,而且不同的表格的表格结构是不统一的,对于不同的表格,现有技术仅能提取各个表格的表格结构信息和文本信息,无法通过一种统一的形式对不同的表格进行结构化表示,不便于对电子化后的表格进行统一管理。
技术实现思路
本专利技术实施例提供一种表格结构化方法、装置、电子设备及存储介质,用以解决现有技术中无法通过一种统一的形式对不同的表格进行结构化表示的缺陷。本专利技术实施例提供一种表格结构化方法,包括:确定待结构化图像所包含表格的单元格信息和文本信息;基于所述单元格信息,对所述表格中各个线段进行延伸,得到所述表格的最小单元尺寸,基于所述最小单元尺寸建立网格;基于所述单元格信息和所述文本信息,将所述表格中的各个单元格以及各个文本行映射到所述网格中,得到所述表格的结构化信息。本专利技术实施例还提供一种表格结构化装置,包括:表格信息确定单元,用于确定待结构化图像所包含表格的单元格信息和文本信息;网格构建单元,用于基于所述单元格信息,对所述表格中各个线段进行延伸,得到所述表格的最小单元尺寸,基于所述最小单元尺寸建立网格;结构化信息输出单元,用于基于所述单元格信息和所述文本信息,将所述表格中的各个单元格以及各个文本行映射到所述网格中,得到所述表格的结构化信息。本专利技术实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述表格结构化方法的步骤。本专利技术实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述表格结构化方法的步骤。本专利技术实施例提供的表格结构化方法、装置、电子设备及存储介质,基于单元格信息,得到表格的最小单元尺寸,并基于最小单元尺寸建立网格,通过将表格中的各个单元格以及各个文本行映射到网格中,得到表格的结构化信息,实现了不同结构的表格的统一形式的结构化表示,有利于实现对电子化后的表格的统一管理。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的表格结构化方法的流程示意图;图2为本专利技术实施例提供的表格示意图;图3为本专利技术实施例提供的最小单位尺寸示意图;图4为本专利技术实施例提供的网格示意图;图5为本专利技术实施例提供的表格的单元格信息和文本信息确定方法的流程示意图;图6为本专利技术实施例提供的表格的文本信息确定方法的流程示意图;图7为本专利技术实施例提供的表格的单元格信息修正方法流程示意图;图8为本专利技术实施例提供的表格的结构化信息确定方法的流程示意图;图9为本专利技术另一实施例提供的表格结构化方法的流程示意图;图10为本专利技术另一实施例提供的表格示意图;图11为本专利技术另一实施例提供的最小单元尺寸示意图;图12为本专利技术另一实施提供的网格示意图;图13为本专利技术实施例提供的表格结构化装置的结构示意图;图14是本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。随着计算机的普及和电子信息技术的快速发展,纸质文档也逐渐电子化,表格文档是一种常见的文档形式,表格作为一种高度精炼、集中的信息表达形式,广泛应用于科研文章、报刊杂志、工作报告等文件中,表格文档的电子化极大地便捷了表格文档的管理以及基于表格文档的数据分析。现有技术主要是通过自动提取表格文档中的表格结构信息和文本信息,以实现表格文档的电子化。然而实际应用中大部分表格的结构是不标准的,例如单元格跨行、跨列合并或者表格部分残缺等,而且不同的表格的表格结构是不统一的。对于不同的表格,现有技术仅能提取各个表格的表格结构信息和文本信息,无法通过一种统一的形式对不同的表格进行结构化表示,不便于对电子化后的表格进行统一管理。对比,本专利技术实施例提供一种表格结构化方法,图1为本专利技术实施例提供的表格结构化方法的流程示意图,如图1所示,该方法包括:步骤110,确定待结构化图像所包含表格的单元格信息和文本信息。具体地,待结构化图像可以为需要进行表格结构化的图像,待结构化图像包含至少一个表格。例如,在银行业务的场景下,待结构化图像可以为需要录入系统的人工填写的表格。待结构化图像所包含的表格的形状可以是规则的,例如机器打印的票据或单据中的表格,待结构化图像所包含的表格的形状也可以是不规则的,例如人为绘制的表格,本专利技术实施例对此不作具体限定。待结构化图像可以通过扫描仪对待结构化的表格文档扫描得到,也可以通过相机、手机等拍照设备对待结构化的表格文档拍照得到,本专利技术实施例对此不作具体限定。表格的单元格信息可以包括表格中各个单元格的位置信息,也可以包括表格整体的位置信息,表格的文本信息可以包括表格中各个文本行的位置信息,也可以包括各个文本行的文本内容及其位置信息,文本行可以为表格中的一行文本,表格中一个单元格可以包含一个文本行,也可以包含多个文本行。此处的位置信息可以包含对象在图像中位置,也可以包含对象在图像中的尺寸大小等,本专利技术实施例对此不作具体限定。另外,步骤110中,可以分别确定待结构化图像所包含的表格的单元格信息和文本信息,也可以依次确定待结构化图像所包含的表格的单元格信息和文本信息,例如,可以首先提取待结构化图像所包含的表格中的各个单元格,得到任一表格的单元格信息,然后对该表格中的各个单元格的区域进行文字识别,得到该表格的文本信息,本专利技术实施例对表格的单元格信息和文本信息的确定方式不作具体限定。在执行步骤110之后,还可以基于待结构化图像所包含的表格的单元格信息,采用连通域算法,确定待结构化图像中包含的表格的数量。步骤120,基于单元格信息,对表格中各个线段进行延伸,得到表格的最小单元尺寸,基于最小单元尺寸建立网格。具体地,对于待结构化图像中的任一表格,在得到表格的本文档来自技高网...

【技术保护点】
1.一种表格结构化方法,其特征在于,包括:/n确定待结构化图像所包含表格的单元格信息和文本信息;/n基于所述单元格信息,对所述表格中各个线段进行延伸,得到所述表格的最小单元尺寸,基于所述最小单元尺寸建立网格;/n基于所述单元格信息和所述文本信息,将所述表格中的各个单元格以及各个文本行映射到所述网格中,得到所述表格的结构化信息。/n

【技术特征摘要】
1.一种表格结构化方法,其特征在于,包括:
确定待结构化图像所包含表格的单元格信息和文本信息;
基于所述单元格信息,对所述表格中各个线段进行延伸,得到所述表格的最小单元尺寸,基于所述最小单元尺寸建立网格;
基于所述单元格信息和所述文本信息,将所述表格中的各个单元格以及各个文本行映射到所述网格中,得到所述表格的结构化信息。


2.根据权利要求1所述的表格结构化方法,其特征在于,所述确定待结构化图像所包含表格的单元格信息和文本信息,具体包括:
将所述待结构化图像输入至单元格信息提取模型,得到所述单元格信息提取模型输出的所述待结构化图像所包含表格的单元格信息;所述单元格信息提取模型是基于样本图像及其对应的样本单元格信息训练得到的;
将所述待结构化图像输入至文本信息提取模型,得到所述文本信息提取模型输出的所述待结构化图像所包含表格的文本信息;所述文本信息提取模型是基于所述样本图像及其对应的样本文本信息训练得到的。


3.根据权利要求2所述的表格结构化方法,其特征在于,所述将所述待结构化图像输入至文本信息提取模型,得到所述文本信息提取模型输出的所述待结构化图像的文本信息,具体包括:
将所述待结构化图像输入至所述文本信息提取模型的文本检测层,得到所述文本检测层输出的所述待结构化图像所包含的所述表格中的每一文本行的位置信息;
将任一文本行的区域图像输入至所述文本信息提取模型的文本识别层,得到所述文本识别层输出的所述任一文本行中的每一单字及其位置信息;所述任一文本行的区域图像是基于所述任一文本行的位置信息在所述待结构化图像中定位得到的。


4.根据权利要求2所述的表格结构化方法,其特征在于,所述得到所述单元格信息提取模型输出的所述待结构化图像所包含表格的单元格信息,之后还包括:
基于所述单元格信息包含的所述表格中的各个单元格的位置信息,确定所述表格中各个单元格之间的拓扑关系;
基于所述表格中各个单元格之间的拓扑关系,对所述单元格信息进行修正。


5.根据权利要求1所述的表格结构化方法,其特征在于,所述基于所述单元格信息和所述文本信息,将所述表格中的各个单元格以及各个文本行映射到所述网格中,得到所述表格的结构化信息,具体包括:
基于所述单元格信息,将所述表格中的各个单元格映射到所述网格中;
基于所述文本信息包含的所述表格中的各个文本行的位置信息和/或各个文本行中各个单字的位置信息,将所述表格中的各个文本行映射到所述网格的单元格区域中...

【专利技术属性】
技术研发人员:李立夫张银田刘驰王冲谢名亮殷兵
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1