基于单元格约束的表格结构识别方法及其应用技术

技术编号:36166705 阅读:15 留言:0更新日期:2022-12-31 20:16
本申请提出了基于单元格约束的表格结构识别方法及其应用,包括以下步骤:根据表格类型将不同的表格图像输入到对应的目标检测模型中,以输出对应表格的位置信息;根据表格的位置信息,获取表格的整行和整列的信息,该信息包括每行和每列的任意两个不相邻的顶点的坐标;识别表格中的所有文本及其边框;通过机器翻译方法获取表格的表格结构信息;根据表格的位置信息、表格的整行和整列的信息及表格的表格结构信息,修正表格中的单元格;对修正后的表格中单元格的坐标进行聚类,以生成表格的单元格结构。本申请具有可结合任意一种光学符号识别方法,通过完整的表格识别技术,端到端地从电子文档中分析表格结构。地从电子文档中分析表格结构。地从电子文档中分析表格结构。

【技术实现步骤摘要】
基于单元格约束的表格结构识别方法及其应用


[0001]本申请涉及表格识别
,特别是一种涉及基于单元格约束的表格结构识别方法及其应用。

技术介绍

[0002]在实际应用中,电子文档的关键信息通常以表格形式总结。由于广泛使用的电子文档格式不保留完整表格结构信息,因此需要精确的表格结构识别技术,系统的提取表格内容并用于后续分析。
[0003]目前表格识别技术包括表格检测和单元格结构识别。表格检测是对表格的边界检测,而单元格结构识别是检测表格内的单元格并解析其逻辑关系(如识别表格内行或列的所有单元格)。对计算机自动化系统来说,从电子文档中精确地重构表格边界和单元格结构信息是困难的,因为表格的样式、布局和内容均可能有较大不同。深度学习方法通过直接处理图像,可应用于任何可呈现为图像的电子文档,取得了优于传统方法的效果。
[0004]虽然现有技术如CN114529773A公开了基于结构的单元的表格识别方法、系统、终端及介质,也采用了深度学习方法来处理出现从而识别表格,但是仍旧过度依赖现成的通用目标检测方法,不能完全适应表格的独特属性。而近期基于深度学习的研究主要分为两个方向:(1)通过机器翻译方法将表格结构输出为文本。这种端到端的输出表格结构的方法在整体结构表达上仍不够准确;(2)通过表格中的被检测的对象生成表结构。这种基于目标检测的方法可分别检测整行和整列,并将检测到的行和列的交集表示为单元格,但针对复杂表结构仍有局限性,且不能跨越或对齐整张表。
[0005]因此,亟待一种可更加准确的分析表格结构,从而获取表格内容逻辑信息的基于单元格约束的表格结构识别方法及其应用,以解决现有技术存在的问题。

技术实现思路

[0006]本申请实施例提供了基于单元格约束的表格结构识别方法及其应用,针对目前技术存在的局限性大、不准确、不能跨越或对其整张表等问题。
[0007]本专利技术核心技术主要是表格信息提取框架由多个神经网络组成,其每个主要的目标检测网络都以其他网络的输出作为输入。该框架可适用于任何类型的目标检测网络。基于表格必须包含单元格的客观事实,表格边界网络使用单元格检测网络检测表边界,单元格结构识别网络则通过表格边界和表格样式识别单元格结构。
[0008]第一方面,本申请提供了基于单元格约束的表格结构识别方法,所述方法包括以下步骤:S00、根据表格类型将不同的表格图像输入到对应的目标检测模型中,以输出对应表格的位置信息;其中,表格的位置信息包括表格的任意两个不相邻的顶点的坐标,表格的
类型分为有框表格和无框表格;S10、根据表格的位置信息,获取表格的整行和整列的信息,该信息包括每行和每列的任意两个不相邻的顶点的坐标;S20、识别表格中的所有文本及其边框;S30、通过机器翻译方法获取表格的表格结构信息,该表格结构信息包括行列数量和布局信息;S40、根据表格的位置信息、表格的整行和整列的信息及表格的表格结构信息,修正表格中的单元格,其中该修正的手段包括补全单元格、合并单元格及去除单元格;S50、对修正后的表格中单元格的坐标进行聚类,以生成表格的单元格结构。
[0009]进一步地,步骤S00中,通过计算表格外的单元格数量和表格内的单元格数量的差值来得到表格的边界,以该边界作为表格的边框,从而输出对应表格的位置信息。
[0010]进一步地,步骤S30中,根据表格图像的单元格位置,使得表格图像与文本位置对齐,并分别在垂直和水平方向采样,以确定表格的行数和列数。
[0011]进一步地,在步骤S30中,在垂直方向采样之前,在不与现有单元格重叠的情况下展开单元格的左右边缘,以确定缺少单元格的行,并在确定表格的行数和列数后,通过找出与已知单元格最接近完整对齐的单元格边框,从而推断出表格垂直和水平的对齐方式,该对齐方式作为布局信息。
[0012]进一步地,步骤S40中,对单元格边框进行聚类,以确定每行和每列的位置,并根据每个单元格的框位置分配行和列的位置,以合并单元格。
[0013]进一步地,步骤S40中,根据单元格的文本内容确定单元格的逻辑关系,以再次合并单元格,并将单元格位置分配给与任何检测到的单元格不重叠的剩余文本框,同时拆分附近有间隙的单元格。
[0014]进一步地,步骤S40中,当文本的边框与相邻的空行或列相交时,增加单元格的行或列的跨度。
[0015]第二方面,本申请提供了一种基于单元格约束的表格结构识别装置,包括:输入模块,根据表格类型将不同的表格图像输入到对应的目标检测模型中;目标检测模块,用于根据输入的表格图像,通过对应的目标检测模型输出对应表格的位置信息;其中,表格的位置信息包括表格的任意两个不相邻的顶点的坐标,表格的类型分为有框表格和无框表格;行列信息获取模块,用于根据表格的位置信息,获取表格的整行和整列的信息,该信息包括每行和每列的任意两个不相邻的顶点的坐标;文本识别模块,用于识别表格中的所有文本及其边框;机器翻译模块,用于通过机器翻译方法获取表格的表格结构信息,该表格结构信息包括行列数量和布局信息;修正模块,用于根据表格的位置信息、表格的整行和整列的信息及表格的表格结构信息,修正表格中的单元格,其中该修正的手段包括补全单元格、合并单元格及去除单元格;聚类输出模块,用于对修正后的表格中单元格的坐标进行聚类,以生成输出表格的单元格结构。
[0016]第三方面,本申请提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述的基于单元格约束的表格结构识别方法。
[0017]第四方面,本申请提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据上述的基于单元格约束的表格结构识别方法。
[0018]本专利技术的主要贡献和创新点如下:1、与现有技术相比,本申请充分利用表格的特点(一般来说,表格内部包含一定数量的单元格,并且单元格不能存在于表之外。单元格是表格的重要特征,且单元格外观也决定了表格的全局样式)以及整张表格的信息,提出了一个分层的网络系统,同时基于该网络系统开发的方法以更准确地分析表格结构,从而获取表格内容逻辑信息;2、与现有技术相比,本申请可结合任意一种光学符号识别方法,通过完整的表格识别技术,端到端地从电子文档中分析表格结构(包括表格位置、单元格位置及单元格间的逻辑关系),使后续内容分析更容易更有效。
[0019]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0020]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的基于单元格约束的表格结构识别方法的流程;图2是本申请一种优选实施例的流程图;图3是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
[0021]这里将详细地对示例性实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于单元格约束的表格结构识别方法,其特征在于,包括以下步骤:S00、根据表格类型将不同的表格图像输入到对应的目标检测模型中,以输出对应表格的位置信息;其中,表格的位置信息包括表格的任意两个不相邻的顶点的坐标,表格的类型分为有框表格和无框表格;S10、根据所述表格的位置信息,获取所述表格的整行和整列的信息,该信息包括每行和每列的任意两个不相邻的顶点的坐标;S20、识别所述表格中的所有文本及其边框;S30、通过机器翻译方法获取所述表格的表格结构信息,该表格结构信息包括行列数量和布局信息;S40、根据所述表格的位置信息、所述表格的整行和整列的信息及所述表格的表格结构信息,修正所述表格中的单元格,其中该修正的手段包括补全单元格、合并单元格及去除单元格;S50、对修正后的所述表格中单元格的坐标进行聚类,以生成所述表格的单元格结构。2.如权利要求1所述的基于单元格约束的表格结构识别方法,其特征在于,步骤S00中,通过计算所述表格外的单元格数量和所述表格内的单元格数量的差值来得到所述表格的边界,以该边界作为所述表格的边框,从而输出对应表格的位置信息。3.如权利要求1所述的基于单元格约束的表格结构识别方法,其特征在于,步骤S30中,根据所述表格图像的单元格位置,使得所述表格图像与文本位置对齐,并分别在垂直和水平方向采样,以确定所述表格的行数和列数。4.如权利要求3所述的基于单元格约束的表格结构识别方法,其特征在于,在步骤S30中,在垂直方向采样之前,在不与现有单元格重叠的情况下展开单元格的左右边缘,以确定缺少单元格的行,并在确定所述表格的行数和列数后,通过找出与已知单元格最接近完整对齐的单元格边框,从而推断出表格垂直和水平的对齐方式,该对齐方式作为布局信息。5.如权利要求4所述的基于单元格约束的表格结构识别方法,其特征在于,步骤S40中,对单元格边框进行聚类,以确定每行和每列的位置,并根据每个单元格的框位...

【专利技术属性】
技术研发人员:毛云青雷卓彭大蒙张香伟
申请(专利权)人:城云科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1