基于文字检测的表格图像结构化信息提取与分析方法和装置制造方法及图纸

技术编号:38849162 阅读:18 留言:0更新日期:2023-09-17 09:58
本发明专利技术公开了一种基于文字检测的表格图像结构化信息提取与分析方法和装置,包括:对表格图像进行文字检测获得每个文字检测框的位置信息,基于文字检测框的位置信息进行初步分行,得到初步分行结果;从初步分行结果中选择多个参考行并构建参考行组,根据参考行组对初步分行进行重新分行,得到重新分行结果;依据重新分行结果确定列类型,并按照列类型进行分组分列。该方法和装置基于文本检测框的位置信息获得表格的行列信息进而实现结构化信息的提取和分析,该方法和装置无需人工标注,计算量小,无需额外的硬件资源。无需额外的硬件资源。无需额外的硬件资源。

【技术实现步骤摘要】
基于文字检测的表格图像结构化信息提取与分析方法和装置


[0001]本专利技术属于结构化信息提取
,具体涉及一种基于文字检测的表格图像结构化信息提取与分析方法和装置。

技术介绍

[0002]表格图像结构化信息提取与分析的应用场景广泛,比如将纸质文件、电子文档或网页中的表格转换为可编辑的电子格式,方便数据的存储、查询和分析。也可以用于从复杂的表格中提取关键信息,支持决策和知识发现。
[0003]通常,表格图像结构化信息提取与分析包括两个子任务:表格检测和表格结构识别。表格检测是指在文档图像中定位表格的区域,表格结构识别是指从表格图像中还原表格的行列信息,以及每个单元格的坐标位置和内容。目前,已经有一些基于深度学习的方法被提出,比如基于图卷积神经网络(Graph Convolutional Network,GCN)的GFTE方法,基于全卷积神经网络(Fully Convolutional Networks,FCN)和条件生成式对抗网络(Conditional Generative Adversarial Networks,CGAN)的TIES方法,基于Transformer的TSRFormer方法等。这些方法都在一些公开的数据集上进行了实验,并取得了一定的效果。但是,仍然存在一些问题和挑战,比如数据集的规模、质量等。通常,这种方法需要事先收集大量的数据集,给予标注,这花费了大量的人力资源。此外,这种方法通常需要大量的计算资源。
[0004]公布号为CN112883795A的专利文献公开了一种基于深度神经网络的表格快速自动提取方法,包括:进行图像表格矫正预处理;进行图像表格框线提取,得到裁剪出来的单元格图片;进行单元格文字定位;单元格文字识别;对所有单元格识别结果进行顺序合并,实现表格自动快速提取。
[0005]公布号为CN113239818A的专利申请公开了一种基于图像分割和图卷积神经网络的表格图像跨模态信息提取方法,包括:使用深度学习目标检测方法,获得表格中各个节点的定位角点坐标,并使用得到的角点坐标以及OCR接口获得表格各个节点中的文字信息;使用图像分割模型,根据表格图像的特征,对表格的表头区域、属性区域、数据区域和左上角区域进行功能区域划分;对表头和属性区域的节点,利用各个节点的文本、坐标、图像多模态信息特征,通过图卷积深度模型推测节点间的边关系,提取出表格节点间的拓扑关系;通过拓扑关系还原出表头以及属性区域的图模型结构;分别根据表头和属性区域图结构最下一层的节点数目获得数据区的行数和列数,并使用数据区节点对表格数据区域的进行填充;根据表头与属性区域的节点图结构以及表格区域的重建结果,对整个表格的结构进行重建。
[0006]以上两个技术方案中模型被应用之前均需要经过大量样本数据训练,会造成花费人力资源的且计算消耗大的技术问题。

技术实现思路

[0007]鉴于上述,本专利技术的目的是提供一种基于文字检测的表格图像结构化信息提取与分析方法和装置,基于文本检测框的位置信息获得表格的行列信息进而实现结构化信息的提取和分析,该方法和装置无需人工标注,计算量小,无需额外的硬件资源。
[0008]为实习上述专利技术目的,实施例提供的一种基于文字检测的表格图像结构化信息提取与分析方法,包括:
[0009]与现有技术相比,本专利技术具有的有益小姑至少包括:
[0010]本专利技术提供的基于文字检测的表格图像结构化信息提取与分析方法和装置不直接对表格线进行检测、分析,而是利用文本检测框的位置信息直接获得文本的行、列信息,该方法和装置对弯曲的图像有较好的适应性,适合于绝大部分表格图像结构化信息提取与分析。本专利技术无需人工标注,而且计算量很小,适合于绝大部分计算设备,无需额外硬件资源。
附图说明
[0011]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0012]图1是实施例提供的基于文字检测的表格图像结构化信息提取与分析方法的流程图;
[0013]图2是实施例提供的基于文字检测的表格图像结构化信息提取与分析装置的结构示意图。
具体实施方式
[0014]为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。
[0015]本专利技术的专利技术构思为:为解决现有表格图像结构化信息提取浪费计算资源和人力资源的技术问题,实施例提供了一种基于文字检测的表格图像结构化信息提取与分析方法和装置,基于文本检测框的位置信息获得表格的行列信息进而实现结构化信息的提取和分析,无需人工标注,计算量小,无需额外的硬件资源。
[0016]图1是实施例提供的基于文字检测的表格图像结构化信息提取与分析方法的流程图。如图1所示,实施例提供的基于文字检测的表格图像结构化信息提取与分析方法,包括以下步骤:
[0017]S110,对表格图像进行文字检测获得每个文字检测框的位置信息,基于文字检测框的位置信息进行初步分行,得到初步分行结果。
[0018]实施例中,对表格图像进行文字检测获得每个文字检测框的位置信息,其中,位置信息可以用外接(旋转)矩形box
i
(x,y,w,h,a)表示,x为左上角点的横坐标,y为左上角的纵坐标,w为框的宽度,h为框的高度,a为旋转角度,如果为正框,旋转角度为0。
[0019]实施例中,基于文字检测框的位置信息进行初步分行,包括:对所有文字检测框按照横坐标大小进行排序列表,遍历排序列表,对遍历的当前文本检测框进行与已有初步分行列表的匹配判断,若能够匹配,则将当前文本检测框存入匹配的已有初步分行列表中,若不能匹配,为当前文本检测框生成新初步分行列表并存入。
[0020]其中,对遍历的当前文本检测框进行与已有初步分行列表的匹配判断,包括:基于两文本检测框的相对位置判断当前文本检测框与已有初步分行列表中最后一个文本检测框是否属于同一行,若是,将最后一个文本检测框所在的初步已有分行列表作为当前文本检测框作为候选分行列表;在当前文本检测框对应的候选分行列表为一个时,则认为该候选分行列表即为当前文本检测框匹配的已有初步分行列表;在当前文本检测框对应的候选分行列表为多个时,则从中选择一个最近相对位置对应的候选分行列表作为当前文本检测框匹配的已有初步分行列表。
[0021]实施例中,基于两文本检测框的相对位置判断,包括:当两个文本检测框的横坐标方向有重叠,或者两个文本检测框的夹角大于阈值,则认为两个文本检测框不属于同一行,其余情况认为属于同一行;当两个文本检测框的夹角最小,或者角度变换最小则认为两个文本检测框的相对位置最小。
[0022]具体地,记初步分行结果为一个列表rows,初步分行列表rows本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文字检测的表格图像结构化信息提取与分析方法,其特征在于,包括以下步骤:对表格图像进行文字检测获得每个文字检测框的位置信息,基于文字检测框的位置信息进行初步分行,得到初步分行结果;从初步分行结果中选择多个参考行并构建参考行组,根据参考行组对初步分行进行重新分行,得到重新分行结果;依据重新分行结果确定列类型,并按照列类型进行分组分列。2.根据权利要求1所述的基于文字检测的表格图像结构化信息提取与分析方法,其特征在于,所述基于文字检测框的位置信息进行初步分行,包括:对所有文字检测框按照横坐标大小进行排序列表,遍历排序列表,对遍历的当前文本检测框进行与已有初步分行列表的匹配判断,若能够匹配,则将当前文本检测框存入匹配的已有初步分行列表中,若不能匹配,为当前文本检测框生成新初步分行列表并存入。3.根据权利要求2所述的基于文字检测的表格图像结构化信息提取与分析方法,其特征在于,所述对遍历的当前文本检测框进行与已有初步分行列表的匹配判断,包括:基于两文本检测框的相对位置判断当前文本检测框与已有初步分行列表中最后一个文本检测框是否属于同一行,若是,将最后一个文本检测框所在的初步已有分行列表作为当前文本检测框作为候选分行列表;在当前文本检测框对应的候选分行列表为一个时,则认为该候选分行列表即为当前文本检测框匹配的已有初步分行列表;在当前文本检测框对应的候选分行列表为多个时,则从中选择一个最近相对位置对应的候选分行列表作为当前文本检测框匹配的已有初步分行列表。4.根据权利要求3所述的基于文字检测的表格图像结构化信息提取与分析方法,其特征在于,基于两文本检测框的相对位置判断,包括:当两个文本检测框的横坐标方向有重叠,或者两个文本检测框的夹角大于阈值,则认为两个文本检测框不属于同一行,其余情况认为属于同一行;当两个文本检测框的夹角最小,或者角度变换最小则认为两个文本检测框的相对位置最小。5.根据权利要求1所述的基于文字检测的表格图像结构化信息提取与分析方法,其特征在于,从初步分行结果中选择多个参考行并构建参考行组,包括:依据初步分行列表中文字检测框的数量达到阈值,且文字检测框之间的夹角过渡平滑这一条件从初步分行结果中选择参考行添加到参考行组;如果初步分行结果中某个行与参考行在横坐标上的覆盖范围差距小于设定范围阈值,且行内每个文本检测框与参考行内最近的文本检测框距离均小于设定距离阈值,则将该行作为参考行添加到参考行组。6.根...

【专利技术属性】
技术研发人员:谭谞
申请(专利权)人:杭州米数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1