基于文字检测的表格图像结构化信息提取与分析方法和装置制造方法及图纸

技术编号：38849162 阅读：18 留言：0更新日期：2023-09-17 09:58

本发明专利技术公开了一种基于文字检测的表格图像结构化信息提取与分析方法和装置，包括：对表格图像进行文字检测获得每个文字检测框的位置信息，基于文字检测框的位置信息进行初步分行，得到初步分行结果；从初步分行结果中选择多个参考行并构建参考行组，根据参考行组对初步分行进行重新分行，得到重新分行结果；依据重新分行结果确定列类型，并按照列类型进行分组分列。该方法和装置基于文本检测框的位置信息获得表格的行列信息进而实现结构化信息的提取和分析，该方法和装置无需人工标注，计算量小，无需额外的硬件资源。无需额外的硬件资源。无需额外的硬件资源。

全部详细技术资料下载

【技术实现步骤摘要】
基于文字检测的表格图像结构化信息提取与分析方法和装置

[0001]本专利技术属于结构化信息提取
，具体涉及一种基于文字检测的表格图像结构化信息提取与分析方法和装置。

技术介绍

[0002]表格图像结构化信息提取与分析的应用场景广泛，比如将纸质文件、电子文档或网页中的表格转换为可编辑的电子格式，方便数据的存储、查询和分析。也可以用于从复杂的表格中提取关键信息，支持决策和知识发现。
[0003]通常，表格图像结构化信息提取与分析包括两个子任务：表格检测和表格结构识别。表格检测是指在文档图像中定位表格的区域，表格结构识别是指从表格图像中还原表格的行列信息，以及每个单元格的坐标位置和内容。目前，已经有一些基于深度学习的方法被提出，比如基于图卷积神经网络(Graph Convolutional Network，GCN)的GFTE方法，基于全卷积神经网络(Fully Convolutional Networks，FCN)和条件生成式对抗网络(Conditional Generative Adversarial Networks，CGAN)的TIES方法，基于Transformer的TSRFormer方法等。这些方法都在一些公开的数据集上进行了实验，并取得了一定的效果。但是，仍然存在一些问题和挑战，比如数据集的规模、质量等。通常，这种方法需要事先收集大量的数据集，给予标注，这花费了大量的人力资源。此外，这种方法通常需要大量的计算资源。
[0004]公布号为CN112883795A的专利文献公开了一种基于深度神...

【技术保护点】

【技术特征摘要】
1.一种基于文字检测的表格图像结构化信息提取与分析方法，其特征在于，包括以下步骤：对表格图像进行文字检测获得每个文字检测框的位置信息，基于文字检测框的位置信息进行初步分行，得到初步分行结果；从初步分行结果中选择多个参考行并构建参考行组，根据参考行组对初步分行进行重新分行，得到重新分行结果；依据重新分行结果确定列类型，并按照列类型进行分组分列。2.根据权利要求1所述的基于文字检测的表格图像结构化信息提取与分析方法，其特征在于，所述基于文字检测框的位置信息进行初步分行，包括：对所有文字检测框按照横坐标大小进行排序列表，遍历排序列表，对遍历的当前文本检测框进行与已有初步分行列表的匹配判断，若能够匹配，则将当前文本检测框存入匹配的已有初步分行列表中，若不能匹配，为当前文本检测框生成新初步分行列表并存入。3.根据权利要求2所述的基于文字检测的表格图像结构化信息提取与分析方法，其特征在于，所述对遍历的当前文本检测框进行与已有初步分行列表的匹配判断，包括：基于两文本检测框的相对位置判断当前文本检测框与已有初步分行列表中最后一个文本检测框是否属于同一行，若是，将最后一个文本检测框所在的初步已有分行列表作为当前文本检测框作为候选分行列表；在当前文本检测框对应的候选分行列表为一个时，则认为该候选分行列表即为当前文本检测框匹配的已有初步分行列表；在当前文本检测框对应的候选分行列表为多个时，则从中选择一个最近相对位置对应的候选分行列表作为当前文本检测框匹配的已有初步分行列表。4.根据权利要求3所述的基于文字检测的表格图像结构化信息提取与分析方法，其特征在于，基于两文本检测框的相对位置判断，包括：当两个文本检测框的横坐标方向有重叠，或者两个文本检测框的夹角大于阈值，则认为两个文本检测框不属于同一行，其余情况认为属于同一行；当两个文本检测框的夹角最小，或者角度变换最小则认为两个文本检测框的相对位置最小。5.根据权利要求1所述的基于文字检测的表格图像结构化信息提取与分析方法，其特征在于，从初步分行结果中选择多个参考行并构建参考行组，包括：依据初步分行列表中文字检测框的数量达到阈值，且文字检测框之间的夹角过渡平滑这一条件从初步分行结果中选择参考行添加到参考行组；如果初步分行结果中某个行与参考行在横坐标上的覆盖范围差距小于设定范围阈值，且行内每个文本检测框与参考行内最近的文本检测框距离均小于设定距离阈值，则将该行作为参考行添加到参考行组。6.根...

【专利技术属性】
技术研发人员：谭谞，
申请(专利权)人：杭州米数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人