表格提取方法、装置及计算机设备制造方法及图纸

技术编号:35923371 阅读:12 留言:0更新日期:2022-12-10 11:10
本发明专利技术公开了一种表格提取方法、装置及计算机设备。其中,方法包括:获取目标无线表格的第一表格图片,其中,第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;基于光学字符识别方法提取多个第一字符段的坐标,其中,多个第一字符段的坐标包括多个第一字符段的中心点坐标;根据多个第一字符段的中心点坐标,分别对多个第一字符段进行行和列的聚类,得到多个第一字符段的行信息和列信息,解决了在相关技术中,存在无法准确提取表格图像中的表格内容的技术问题。的技术问题。的技术问题。

【技术实现步骤摘要】
表格提取方法、装置及计算机设备


[0001]本专利技术涉及文本处理领域,具体而言,涉及一种表格提取方法、装置及计算机设备。

技术介绍

[0002]在一些应用领域中,需要对例如PDF、图片等格式文本中的表格内容进行提取。
[0003]在相关技术中,通过提取表格图像中的文本信息以及单元格的单元格信息,根据单元格信息生成与表格区域对应的表格结构,根据表格结构将文本信息与单元格相融合,得到表格。这种方法虽然可以进行表格提取,但存在准确率低的问题,并且这种方法也不能用于无线表格的提取。即,在相关技术中,存在无法准确提取表格图像中的表格内容的技术问题。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种表格提取方法、装置及计算机设备,以至少解决在相关技术中,存在无法准确提取表格图像中的表格内容的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种表格提取方法,包括:获取目标无线表格的第一表格图片,其中,所述第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;基于光学字符识别方法提取所述多个第一字符段的坐标,其中,所述多个第一字符段的坐标包括所述多个第一字符段的中心点坐标;根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息。
[0007]可选地,所述根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息,包括:获取所述多个第一字符段的中心点横坐标和纵坐标;根据所述多个第一字符段的中心点横坐标和第二预定距离阈值,对所述多个第一字符段进行聚类,得到所述多个第一字符段的列信息;根据所述多个第一字符段的中心点纵坐标和第三预定距离阈值,对所述多个第一字符段进行聚类,得到所述多个第一字符段的行信息。
[0008]可选地,还包括:获取目标有线表格的第二表格图片,其中,所述第二表格图片包括多个第二字符段,同一个第二字符段中相邻字符之间的距离小于第四预定距离阈值,所述第二表格图片包括多条目标行线和多条目标列线,所述多条目标行线和所述多条目标列线用于将所述目标有线表格划分为多个网格;分别获取所述多个第二字符段的坐标,以及分别获取所述多个网格的多个顶点坐标;根据所述多个第二字符段的坐标和所述多个网格的多个顶点坐标,分别确定所述多个第二字符段与所述多个网格的对应关系。
[0009]可选地,所述根据所述多个第二字符段的坐标和所述多个网格的多个顶点坐标,分别确定所述多个第二字符段与所述多个网格的对应关系,包括:针对所述多个第二字符
段中的第二字符段:根据第二字符段的坐标和所述多个网格的多个顶点的坐标,分别计算所述第二字符段在所述第二表格图片中的区域与所述多个网格在所述第二表格图片中的区域的交并比IOU,根据所述交并比IOU和预定交并比阈值,确定在所述多个网格中与所述第二字符段对应的目标网格;根据分别与所述多个第二字符段对应的目标网格,分别确定所述多个第二字符段与所述多个网格的对应关系。
[0010]可选地,所述根据所述第二字符段在所述第二表格图片中的区域与所述多个网格在所述第二表格图片中的区域的多个交并比IOU和预定交并比阈值,确定在所述多个网格中与所述第二字符段对应的目标网格,包括:比对所述多个交并比IOU和所述预定交并比阈值,得到所述多个交并比IOU中大于所述预定交并比阈值的目标交并比IOU;根据所述目标交并比IOU,确定在所述多个网格中与所述第二字符段对应的目标网格。
[0011]可选地,还包括:分别获取所述目标有线表格中所述多条行线和所述多条列线的坐标;确定所述多条行线中纵坐标最大或纵坐标最小的行线为目标行线,以所述目标行线为起始行线,依次比对所述多条行线中各相邻行线之间的行间距,在所述行间距小于预定行间距的情况下,确定与所述行间距对应的两条行线中与所述目标行线的纵坐标差值较大的行线为干扰行线;根据所述多条行线中除所述干扰行线外的多条行线,获取所述多条目标行线;确定所述多条列线中横坐标最大或横坐标最小的列线为目标列线,以所述目标列线为起始列线,依次比对所述多条列线中各相邻列线之间的列间距,在所述列间距小于预定列间距的情况下,确定与所述列间距对应的两条列线中与所述目标列线的横坐标差值较大的列线为干扰列线;根据所述多条列线中除所述干扰列线外的多条列线,获取所述多条目标列线。
[0012]可选地,还包括:获取初始表格的初始表格图片;获取所述初始表格图片中的行线和列线的数量;在所述初始表格图片中的行线的数量少于第一预定数量,和/或,所述初始表格图片中列线的数量小于第二预定数量的情况下,确定所述初始表格图片中的初始表格为所述目标无线表格;在所述初始表格图片中的行线的数量大于第一预定数量,并且所述初始表格图片中列线的数量大于第二预定数量的情况下,确定所述初始表格图片中的初始表格为所述目标有线表格。
[0013]可选地,获取初始表格的初始表格图片,包括:确定目标文本,所述目标文本包括以下之一:目标PDF文本、目标图片文本;确定所述目标文本中的初始表格所处区域;根据所述初始表格所处区域,获取所述初始表格的初始表格图片。
[0014]根据本专利技术实施例的另一方面,还提供了一种表格提取装置,包括:第一获取模块,用于获取目标无线表格的第一表格图片,其中,所述第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;第二获取模块,用于基于光学字符识别方法提取所述多个第一字符段的坐标,其中,所述多个第一字符段的坐标包括所述多个第一字符段的中心点坐标;第三获取模块,用于根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息。
[0015]根据本专利技术实施例的另一方面,还提供了一种计算机设备,包括:存储器和处理器,所述存储器存储有计算机程序;所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行上述任意一项所述的方法。
[0016]在本专利技术实施例中,通过获取目标无线表格的第一表格图片,其中,所述第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;基于光学字符识别方法提取所述多个第一字符段的坐标,其中,所述多个第一字符段的坐标包括所述多个第一字符段的中心点坐标;根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息,解决了在相关技术中,存在无法准确提取表格图像中的表格内容的技术问题。
附图说明
[0017]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0018]图1是根据本专利技术实施例的一种可选的表格提取方法的流程图;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格提取方法,其特征在于,包括:获取目标无线表格的第一表格图片,其中,所述第一表格图片包括多个第一字符段,同一个第一字符段中相邻字符之间的距离小于第一预定距离阈值;基于光学字符识别方法提取所述多个第一字符段的坐标,其中,所述多个第一字符段的坐标包括所述多个第一字符段的中心点坐标;根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一字符段的中心点坐标,分别对所述多个第一字符段进行行和列的聚类,得到所述多个第一字符段的行信息和列信息,包括:获取所述多个第一字符段的中心点横坐标和纵坐标;根据所述多个第一字符段的中心点横坐标和第二预定距离阈值,对所述多个第一字符段进行聚类,得到所述多个第一字符段的列信息;根据所述多个第一字符段的中心点纵坐标和第三预定距离阈值,对所述多个第一字符段进行聚类,得到所述多个第一字符段的行信息。3.根据权利要求1所述的方法,其特征在于,还包括:获取目标有线表格的第二表格图片,其中,所述第二表格图片包括多个第二字符段,同一个第二字符段中相邻字符之间的距离小于第四预定距离阈值,所述第二表格图片包括多条目标行线和多条目标列线,所述多条目标行线和所述多条目标列线用于将所述目标有线表格划分为多个网格;分别获取所述多个第二字符段的坐标,以及分别获取所述多个网格的多个顶点坐标;根据所述多个第二字符段的坐标和所述多个网格的多个顶点坐标,分别确定所述多个第二字符段与所述多个网格的对应关系。4.根据权利要求3所述的方法,其特征在于,所述根据所述多个第二字符段的坐标和所述多个网格的多个顶点坐标,分别确定所述多个第二字符段与所述多个网格的对应关系,包括:针对所述多个第二字符段中的第二字符段:根据第二字符段的坐标和所述多个网格的多个顶点的坐标,分别计算所述第二字符段在所述第二表格图片中的区域与所述多个网格在所述第二表格图片中的区域的交并比IOU,根据所述交并比IOU和预定交并比阈值,确定在所述多个网格中与所述第二字符段对应的目标网格;根据分别与所述多个第二字符段对应的目标网格,分别确定所述多个第二字符段与所述多个网格的对应关系。5.根据权利要求4所述的方法,其特征在于,所述根据所述第二字符段在所述第二表格图片中的区域与所述多个网格在所述第二表格图片中的区域的多个交并比IOU和预定交并比阈值,确定在所述多个网格中与所述第二字符段对应的目标网格,包括:比对所述多个交并比IOU和所述预定交并比阈值,得到所述多个交并比IOU中大于所述预定交并比阈值的目标交并比...

【专利技术属性】
技术研发人员:赵博文苏文超
申请(专利权)人:南京燧坤智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1