无线表格的结构还原方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:36406341 阅读:18 留言:0更新日期:2023-01-18 10:15
本发明专利技术提供的无线表格的结构还原方法、装置、计算机设备及存储介质,获取待还原表格内的文本块以及文本块的位置信息,在绘制列线的过程中,将文本块全部投影到水平坐标轴上,基于每个投影区间内文本块个数,确定待还原表格中列线的画线区间,并在每个画线区间内绘制列线;将每一列内的文本块进行聚合得到多个文本块簇,并以文本块簇最多的列为基准列,在基准列内多个文本块簇之间绘制横线,至此完成无线表格内缺失的线条的还原,整个结构还原过程充分使用了文档中原有的文字、线条等高质量信息,最大程度保证还原质量,使用成本相比深度学习模型也低很多。学习模型也低很多。学习模型也低很多。

【技术实现步骤摘要】
无线表格的结构还原方法、装置、计算机设备及存储介质


[0001]本专利技术涉及计算机
,具体而言,涉及一种无线表格的结构还原方法、装置、计算机设备及存储介质。

技术介绍

[0002]表格是一种重要的组织整理数据的手段,人们的通讯交流、科研活动、数据分析等各类活动都会通过表格传递关键信息。
[0003]目前,随着用户需求的更新,没有线条信息的表格(简称无线表)也越来越多的出现,尤其是作为广泛使用的便携式文档PDF文件中,这些无线表格缺失了最关键的线条信息,不利于进行信息提取、排版显示等,因此通过技术手段还原表格结构有着重要的意义。
[0004]当前传统的还原方式准确率较低且计算复杂度较高,如何提供一种简单有效的无线表格的结构还原方法,是需要解决的技术问题。

技术实现思路

[0005]本专利技术的目的之一在于提供一种无线表格的结构还原方法、装置、计算机设备及存储介质,能够有效解决单元格合并、长文本换行等问题,快速准确还原表格结构,本专利技术的实施例可以这样实现:第一方面,本专利技术提供一种无线表格的结构还原方法,所述方法包括:获取待还原表格内的文本块以及所述文本块的位置信息;将全部所述文本块投影到水平坐标轴,基于每个投影区间内文本块个数,确定所述待还原表格中列线的画线区间,并在每个所述画线区间内绘制列线;将每一列内的所述文本块进行聚合得到多个文本块簇,并以文本块簇最多的列为基准列,在所述基准列内多个所述文本块簇之间绘制横线。
[0006]第二方面,本专利技术提供一种无线表格的结构还原装置,包括获取模块和还原模块,获取模块用于获取待还原表格内的文本块以及所述文本块的位置信息;还原模块用于将全部所述文本块投影到水平坐标轴,基于每个投影区间内文本块个数,确定所述待还原表格中列线的画线区间,并在每个所述画线区间内绘制列线;将每一列内的所述文本块进行聚合得到多个文本块簇,并以文本块簇最多的列为基准列,在所述基准列内多个所述文本块簇之间绘制横线。
[0007]第三方面,本专利技术提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现第一方面所述的方法。
[0008]第四方面,本专利技术提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
[0009]本专利技术提供的无线表格的结构还原方法、装置、计算机设备及存储介质,首先获取待还原表格内的文本块以及所述文本块的位置信息,在绘制列线的过程中,将文本块全部投影到水平坐标轴上,然后基于每个投影区间内文本块个数,确定待还原表格中列线的画
线区间,并在每个画线区间内绘制列线,此时已经确定了无线表格内的每一列以及每一列内的文本块,然后在绘制横线的过程中,将每一列内的文本块进行聚合得到多个文本块簇,并以文本块簇最多的列为基准列,在基准列内多个文本块簇之间绘制横线,至此完成无线表格内缺失的线条的还原,整个结构还原过程充分使用了文档中原有的文字、线条等高质量信息,最大程度保证还原质量,使用成本相比深度学习模型也低很多。
附图说明
[0010]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0011]图1为本申请实施例提供的一种应用场景示意图;图2示出了一张文档中的部分内容示例图;图3为传统的无线表格结构还原效果图;图4为传统的无线表格结构还原的另一种效果图;图5为本专利技术实施例提供的无线表格的结构还原方法的示意性流程图;图6为本专利技术实施例提供的无线表格的结构还原效果图;图7为本专利技术实施例提供的一种文本块投影示意图;图8为本专利技术实施例提供的步骤S202的示意性流程图;图9为本专利技术实施例针对图2中的待还原表格内文本块进行投影得到的文本块个数统计图;图10为本专利技术实施例针对图2中的待还原表格内文本块进行投影提供另一种文本块个数统计图;图11为本专利技术实施例提供的步骤S202的另一种示意性流程图;图12为本专利技术实施例提供的步骤S203的示意性流程图;图13为本专利技术实施例提供的一种基于凝聚式层次聚类的示意图;图14为簇数量随着合并阈值的变化曲线图;图15为本专利技术实施例提供的横线结构还原效果图;图16为本专利技术实施例提供的无线表格的结构装置的功能模块图;图17为本专利技术实施例提供的计算机设备的结构框图。
具体实施方式
[0012]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0013]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范
围。
[0014]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0015]在本专利技术的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该专利技术产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0016]此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0017]需要说明的是,在不冲突的情况下,本专利技术的实施例中的特征可以相互结合。
[0018]请参见图1,图1为本申请实施例提供的一种应用场景示意图,该场景包括:用户10、终端设备11和服务器12。其中,终端设备11中可安装有各种客户端。终端设备11的客户端和服务器12之间通过通信网络建立通信连接后,终端设备11的客户端可以将电子文档例如PDF文件发送给服务器12,由服务器12进行表格检测与结构还原,再将结构还原后的结果发送给终端设备11的客户端。
[0019]其中,终端设备11可以但不限于是扫描仪、数码相机、各种具有图像转换功能的个人计算机、笔记本电脑、智能手机、平板电脑等计算机设备。
[0020]服务器12可以用独立的服务器或者是多个服务器组成的服务器集群或者分布式系统来实现,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无线表格的结构还原方法,其特征在于,所述方法包括:获取待还原表格内的文本块以及所述文本块的位置信息;将全部所述文本块投影到水平坐标轴,基于每个投影区间内文本块个数,确定所述待还原表格中列线的画线区间,并在每个所述画线区间内绘制列线;将每一列内的所述文本块进行聚合得到多个文本块簇,并以文本块簇最多的列为基准列,在所述基准列内多个所述文本块簇之间绘制横线。2.根据权利要求1所述的方法,其特征在于,将全部所述文本块投影到水平坐标轴,基于每个投影区间内文本块个数,确定所述待还原表格中列线的画线区间,并在每个所述画线区间内绘制列线,包括:统计每个所述投影区间内的文本块个数,并按照所述文本块个数在所述水平坐标轴上的连续性,确定多个文本块堆;其中,所述文本块堆包含至少一个所述投影区间对应的文本块;若相邻两个所述文本块堆之间的区间的宽度大于或等于预设宽度,则将所述区间确定为所述画线区间;若所述宽度小于所述预设宽度,则基于所述相邻两个所述文本块堆内的文字对齐方式,对所述区间的宽度进行调整;在每个所述画线区间内绘制列线。3.根据权利要求2所述的方法,其特征在于,在若相邻两个所述文本块堆之间的区间的宽度大于或等于预设宽度,则将所述区间确定为所述画线区间之前,所述方法还包括:针对每个所述文本块堆,若所述投影区间对应的文本块个数的变化趋势满足预设变化趋势,则在所述文本块堆中最小文本块个数对应投影区间的边界处,将所述文本块堆进行切分,得到两个所述文本块堆;其中,所述预设变化趋势为:所述文本块个数大于最大文本块个数阈值后小于最小文本块个数阈值。4.根据权利要求2所述的方法,其特征在于,若所述宽度小于所述预设宽度,则基于所述相邻两个所述文本块堆的对齐方式,对所述区间的宽度进行调整,包括:若所述区间的左文本块堆的所述文字对齐方式为右对齐,则将所述区间的左边界延伸至所述左文本块堆内最大文本块个数的投影区间的右边界处;若所述区间的右文本块堆的所述文字对齐方式为左对齐,则将所述区间的右边界延伸至所述右文本块堆内最大文本块个数的投影区间的左边界处。5.根据权利要求2所述的方法,其特征在于,在每个...

【专利技术属性】
技术研发人员:李晓平顾文斌孙勇彭敬伟杨祎聪
申请(专利权)人:上海恒生聚源数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1