智能标注PDF文件中表格的方法、装置及电子设备制造方法及图纸

技术编号:34834605 阅读:17 留言:0更新日期:2022-09-08 07:28
本发明专利技术提供一种智能标注PDF文件中表格的方法、装置及电子设备,通过获取待处理文件,并基于待处理文件得到目标表格数据,待处理文件的文件格式为PDF,待处理文件包括目标表格,基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据,基于结构化表格数据以及预先获取的已标注标签数据,标注目标表格。通过上述方式,可以自动识别目标表格数据,并基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据,进而可以基于结构化表格数据以及预先获取的已标注标签数据,完成对目标表格的智能标注,能够提高标注PDF文件中表格的效率以及提高标注PDF文件中表格的准确率。表格的准确率。表格的准确率。

【技术实现步骤摘要】
智能标注PDF文件中表格的方法、装置及电子设备


[0001]本专利技术涉及计算机软件
,尤其涉及一种智能标注PDF文件中表格的方法、装置及电子设备。

技术介绍

[0002]在当今大数据时代,信息具有重要价值,智能抽取信息,并将信息进行结构化是一个重要的技术方向。
[0003]PDF(Portable Document Format,可携带文档格式)是文本数据的一种常见格式,PDF文件中往往包含许多表格。表格数据结构复杂,包含普通表格、合并单元格表格、表格嵌套表格等多种类型。在许多场景中,我们需要将PDF文件中的表格摘录出来并且按照其原始数据格式结构化,且保证提取出信息的准确性。目前解决该问题的方法主要是人工手动标注。
[0004]目前人工手动进行表格标注的过程中,标注人员需要先确定PDF文件中所包括的目标表格,然后用鼠标选取目标表格中的一个单元格,进行打标签操作。目标表格中的每个单元格都需重复执行该操作,直至全部单元格标注完成。
[0005]可见,人工手动标注表格的方式存在标注效率低、成本高、容易出现标注边界或标注类型错误等问题,因此,如何快速且准确率高地标注PDF文件中的表格的问题是目前业界亟待解决的重要课题。

技术实现思路

[0006]本专利技术提供一种智能标注PDF文件中表格的方法、装置及电子设备,用以解决现有技术中人工手动标注表格存在的标注效率低、成本高、错误率高的缺陷,实现快速且准确率高地标注PDF文件中的表格。
[0007]本专利技术提供的一种智能标注PDF文件中表格的方法,所述方法包括:获取待处理文件,并基于所述待处理文件得到目标表格数据,其中,所述待处理文件的文件格式为PDF,所述待处理文件包括目标表格;基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据;基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格。
[0008]可选的,所述结构化表格数据包括不同结构信息对应的数据,所述已标注标签数据为基于所述目标表格,预先标注标签的数据;所述基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格的步骤,包括:基于所述结构化表格数据,获取所述已标注标签数据对应的结构信息,作为当前结构信息;基于所述当前结构信息,以及所述结构化表格数据,确定结构信息与所述当前结
构信息一致的数据,作为当前数据,其中,所述当前数据为所述目标表格中未标注的数据;将所述已标注标签数据对应的标签,作为所述当前数据的标签。
[0009]可选的,在所述基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据的步骤之前,所述方法还包括:将所述目标表格数据输入至预先训练好的分类模型,得到所述目标表格数据对应的表格类型,其中,所述分类模型为基于样本表格数据预先训练得到的。
[0010]可选的,所述基于所述待处理文件得到目标表格数据的步骤,包括:解析所述待处理文件,获取具有层级结构的可编辑数据;识别所述具有层级结构的可编辑数据,得到目标表格数据。
[0011]可选的,在所述基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格的步骤之前,所述方法还包括:接收数据标注指令,并基于所述数据标注指令,获取标注的数据的标注信息,得到已标注标签数据。
[0012]可选的,所述基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据的步骤,包括:基于所述目标表格数据对应的表格类型,确定数据存储规则;基于所述目标表格数据以及所述数据存储规则,得到结构化表格数据。
[0013]本专利技术还提供一种智能标注PDF文件中表格的装置,所述装置包括:第一获取模块,用于获取待处理文件,并基于所述待处理文件得到目标表格数据,其中,所述待处理文件的文件格式为PDF,所述待处理文件包括目标表格;第二获取模块,用于基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据;标注模块,用于基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格。
[0014]可选的,所述结构化表格数据包括不同结构信息对应的数据,所述已标注标签数据为基于所述目标表格,预先标注标签的数据;所述标注模块包括:获取单元,用于基于所述结构化表格数据,获取所述已标注标签数据对应的结构信息,作为当前结构信息;第一确定单元,用于基于所述当前结构信息,以及所述结构化表格数据,确定结构信息与所述当前结构信息一致的数据,作为当前数据,其中,所述当前数据为所述目标表格中未标注的数据;第二确定单元,用于将所述已标注标签数据对应的标签,作为所述当前数据的标签。
[0015]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述智能标注PDF文件中表格的方法的步骤。
[0016]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述智能标注PDF文件中表格的方法的步骤。
[0017]本专利技术提供的智能标注PDF文件中表格的方法、装置及电子设备,通过获取待处理文件,并基于待处理文件得到目标表格数据,其中,待处理文件的文件格式为PDF,待处理文件包括目标表格,基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据,基于结构化表格数据以及预先获取的已标注标签数据,标注目标表格。通过上述方式,可以自动识别目标表格数据,并基于目标表格数据以及目标表格数据对应的表格类型,获取结构化表格数据,进而可以基于结构化表格数据以及预先获取的已标注标签数据,完成对目标表格的智能标注,相较于人工手动标注表格的方式,能够提高标注PDF文件中表格的效率以及提高标注PDF文件中表格的准确率。
附图说明
[0018]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术提供的智能标注PDF文件中表格的方法的流程示意图之一;图2是本专利技术提供的智能标注PDF文件中表格的方法的流程示意图之二;图3是本专利技术提供的智能标注PDF文件中表格的方法的流程示意图之三;图4是本专利技术提供的智能标注PDF文件中表格的方法的流程示意图之四;图5是本专利技术提供的智能标注PDF文件中表格的装置的结构示意图;图6是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0020]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能标注PDF文件中表格的方法,其特征在于,所述方法包括:获取待处理文件,并基于所述待处理文件得到目标表格数据,其中,所述待处理文件的文件格式为PDF,所述待处理文件包括目标表格;基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据;基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格。2.根据权利要求1所述的方法,其特征在于,所述结构化表格数据包括不同结构信息对应的数据,所述已标注标签数据为基于所述目标表格,预先标注标签的数据;所述基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格的步骤,包括:基于所述结构化表格数据,获取所述已标注标签数据对应的结构信息,作为当前结构信息;基于所述当前结构信息,以及所述结构化表格数据,确定结构信息与所述当前结构信息一致的数据,作为当前数据,其中,所述当前数据为所述目标表格中未标注的数据;将所述已标注标签数据对应的标签,作为所述当前数据的标签。3.根据权利要求1所述的方法,其特征在于,在所述基于所述目标表格数据以及所述目标表格数据对应的表格类型,获取结构化表格数据的步骤之前,所述方法还包括:将所述目标表格数据输入至预先训练好的分类模型,得到所述目标表格数据对应的表格类型,其中,所述分类模型为基于样本表格数据预先训练得到的。4.根据权利要求1

3任一项所述的方法,其特征在于,所述基于所述待处理文件得到目标表格数据的步骤,包括:解析所述待处理文件,获取具有层级结构的可编辑数据;识别所述具有层级结构的可编辑数据,得到目标表格数据。5.根据权利要求1

3任一项所述的方法,其特征在于,在所述基于所述结构化表格数据以及预先获取的已标注标签数据,标注所述目标表格的步骤之前,所述方法还包括:接收数据标注指令,并基于所述数据标注指令,获取标注的...

【专利技术属性】
技术研发人员:陈成帅徐亦先冯吉霞崔振李子健彭飞鹏张强鲍捷
申请(专利权)人:合肥图谱智能科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1