一种面向PDF文档的表格数据抽取方法及装置制造方法及图纸

技术编号：40234368 阅读：3 留言：0更新日期：2024-02-02 22:35

本说明书实施例提供一种面向PDF文档的表格数据抽取方法及装置，在抽取方法中，在从PDF文档中解析得到初始表格之后，先针对该初始表格所在页对应的文本列表进行切分，得到文本二维列表。之后，基于该初始表格的行列数和文本二维列表的列数，确定该初始表格的表格类别。最后，基于确定的表格类别和上述的文本列表，对该初始表格进行重构，得到重构表格作为从PDF文档中抽取的表格数据。由此可以大大提升表格数据的抽取效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书一个或多个实施例涉及计算机，尤其涉及一种面向pdf文档的表格数据抽取方法及装置。

技术介绍

1、多数情况下，多源异构多维度供应链数据包含了丰富的有价值信息，对于指导企业的经营管理、决策支持以及商业模式创新等方面具有重要意义。其中，可移植文档格式(portable document format, pdf)作为一种广泛应用的非结构化数据形式，在跨平台性、高保真度和安全性等方面具有显著优势，因此在各类文档的制作和传播中被广泛采用。特别是在企业应用领域，pdf文档是企业内部沟通以及外部交流的重要载体，例如招股说明书、上市公司定期报告（包括年报、半年报和季度报等）、合同协议、产品说明书等。这些pdf文档中蕴含了大量的企业信息，如经营状况、财务指标、市场竞争力、产品特性等，对于企业自身及其利益相关者都具有重要价值。然而，由于pdf文档通常是不可编辑的，且包含表格、图片及文本等多种非结构化数据，因此从中有效地抽取数据变得繁杂且耗时。目前，从pdf文档中抽取数据的方法主要包括人工摘取录入、pdf转换器、开源工具及智能算法等，然而这些方法都存在一定的局限和不足。具体如下：

2、（1）数据复杂问题。pdf文档通常由表格、图片及文本等具有复杂性及多样性特点的非结构化数据组成，常见的数据转换方法/工具效率低、成本高且未能提供可视分析功能，操作不便捷、可用性受限。

3、（2）数据质量问题。由于人为主观判断、疏忽或疲劳等多种因素，采用手工方式抽取pdf文档非结构化数据容易发生遗漏、错误，甚至忽略某些重要的数据信息，可能会对后续分析应用产生负面影响。

4、（3）数据完整问题。采用自动化工具从pdf文档中抽取数据时，往往只能抽取一些常规的财务指标数据，而忽略了那些对数据分析具有极高价值的财务附注、图片及文本等信息，影响数据完整性及分析精准性。

5、（4）数据对比问题。采用手工方式从pdf文档抽取的结构化数据通常存储在excel或word文档表格中，未来需要进行同比、环比以及本年累计等指标的统计分析时，无法实现历史数据的快速检索及调用。

6、（5）数据融合问题。采用传统的数据抽取方法/工具从pdf文档中提取的结构化数据，通常难以按业务主题进行合理归纳、分类存储，数据可用性不强，由此带来了数据融合方面的挑战。

7、为了有效解决上述问题，需要提供一种更有效的面向pdf文档的数据抽取方法。

技术实现思路

1、本说明书一个或多个实施例描述了一种面向pdf文档的表格数据抽取方法及装置，可以大大提升表格数据的抽取效率和准确性。

2、第一方面，提供了一种面向pdf文档的表格数据抽取方法，包括：

3、对pdf文档进行解析，得到其中包含的初始表格和多页文本内容；

4、将所述多页文本内容转换为对应的各个文本列表，单个文本列表包括多行文本；

5、从所述各个文本列表中，选取所述初始表格所在页对应的目标文本列表；

6、按照预设符号，对所述目标文本列表进行切分，得到文本二维列表；

7、根据所述初始表格的第一行数和第一列数，以及所述文本二维列表的第二列数，确定所述初始表格的表格类别；

8、所述确定所述初始表格的表格类别包括，若所述第一行数小于预设行数，且所述第一列数和所述第二列数相等，则确定所述表格类别为三线表；若所述第二列数与所述第一列数的差值等于预设列数，则确定所述表格类别为边框缺失表；若所述第二列数与所述第一列数的差值大于预设列数，则确定所述表格类别为颜色阶梯表；

9、根据确定的表格类别，对所述初始表格进行重构，得到重构表格；

10、将所述重构表格确定为从所述pdf文档中抽取的表格数据。

11、第二方面，提供了一种面向pdf文档的表格数据抽取装置，包括：

12、解析单元，用于对pdf文档进行解析，得到其中包含的初始表格和多页文本内容；

13、转换单元，用于将所述多页文本内容转换为对应的各个文本列表，单个文本列表包括多行文本；

14、选取单元，用于从所述各个文本列表中，选取所述初始表格所在页对应的目标文本列表；

15、切分单元，用于按照预设符号，对所述目标文本列表进行切分，得到文本二维列表；

16、确定单元，用于根据所述初始表格的第一行数和第一列数，以及所述文本二维列表的第二列数，确定所述初始表格的表格类别；

17、所述确定单元具体用于：若所述第一行数小于预设行数，且所述第一列数和所述第二列数相等，则确定所述表格类别为三线表；若所述第二列数与所述第一列数的差值等于预设列数，则确定所述表格类别为边框缺失表；若所述第二列数与所述第一列数的差值大于预设列数，则确定所述表格类别为颜色阶梯表；

18、重构单元，用于根据确定的表格类别，对所述初始表格进行重构，得到重构表格；

19、所述确定单元，还用于将所述重构表格确定为从所述pdf文档中抽取的表格数据。

20、本说明书一个或多个实施例提供的一种面向pdf文档的表格数据抽取方法及装置，在从pdf文档中解析得到初始表格之后，先针对该初始表格所在页对应的文本列表进行切分，得到文本二维列表。之后，基于该初始表格的行列数和文本二维列表的列数，确定该初始表格的表格类别。最后，基于确定的表格类别和上述的文本列表，对该初始表格进行重构，得到重构表格作为从pdf文档中抽取的表格数据。由此可以大大提升表格数据的抽取效率和准确性。

本文档来自技高网...

【技术保护点】

1.一种面向PDF文档的表格数据抽取方法，包括：

2.根据权利要求1所述的方法，其中，所述重构表格的数目为两个，且该两个重构表格包括，位于上一页面的第一重构表格和位于下一页面的第二重构表格；所述方法还包括：

3.根据权利要求2所述的方法，还包括：

4.根据权利要求3所述的方法，其中，所述两个部分包括第一拆分表格和第二拆分表格；

5.根据权利要求1所述的方法，其中，所述对所述初始表格进行重构，包括：

6.根据权利要求1所述的方法，还包括：

7.根据权利要求6所述的方法，其中，所述确定所述表格主题信息所在区域，包括：

8.根据权利要求1所述的方法，其中，所述将所述多页文本内容转换为多个文本列表，包括：

9.一种可视化分析系统，包括：

10.一种面向PDF文档的表格数据抽取装置，包括：

【技术特征摘要】

1.一种面向pdf文档的表格数据抽取方法，包括：

3.根据权利要求2所述的方法，还包括：

4.根据权利要求3所述的方法，其中，所述两个部分包括第一拆分表格和第二拆分表格；

5.根据权利要求1所...

【专利技术属性】
技术研发人员：朱海洋，陈为，储诚灿，胡健，谈旭炜，应石磊，苏轶，王牡丹，潘奇豪，朱凌军，沈萍平，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人