System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向PDF文档的表格数据抽取方法及装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>浙江大学专利>正文

一种面向PDF文档的表格数据抽取方法及装置制造方法及图纸

技术编号:40234368 阅读:3 留言:0更新日期:2024-02-02 22:35
本说明书实施例提供一种面向PDF文档的表格数据抽取方法及装置,在抽取方法中,在从PDF文档中解析得到初始表格之后,先针对该初始表格所在页对应的文本列表进行切分,得到文本二维列表。之后,基于该初始表格的行列数和文本二维列表的列数,确定该初始表格的表格类别。最后,基于确定的表格类别和上述的文本列表,对该初始表格进行重构,得到重构表格作为从PDF文档中抽取的表格数据。由此可以大大提升表格数据的抽取效率和准确性。

【技术实现步骤摘要】

本说明书一个或多个实施例涉及计算机,尤其涉及一种面向pdf文档的表格数据抽取方法及装置。


技术介绍

1、多数情况下,多源异构多维度供应链数据包含了丰富的有价值信息,对于指导企业的经营管理、决策支持以及商业模式创新等方面具有重要意义。其中,可移植文档格式(portable document format, pdf)作为一种广泛应用的非结构化数据形式,在跨平台性、高保真度和安全性等方面具有显著优势,因此在各类文档的制作和传播中被广泛采用。特别是在企业应用领域,pdf文档是企业内部沟通以及外部交流的重要载体,例如招股说明书、上市公司定期报告(包括年报、半年报和季度报等)、合同协议、产品说明书等。这些pdf文档中蕴含了大量的企业信息,如经营状况、财务指标、市场竞争力、产品特性等,对于企业自身及其利益相关者都具有重要价值。然而,由于pdf文档通常是不可编辑的,且包含表格、图片及文本等多种非结构化数据,因此从中有效地抽取数据变得繁杂且耗时。目前,从pdf文档中抽取数据的方法主要包括人工摘取录入、pdf转换器、开源工具及智能算法等,然而这些方法都存在一定的局限和不足。具体如下:

2、(1)数据复杂问题。pdf文档通常由表格、图片及文本等具有复杂性及多样性特点的非结构化数据组成,常见的数据转换方法/工具效率低、成本高且未能提供可视分析功能,操作不便捷、可用性受限。

3、(2)数据质量问题。由于人为主观判断、疏忽或疲劳等多种因素,采用手工方式抽取pdf文档非结构化数据容易发生遗漏、错误,甚至忽略某些重要的数据信息,可能会对后续分析应用产生负面影响。

4、(3)数据完整问题。采用自动化工具从pdf文档中抽取数据时,往往只能抽取一些常规的财务指标数据,而忽略了那些对数据分析具有极高价值的财务附注、图片及文本等信息,影响数据完整性及分析精准性。

5、(4)数据对比问题。采用手工方式从pdf文档抽取的结构化数据通常存储在excel或word文档表格中,未来需要进行同比、环比以及本年累计等指标的统计分析时,无法实现历史数据的快速检索及调用。

6、(5)数据融合问题。采用传统的数据抽取方法/工具从pdf文档中提取的结构化数据,通常难以按业务主题进行合理归纳、分类存储,数据可用性不强,由此带来了数据融合方面的挑战。

7、为了有效解决上述问题,需要提供一种更有效的面向pdf文档的数据抽取方法。


技术实现思路

1、本说明书一个或多个实施例描述了一种面向pdf文档的表格数据抽取方法及装置,可以大大提升表格数据的抽取效率和准确性。

2、第一方面,提供了一种面向pdf文档的表格数据抽取方法,包括:

3、对pdf文档进行解析,得到其中包含的初始表格和多页文本内容;

4、将所述多页文本内容转换为对应的各个文本列表,单个文本列表包括多行文本;

5、从所述各个文本列表中,选取所述初始表格所在页对应的目标文本列表;

6、按照预设符号,对所述目标文本列表进行切分,得到文本二维列表;

7、根据所述初始表格的第一行数和第一列数,以及所述文本二维列表的第二列数,确定所述初始表格的表格类别;

8、所述确定所述初始表格的表格类别包括,若所述第一行数小于预设行数,且所述第一列数和所述第二列数相等,则确定所述表格类别为三线表;若所述第二列数与所述第一列数的差值等于预设列数,则确定所述表格类别为边框缺失表;若所述第二列数与所述第一列数的差值大于预设列数,则确定所述表格类别为颜色阶梯表;

9、根据确定的表格类别,对所述初始表格进行重构,得到重构表格;

10、将所述重构表格确定为从所述pdf文档中抽取的表格数据。

11、第二方面,提供了一种面向pdf文档的表格数据抽取装置,包括:

12、解析单元,用于对pdf文档进行解析,得到其中包含的初始表格和多页文本内容;

13、转换单元,用于将所述多页文本内容转换为对应的各个文本列表,单个文本列表包括多行文本;

14、选取单元,用于从所述各个文本列表中,选取所述初始表格所在页对应的目标文本列表;

15、切分单元,用于按照预设符号,对所述目标文本列表进行切分,得到文本二维列表;

16、确定单元,用于根据所述初始表格的第一行数和第一列数,以及所述文本二维列表的第二列数,确定所述初始表格的表格类别;

17、所述确定单元具体用于:若所述第一行数小于预设行数,且所述第一列数和所述第二列数相等,则确定所述表格类别为三线表;若所述第二列数与所述第一列数的差值等于预设列数,则确定所述表格类别为边框缺失表;若所述第二列数与所述第一列数的差值大于预设列数,则确定所述表格类别为颜色阶梯表;

18、重构单元,用于根据确定的表格类别,对所述初始表格进行重构,得到重构表格;

19、所述确定单元,还用于将所述重构表格确定为从所述pdf文档中抽取的表格数据。

20、本说明书一个或多个实施例提供的一种面向pdf文档的表格数据抽取方法及装置,在从pdf文档中解析得到初始表格之后,先针对该初始表格所在页对应的文本列表进行切分,得到文本二维列表。之后,基于该初始表格的行列数和文本二维列表的列数,确定该初始表格的表格类别。最后,基于确定的表格类别和上述的文本列表,对该初始表格进行重构,得到重构表格作为从pdf文档中抽取的表格数据。由此可以大大提升表格数据的抽取效率和准确性。

本文档来自技高网...

【技术保护点】

1.一种面向PDF文档的表格数据抽取方法,包括:

2.根据权利要求1所述的方法,其中,所述重构表格的数目为两个,且该两个重构表格包括,位于上一页面的第一重构表格和位于下一页面的第二重构表格;所述方法还包括:

3.根据权利要求2所述的方法,还包括:

4.根据权利要求3所述的方法,其中,所述两个部分包括第一拆分表格和第二拆分表格;

5.根据权利要求1所述的方法,其中,所述对所述初始表格进行重构,包括:

6.根据权利要求1所述的方法,还包括:

7.根据权利要求6所述的方法,其中,所述确定所述表格主题信息所在区域,包括:

8.根据权利要求1所述的方法,其中,所述将所述多页文本内容转换为多个文本列表,包括:

9.一种可视化分析系统,包括:

10.一种面向PDF文档的表格数据抽取装置,包括:

【技术特征摘要】

1.一种面向pdf文档的表格数据抽取方法,包括:

2.根据权利要求1所述的方法,其中,所述重构表格的数目为两个,且该两个重构表格包括,位于上一页面的第一重构表格和位于下一页面的第二重构表格;所述方法还包括:

3.根据权利要求2所述的方法,还包括:

4.根据权利要求3所述的方法,其中,所述两个部分包括第一拆分表格和第二拆分表格;

5.根据权利要求1所...

【专利技术属性】
技术研发人员:朱海洋陈为储诚灿胡健谈旭炜应石磊苏轶王牡丹潘奇豪朱凌军沈萍平
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1