一种PDF文档的不规则表格提取方法、装置、系统及介质制造方法及图纸

技术编号：40206120 阅读：7 留言：0更新日期：2024-02-02 22:17

本发明专利技术公开了一种PDF文档的不规则表格提取方法、装置、系统及介质，方法包括：获取指定PDF文档中待提取的目标页面；对所述目标页面进行表格识别与文本识别，获取表格特征信息和文本特征信息；根据所述表格特征信息和文本特征信息确认所述目标页面中是否存在跨页表格和/或边线缺失表格；当存在跨页表格时，对所述跨页表格进行合并后提取得到相应的结构化数据；以及当存在边线缺失表格时，对所述边线缺失表格进行表格信息填补后提取得到相应的结构化数据。通过表格特征和文本特征识别目标页面中的不规则表格，并对不规则表格进行相应处理后提取得到准确的结构化数据，提高PDF文档的不规则表格提取效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及金融科技，尤其涉及一种pdf文档的不规则表格提取方法、装置、系统及介质。

技术介绍

1、金融机构经常需要处理例如公司年报等pdf文件，针对pdf中出现的表格，需要提取并转换为结构化信息进行更加高效的数据处理。然而由于pdf文件的格式多样性和复杂性，以及表格内部的复杂结构等因素，导致表格识别的准确度不高，容易出现识别失败或者数据缺失等情况。

技术实现思路

1、鉴于上述现有技术的不足，本专利技术的目的在于提供可应用于金融科技或其它相关领域的一种pdf文档的不规则表格提取方法、装置、系统及介质，旨在提高pdf文档的不规则表格提取效率和准确性。

2、本专利技术的技术方案如下：

3、一种pdf文档的不规则表格提取方法，包括：

4、获取指定pdf文档中待提取的目标页面；

5、对所述目标页面进行表格识别与文本识别，获取表格特征信息和文本特征信息；

6、根据所述表格特征信息和文本特征信息确认所述目标页面中是否存在跨页表格和/或边线缺失表格；

7、当存在跨页表格时，对所述跨页表格进行合并后提取得到相应的结构化数据；以及当存在边线缺失表格时，对所述边线缺失表格进行表格信息填补后提取得到相应的结构化数据。

8、在一个实施例中，所述获取指定pdf文档中待提取的目标页面，包括：

9、根据接收到的关键词在指定pdf文档中进行搜索，得到具有所述关键词的页面页码；

10、根据所述页面页码遍历所

11、在一个实施例中，所述表格特征信息包括单元格位置与单元格字符串，所述文本特征信息包括页面字符串位置与页面字符串。

12、在一个实施例中，所述根据所述表格特征信息和文本特征信息确认所述目标页面中是否存在跨页表格，包括：

13、根据所述单元格位置和页面字符串位置确认所述目标页面的结尾内容，以及所述目标页面的下一页的开头内容；

14、若所述目标页面以表格结尾、所述目标页面的下一页以表格开头且相邻页表格的列数保持一致，则确认所述目标页面中存在跨页表格。

15、在一个实施例中，所述当存在跨页表格时，对所述跨页表格进行合并后提取得到相应的结构化数据之时，所述方法还包括：

16、根据上一页表格的单位对下一页表格的单位进行填充。

17、在一个实施例中，所述根据所述表格特征信息和文本特征信息确认所述目标页面中是否存在边线缺失表格，包括：

18、将所述目标页面中所有的单元格字符串与所述页面字符串进行对比，确认字符串是否一致；

19、若字符串不一致，则确认所述目标页面中是否存在边线缺失表格。

20、在一个实施例中，所述方法还包括：

21、对所述结构化数据中的账务金额数据转换为指定单位的数值。

22、一种pdf文档的不规则表格提取装置，包括：

23、页面获取模块，用于获取指定pdf文档中待提取的目标页面；

24、识别模块，用于对所述目标页面进行表格识别与文本识别，获取表格特征信息和文本特征信息；

25、标准确认模块，用于根据所述表格特征信息和文本特征信息确认所述目标页面中是否存在跨页表格和/或边线缺失表格；

26、提取模块，用于当存在跨页表格时，对所述跨页表格进行合并后提取得到相应的结构化数据；以及当存在边线缺失表格时，对所述边线缺失表格进行表格信息填补后提取得到相应的结构化数据。

27、一种pdf文档的不规则表格提取系统，所述系统包括至少一个处理器；以及，

28、与所述至少一个处理器通信连接的存储器；其中，

29、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述pdf文档的不规则表格提取方法。

30、一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的pdf文档的不规则表格提取方法。

31、有益效果：本专利技术公开了一种pdf文档的不规则表格提取方法、装置、系统及介质，相比于现有技术，本专利技术实施例通过表格特征和文本特征识别目标页面中的不规则表格，并对不规则表格进行相应处理后提取得到准确的结构化数据，提高pdf文档的不规则表格提取效率和准确性。

本文档来自技高网...

【技术保护点】

1.一种PDF文档的不规则表格提取方法，其特征在于，包括：

2.根据权利要求1所述的PDF文档的不规则表格提取方法，其特征在于，所述获取指定PDF文档中待提取的目标页面，包括：

3.根据权利要求1所述的PDF文档的不规则表格提取方法，其特征在于，所述表格特征信息包括单元格位置与单元格字符串，所述文本特征信息包括页面字符串位置与页面字符串。

4.根据权利要求3所述的PDF文档的不规则表格提取方法，其特征在于，所述根据所述表格特征信息和文本特征信息确认所述目标页面中是否存在跨页表格，包括：

5.根据权利要求4所述的PDF文档的不规则表格提取方法，其特征在于，所述当存在跨页表格时，对所述跨页表格进行合并后提取得到相应的结构化数据之时，所述方法还包括：

6.根据权利要求3所述的PDF文档的不规则表格提取方法，其特征在于，所述根据所述表格特征信息和文本特征信息确认所述目标页面中是否存在边线缺失表格，包括：

7.根据权利要求1所述的PDF文档的不规则表格提取方法，其特征在于，所述方法还包括：

8.一种PDF文

9.一种PDF文档的不规则表格提取系统，其特征在于，所述系统包括至少一个处理器；以及，

10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述的PDF文档的不规则表格提取方法。

...

【技术特征摘要】

1.一种pdf文档的不规则表格提取方法，其特征在于，包括：

2.根据权利要求1所述的pdf文档的不规则表格提取方法，其特征在于，所述获取指定pdf文档中待提取的目标页面，包括：

3.根据权利要求1所述的pdf文档的不规则表格提取方法，其特征在于，所述表格特征信息包括单元格位置与单元格字符串，所述文本特征信息包括页面字符串位置与页面字符串。

4.根据权利要求3所述的pdf文档的不规则表格提取方法，其特征在于，所述根据所述表格特征信息和文本特征信息确认所述目标页面中是否存在跨页表格，包括：

5.根据权利要求4所述的pdf文档的不规则表格提取方法，其特征在于，所述当存在跨页表格时，对所述跨页表格进行合并后提取得到相应的结构化数据之时，所述方法还...

【专利技术属性】
技术研发人员：黄玉云，
申请(专利权)人：平安银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人