一种从PDF文档中抽取表格数据和篇章结构的方法技术

技术编号：23288643 阅读：36 留言：0更新日期：2020-02-08 18:33

本发明专利技术涉及一种从PDF文档中自动抽取表格数据和篇章结构的方法，其步骤：从PDF文件中进行章节抽取，得到带有篇章结构的PDF文件；从带有篇章结构的PDF文件进行裁剪；对裁剪后的PDF文件进行表格抽取，同时，对章节号和章节名也进行表格抽取，得到表格；将表格以html页面进行展示，完成抽取。本发明专利技术能自动化提取数据，提供一套浏览器端的操作界面，有良好的用户交互；可以在数据处理领域中应用。

A method of extracting table data and text structure from PDF documents

全部详细技术资料下载

【技术实现步骤摘要】
一种从PDF文档中抽取表格数据和篇章结构的方法
本专利技术涉及一种数据处理领域，特别是关于一种从PDF文档中自动抽取表格数据和篇章结构的方法。
技术介绍
在数据处理领域中，例如上市公司招股书、财报、年报等披露文件的信息抽取，表格数据和篇章结构的抽取可以辅助金融从业者的信息挖掘工作。互联网上的文档是进行知识抽取的重要资源。除了大量的网页页面，互联网上还有很多公开的PDF资源。PDF中包含着许多难以从网页上检索到的信息。诸如上市公司的行业法规、企业客户/供应商、财务数据等信息都存在于上市公司信息披露的表格中，与传统网页相比，PDF缺乏结构信息，确定其目录结构，提取特定篇章下的表格数据更加困难。在该领域中现有技术方案主要包括专利201510083646.5、专利201710095978.4、专利201811630768.1。专利201510083646.5通过提取PDF文档中的横纵线条，针对横纵线条进行排序，从而重绘PDF中的表格。但是该专利文献无法完整地提取边框未封闭的表格。专利201710095978.4通过同时提取PDF文档中的线条信息以及PDF图像中的线条信息进行表格提取，通过线条的投影首先得到表格位置，再依次得到表格内各线条的位置，从而提高准确度。但是该专利文献提取的是PDF文档中所有的表格，缺失提取特定目录下表格的能力。专利201811630768.1通过线条提取有边框表格，通过估计文本框边界提取无边框表格。专利201811630768.1中通过分析线条的对齐方式，确定单元格是否...

【技术保护点】
1.一种从PDF文档中自动抽取表格数据和篇章结构的方法，其特征在于包括以下步骤：/n1)从PDF文件中进行章节抽取，得到带有篇章结构的PDF文件；/n2)从带有篇章结构的PDF文件进行裁剪；/n3)对裁剪后的PDF文件进行表格抽取，同时，对章节号和章节名也进行表格抽取，得到表格；/n4)将表格以html页面进行展示，完成抽取。/n

【技术特征摘要】
1.一种从PDF文档中自动抽取表格数据和篇章结构的方法，其特征在于包括以下步骤：
1)从PDF文件中进行章节抽取，得到带有篇章结构的PDF文件；
2)从带有篇章结构的PDF文件进行裁剪；
3)对裁剪后的PDF文件进行表格抽取，同时，对章节号和章节名也进行表格抽取，得到表格；
4)将表格以html页面进行展示，完成抽取。

2.如权利要求1所述方法，其特征在于：所述步骤1)中，对PDF文件进行章节抽取的方法包括以下步骤：
1.1)按行抽取PDF文档的特征，具体特征包括：该行文字颜色、是否加粗、字体大小、字体；
1.2)将含有相同特征的行划为一组，为特征分组；
1.3)按文字大小计算每种大小文字占全文的比例，完成字体分组；
1.4)根据字体分组的比例信息，设定目录字体大小的下界估计值，并使用该估计值剔除特征分组中小于该估计值的字体分组；
1.5)根据PDF文档中的各个因素为剩余的特征分组设定打分函数；
1.6)按打分函数给每个特征分组打分，将分数从高到底排序，从第一组开始依次为各特征分组打分，选取满足条件的前K个特征分组，完成章节抽取。

3.如权利要求2所述方法，其特征在于：所述步骤1.5)中，PDF文档中的各个因素包括：是否加粗、是否匹配目录模板、该特征所代表的行是否分布在多个页面、该特征是否为彩色、字体大小。

4.如权利要求3所述方法，其特征在于：所述打分函数的结果是PDF文档中的各个因素的分数之和。

5.如权利要求2所述方法，其特征在于：所述步骤1.6)中，其中，满足条件是指：从第一个组开始检查各个组别是否匹配目录模板，直到第一个不匹配目录模板的分组出现；如果没有分组匹配目录模板，则选取第一个组。

6.如权利要求1所述方法，其特征在于：所述步骤2)中，在章节提取部分能获得每个章节项的页码，根据页码对PDF文档进行裁剪。

7.如权利要求1所述方法，其特征在于：所述步骤3)中，表格抽取具体包括以下步骤：
3.1)对PDF文件进行单元格提取；
3.2)对提取到的所有单元格按从上到下，从左到右的顺序排序；
3.3)构建一个空的列表T用于存放已经产生的表格；
3.4)依次遍历所有单元格，对每个单元格，检查该单元格与列表T中的表格是否是“紧密贴合”，如果是，则将该单元格加入列表T中的表格；否则，以该单元格为基础新建一个表格，并将新建立的表格加入列表T中；
...

【专利技术属性】
技术研发人员：范举，韩涵，卢卫，杜小勇，
申请(专利权)人：中国人民大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人