一种从PDF文档中抽取表格数据和篇章结构的方法技术

技术编号:23288643 阅读:36 留言:0更新日期:2020-02-08 18:33
本发明专利技术涉及一种从PDF文档中自动抽取表格数据和篇章结构的方法,其步骤:从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;从带有篇章结构的PDF文件进行裁剪;对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;将表格以html页面进行展示,完成抽取。本发明专利技术能自动化提取数据,提供一套浏览器端的操作界面,有良好的用户交互;可以在数据处理领域中应用。

A method of extracting table data and text structure from PDF documents

【技术实现步骤摘要】
一种从PDF文档中抽取表格数据和篇章结构的方法
本专利技术涉及一种数据处理领域,特别是关于一种从PDF文档中自动抽取表格数据和篇章结构的方法。
技术介绍
在数据处理领域中,例如上市公司招股书、财报、年报等披露文件的信息抽取,表格数据和篇章结构的抽取可以辅助金融从业者的信息挖掘工作。互联网上的文档是进行知识抽取的重要资源。除了大量的网页页面,互联网上还有很多公开的PDF资源。PDF中包含着许多难以从网页上检索到的信息。诸如上市公司的行业法规、企业客户/供应商、财务数据等信息都存在于上市公司信息披露的表格中,与传统网页相比,PDF缺乏结构信息,确定其目录结构,提取特定篇章下的表格数据更加困难。在该领域中现有技术方案主要包括专利201510083646.5、专利201710095978.4、专利201811630768.1。专利201510083646.5通过提取PDF文档中的横纵线条,针对横纵线条进行排序,从而重绘PDF中的表格。但是该专利文献无法完整地提取边框未封闭的表格。专利201710095978.4通过同时提取PDF文档中的线条信息以及PDF图像中的线条信息进行表格提取,通过线条的投影首先得到表格位置,再依次得到表格内各线条的位置,从而提高准确度。但是该专利文献提取的是PDF文档中所有的表格,缺失提取特定目录下表格的能力。专利201811630768.1通过线条提取有边框表格,通过估计文本框边界提取无边框表格。专利201811630768.1中通过分析线条的对齐方式,确定单元格是否被合并,这种合并方式往往受限于对齐阈值的设计,且该专利也缺乏提取特定目录下表格的能力。
技术实现思路
针对上述问题,本专利技术的目的是提供一种从PDF文档中自动抽取表格数据和篇章结构的方法,其能自动化提取数据,提供一套浏览器端的操作界面,有良好的用户交互。为实现上述目的,本专利技术采取以下技术方案:一种从PDF文档中自动抽取表格数据和篇章结构的方法,其步骤:1)从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;2)从带有篇章结构的PDF文件进行裁剪;3)对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;4)将表格以html页面进行展示,完成抽取。进一步,所述步骤1)中,对PDF文件进行章节抽取的方法包括以下步骤:1.1)按行抽取PDF文档的特征,具体特征包括:该行文字颜色、是否加粗、字体大小、字体;1.2)将含有相同特征的行划为一组,为特征分组;1.3)按文字大小计算每种大小文字占全文的比例,完成字体分组;1.4)根据字体分组的比例信息,设定目录字体大小的下界估计值,并使用该估计值剔除特征分组中小于该估计值的字体分组;1.5)根据PDF文档中的各个因素为剩余的特征分组设定打分函数;1.6)按打分函数给每个特征分组打分,将分数从高到底排序,从第一组开始依次为各特征分组打分,选取满足条件的前K个特征分组,完成章节抽取。进一步,所述步骤1.5)中,PDF文档中的各个因素包括:是否加粗、是否匹配目录模板、该特征所代表的行是否分布在多个页面、该特征是否为彩色、字体大小。进一步,所述打分函数的结果是PDF文档中的各个因素的分数之和。进一步,所述步骤1.6)中,其中,满足条件是指:从第一个组开始检查各个组别是否匹配目录模板,直到第一个不匹配目录模板的分组出现;如果没有分组匹配目录模板,则选取第一个组。进一步,所述步骤2)中,在章节提取部分能获得每个章节项的页码,根据页码对PDF文档进行裁剪。进一步,所述步骤3)中,表格抽取具体包括以下步骤:3.1)对PDF文件进行单元格提取;3.2)对提取到的所有单元格按从上到下,从左到右的顺序排序;3.3)构建一个空的列表T用于存放已经产生的表格;3.4)依次遍历所有单元格,对每个单元格,检查该单元格与列表T中的表格是否是“紧密贴合”,如果是,则将该单元格加入列表T中的表格;否则,以该单元格为基础新建一个表格,并将新建立的表格加入列表T中;3.5)对任意合法的页数i,取第i页最底部表格t1,第i+1页最顶部表格t2,检查t1和t2是否列对齐,如果是,连接两个表格,完成表格提取。进一步,所述步骤3.1)中,对PDF文件进行单元格提取方法包括以下步骤:3.1.1)提取PDF图像信息,对该图像信息利用OpenCV进行形态学处理,提取图像信息中的直线;3.1.2)将相互连接的线条进行合并;3.1.3)对合并后的线条分类,分成横线和竖线两组;3.1.4)对每条横线和竖线,检查两条线是否互相交叠,若相互交叠则生成交叉点;如无相互交叠的横线和竖线,则该页无表格;3.1.5)对所有的横线,检查其线条上最左交叉点和最右交叉点是否位于横线两端,如果不在横线两端,则将该横线视作“可扩展的横线”;3.1.6)任取两条“可扩展的横线”h1、h2,遍历其上的交叉点有无共同的竖线;如果有,则绘制两条线段,分别将h1,h2的两端相连;3.1.7)如果在步骤3.1.6)中出现了绘制线段的情况,则重复步骤3.1.2)至3.1.4),反之进入下一步;3.1.8)遍历所有的交叉点,对其中任意一个交叉点node1,检查其横线和竖线,检查交叉点node1横线上的下一个有竖线的交叉点的竖线和node1竖线上的下一个有横线的交叉点的横线之间,是否存在交叉点node2,如果存在,以node1和node2为单元格对角线上的两个端点,构建一个单元格。进一步,所述步骤3.1.6)中,绘制是指,新建立两条线段hl1和hl2加入步骤3.1.3)中的线条组中,hl1连接起h1和h2的最左端点,hl2连接起h1和h2的最右端点,有共同交叉点的话,则绘制两条线段。进一步,所述步骤3.4)中,检查单元格与列表T中的表格是否“紧密贴合”的方法为:对于单元格c和表格t,都具有属性左边线距离页面左侧距离x_min、右边线距离页面左侧距离x_max、下边线距离页面下侧距离y_min和上边线距离页面下侧距离y_max;若属性满足下列情况之一即为紧密贴合:(1)表格t的x_max属性与单元格的x_min属性相等,且满足表格t的y_min等于c的y_min或表格t的y_max等于c的y_max;(2)表格t的y_max属性与单元格的y_min相等相等,且满足表格t的x_min等于c的x_min或表格t的x_max等于c的x_max。本专利技术由于采取以上技术方案,其具有以下优点:1、专利申请号为201510083646.5的文献是通过提取PDF文档中的横纵线条,针对横纵线条进行排序,从而重绘PDF中的表格。与该现有文献相比,本专利技术对未封闭边框的表格边框进行了估计,可以提取边框未封闭的表格。2、专利申请号为201710095978.4的文献是通过同时提取PDF文档中的线条信息以及PDF图像中的线条信息进行表格提取,通过线条的投影首先得到表格位置,再依次得到表格内各线条的位置,从而提高准确度。与该现有文献相比,本专利技术未使用线条数据进行垂直投影和水平投影,本文档来自技高网
...

【技术保护点】
1.一种从PDF文档中自动抽取表格数据和篇章结构的方法,其特征在于包括以下步骤:/n1)从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;/n2)从带有篇章结构的PDF文件进行裁剪;/n3)对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;/n4)将表格以html页面进行展示,完成抽取。/n

【技术特征摘要】
1.一种从PDF文档中自动抽取表格数据和篇章结构的方法,其特征在于包括以下步骤:
1)从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;
2)从带有篇章结构的PDF文件进行裁剪;
3)对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;
4)将表格以html页面进行展示,完成抽取。


2.如权利要求1所述方法,其特征在于:所述步骤1)中,对PDF文件进行章节抽取的方法包括以下步骤:
1.1)按行抽取PDF文档的特征,具体特征包括:该行文字颜色、是否加粗、字体大小、字体;
1.2)将含有相同特征的行划为一组,为特征分组;
1.3)按文字大小计算每种大小文字占全文的比例,完成字体分组;
1.4)根据字体分组的比例信息,设定目录字体大小的下界估计值,并使用该估计值剔除特征分组中小于该估计值的字体分组;
1.5)根据PDF文档中的各个因素为剩余的特征分组设定打分函数;
1.6)按打分函数给每个特征分组打分,将分数从高到底排序,从第一组开始依次为各特征分组打分,选取满足条件的前K个特征分组,完成章节抽取。


3.如权利要求2所述方法,其特征在于:所述步骤1.5)中,PDF文档中的各个因素包括:是否加粗、是否匹配目录模板、该特征所代表的行是否分布在多个页面、该特征是否为彩色、字体大小。


4.如权利要求3所述方法,其特征在于:所述打分函数的结果是PDF文档中的各个因素的分数之和。


5.如权利要求2所述方法,其特征在于:所述步骤1.6)中,其中,满足条件是指:从第一个组开始检查各个组别是否匹配目录模板,直到第一个不匹配目录模板的分组出现;如果没有分组匹配目录模板,则选取第一个组。


6.如权利要求1所述方法,其特征在于:所述步骤2)中,在章节提取部分能获得每个章节项的页码,根据页码对PDF文档进行裁剪。


7.如权利要求1所述方法,其特征在于:所述步骤3)中,表格抽取具体包括以下步骤:
3.1)对PDF文件进行单元格提取;
3.2)对提取到的所有单元格按从上到下,从左到右的顺序排序;
3.3)构建一个空的列表T用于存放已经产生的表格;
3.4)依次遍历所有单元格,对每个单元格,检查该单元格与列表T中的表格是否是“紧密贴合”,如果是,则将该单元格加入列表T中的表格;否则,以该单元格为基础新建一个表格,并将新建立的表格加入列表T中;
...

【专利技术属性】
技术研发人员:范举韩涵卢卫杜小勇
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利