一种基于位置关系的PDF表格抽取方法技术

技术编号：21914213 阅读：23 留言：0更新日期：2019-08-21 12:30

本发明专利技术公开了一种基于位置关系的PDF表格抽取方法，该方法中首先整理/读取出PDF文件中的各个文本块信息，将由多个文本块并合形成的融合文本块再次拆分回多个文本块，并按照绝对位置信息重新排列所有的文本块；根据行间距和标志性序号，从中筛选出待处理表格；再对该待处理表格做进一步处理，如删除不规整表格，调整各个文本块的宽度，删除多余的行列等，最终得到与PDF中信息对应性良好的可编辑表格。

A PDF Form Extraction Method Based on Location Relation

全部详细技术资料下载

【技术实现步骤摘要】
一种基于位置关系的PDF表格抽取方法
本专利技术涉及PDF文件处理方法领域，具体涉及一种基于位置关系的PDF表格抽取方法。
技术介绍
PDF全称PortableDocumentFormat，是便携文档格式的意思，可以完美表现文件的原始样式(完美保真)，不会因为使用的软件、系统，等等东西的不同而产生不同的显示效果，屏幕显示和打印输出就是发布者想要的样子。因此，目前网络上传播的文档大部分是PDF格式文件，但是这给很多从文档中整理表格数据的人群带来了困难，尤其是在金融领域，在财务报告、行业研究报告中，研究员需针对表格做进一步的深度处理，需将pdf中的表格转化成规则的行和列的形式，如Excel表格等可编辑的形式。目前业内大多数pdf处理工具，基本上都是针对文本的处理，或者转化为doc格式，转化为doc后，虽然能提取出部分表格，但是由于原始pdf表格中的格式样式差异化较大，表格效果不理想，准确率较低，不能满足金融领域中高精度数据的需求。由于上述原因，本专利技术人开发设计出一种全新的PDF文本提取方法，尤其是PDF文本中无边框表格的提取方法。
技术实现思路
为了克服上述问题，本专利技术人进行了锐意研究，设计出一种基于位置关系的PDF表格抽取方法，该方法中首先整理/读取出PDF文件中的各个文本块信息，将由多个文本块并合形成的融合文本块再次拆分回多个文本块，并按照绝对位置信息重新排列所有的文本块；根据行间距和标志性序号，从中筛选出待处理表格；再对该待处理表格做进一步处理，如删除不规整表格，调整各个文本块的宽度，删除多余的行列等，最终得到与PDF中信息对应性良好的可编辑表格，从...

【技术保护点】
1.一种基于位置关系的PDF表格抽取方法，其特征在于，该方法包括如下步骤：步骤1：从PDF文件中解析出各个文本块信息；步骤2：在虚拟内存中，按照PDF文件中的位置信息重新排列各个文本块，形成待处理文本；步骤3：识别所述待处理文本中各个行的位置信息和字符信息，从中筛选出待处理表格；步骤4：删除步骤3得到的待处理表格中不规整的表格；步骤5：调整所述待处理表格中各个文本块的宽度，使得同一列中的各个文本块宽度一致；步骤6：沿着文本块绘制表格。

【技术特征摘要】
1.一种基于位置关系的PDF表格抽取方法，其特征在于，该方法包括如下步骤：步骤1：从PDF文件中解析出各个文本块信息；步骤2：在虚拟内存中，按照PDF文件中的位置信息重新排列各个文本块，形成待处理文本；步骤3：识别所述待处理文本中各个行的位置信息和字符信息，从中筛选出待处理表格；步骤4：删除步骤3得到的待处理表格中不规整的表格；步骤5：调整所述待处理表格中各个文本块的宽度，使得同一列中的各个文本块宽度一致；步骤6：沿着文本块绘制表格。2.根据权利要求1所述的基于位置关系的PDF表格抽取方法，其特征在于，所述文本块信息包括该文本块中所有的字符信息和该文本块在PDF文件中的坐标位置信息。3.根据权利要求1所述的基于位置关系的PDF表格抽取方法，其特征在于，在步骤1之后，在步骤2之前还要对步骤1中的文本块做拆分处理，将需要拆分的文本块拆分成两个或多个文本块。4.根据权利要求3所述的基于位置关系的PDF表格抽取方法，其特征在于，所述需要拆分的文本块为：存在间距尺寸大于预定值的相邻两个字符的文本块；从该需要拆分的文本块的所述间距尺寸大于预定值的相邻两个字符之间拆分；优选地，所述预定值为该PDF文件中一个汉字字符的平均尺寸。5.根据权利要求1所述的基于位置关系的PDF表格抽取方法，其特征在...

【专利技术属性】
技术研发人员：陈前力，王博远，吴雪军，
申请(专利权)人：鼎复数据科技北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人