一种基于图像信息的PDF有边框表格抽取方法技术

技术编号：21953286 阅读：23 留言：0更新日期：2019-08-24 18:02

本发明专利技术公开了一种基于图像信息的PDF有边框表格抽取方法，该方法中先读取出PDF文件中记载的关于横竖线条的信息，并据此重新绘制图表，再对新绘制的图表做精细化处理，滤掉其中多余线条，滤掉其中背景色，找出构成表格的横线和竖线，再补全可能缺失的边框线，最后再读取PDF文件中记载的文本信息及文本位置信息，将之填写在新绘制的表格中，从而得到可编辑的与PDF文本中内容一致的表格。

A Bordered Table Extraction Method for PDF Based on Image Information

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图像信息的PDF有边框表格抽取方法
本专利技术涉及PDF文件处理方法领域，具体涉及一种基于图像信息的PDF有边框表格抽取方法。
技术介绍
PDF全称PortableDocumentFormat，是便携文档格式的意思，可以完美表现文件的原始样式(完美保真)，不会因为使用的软件、系统，等等东西的不同而产生不同的显示效果，屏幕显示和打印输出就是发布者想要的样子。因此，目前网络上传播的文档大部分是PDF格式文件，但是这给很多从文档中整理表格数据的人群带来了困难，尤其是在金融领域，在财务报告、行业研究报告中，研究员需针对表格做进一步的深度处理，需将pdf中的表格转化成规则的行和列的形式，如Excel表格等可编辑的形式。目前业内大多数pdf处理工具，基本上都是针对文本的处理，或者转化为doc格式，转化为doc后，虽然能提取出部分表格，但是由于原始pdf表格中的格式样式差异化较大，表格效果不理想，准确率较低，不能满足金融领域中高精度数据的需求。由于上述原因，本专利技术人开发设计出一种全新的PDF文本提取方法，尤其是PDF文本中有边框表格的提取方法。
技术实现思路
为了克服上述问题，本专利技术人进行了锐意研究，设计出一种基于图像信息的PDF有边框表格抽取方法，该方法中先读取出PDF文件中记载的关于横竖线条的信息，并据此重新绘制图表，再对新绘制的图表做精细化处理，滤掉其中多余线条，滤掉其中背景色，找出构成表格的横线和竖线，再补全可能缺失的边框线，最后再读取PDF文件中记载的文本信息及文本位置信息，将之填写在新绘制的表格中，从而得到可编辑的与PDF文本中内容一致的表格，从...

【技术保护点】
1.一种基于图像信息的PDF有边框表格抽取方法，其特征在于，该方法包括如下步骤：步骤1：读取PDF文件信息，从读取到的信息中抽取出横线信息、竖线信息和颜色信息，并根据抽取出的信息绘制图片，步骤2：滤掉步骤1绘制图片中的多余线条，并且补全表格；步骤3：读取PDF文件信息，得到PDF文件中每个字符及每个字符所在位置信息，扫描步骤2中得到的表格中各个单元格的位置信息，根据位置信息将PDF文件中的字符填写到表格的单元格中。

【技术特征摘要】
1.一种基于图像信息的PDF有边框表格抽取方法，其特征在于，该方法包括如下步骤：步骤1：读取PDF文件信息，从读取到的信息中抽取出横线信息、竖线信息和颜色信息，并根据抽取出的信息绘制图片，步骤2：滤掉步骤1绘制图片中的多余线条，并且补全表格；步骤3：读取PDF文件信息，得到PDF文件中每个字符及每个字符所在位置信息，扫描步骤2中得到的表格中各个单元格的位置信息，根据位置信息将PDF文件中的字符填写到表格的单元格中。2.根据权利要求1所述的基于图像信息的PDF有边框表格抽取方法，其特征在于，所述步骤2包括如下子步骤：子步骤1：在图片的上方中部根据读取的信息选择一条或多条竖线，沿着该竖线继续向下读取/识别每一个像素点，直至该竖线截止，判断该竖线是否为构成表格的竖线；子步骤2：找出所有与子步骤1中构成表格的竖线相交的横线，沿着该横线向左右两侧读取/识别每一个像素点，直至该横线截止，判断该横线是否为构成表格的横线；子步骤3：找出所有与子步骤2中构成表格的横线相交的竖线，沿着该竖线向上下两侧读取/识别每一个像素点，直至该竖线截止，判断该竖线是否为构成表格的竖线；子步骤4：删除图片中除构成表格的竖线和构成表格的横线以外的信息。3.根据权利要求2所述的基于图像信息的PDF有边框表格抽取方法，其特征在于，判断横线或者竖线截止的条件为：沿着该线的延伸方向，连续1～3个像素点长度区域中的像素点无颜色；优选地，沿着该线的延伸方向，连续3个像素点长度区域中的像素点无颜色。4.根据权利要求2所述的基于图像信息的PDF有边框表格抽取方法，其特征在于，所述竖线的长度超过预设值时判断其...

【专利技术属性】
技术研发人员：陈前力，王博远，吴雪军，
申请(专利权)人：鼎复数据科技北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人