PDF文件中表格信息的提取方法技术

技术编号：20866660 阅读：36 留言：0更新日期：2019-04-17 09:22

本发明专利技术公开了一种PDF文件中表格信息的提取方法，其特征在于，包括：读取PDF文件；解析PDF文件的属性；找到并整理页面内所有横线以及竖线的集合；判断当前页面的横竖线集合能否组成完整的表格边框，若能则按照有边框表格处理，反之则按照无边框表格处理；得到表格的行列以及单元格的元信息；判断是否为跨页表格，如果是跨页表格则合并跨页表格；若不是跨页表格则直接存储表格；存储表格的行列信息，以及所在的页和页面内位置等提取得到的信息。本发明专利技术实现了PDF表格的更精确识别、更好的还原率以及更完整的表格提取过程。

全部详细技术资料下载

【技术实现步骤摘要】
PDF文件中表格信息的提取方法
本专利技术涉及图文处理
，具体是一种PDF文件中表格信息的提取。
技术介绍
现有的方法可以识别文本线段的组合并检测到表格，但是往往会有一些信噪比不高(因为有干扰线段存在)的情况错误地还原表格的行、列以及合并单元格的情况。
技术实现思路
本专利技术所要解决的技术问题是针对上述现有技术存在的不足，而提供一种能更正确的还原PDF文件中的表格信息的一种PDF文件中表格信息的提取方法。为解决上述技术问题，本专利技术采用的技术方案是：一种PDF文件中表格信息的提取方法，其特征在于，包括：[S10]读取PDF文件到内存，读取x-refs以及所有的页面；[S20]解析页面内所有x-objects(包括文字、线段、曲线以及矩形)的位置等属性；[S30]找到并整理页面内所有横线(水平线)以及竖线(垂直线)的集合；[S40]判断当前页面的横竖线集合能否组成完整的表格边框，若能则按照步骤[S50A]处理，反之则按照步骤[S50B]处理；[S50]两种不同类型的表格处理方案；[S50A]有边框表格处理：[S50A1]提选出整理得到的原始线段；[S50A2]合并横纵向距离小于某个小量的临近平行线段；[S50A3]延长并连接端点之间距离小于某个小量的线段；[S50A4]对于某些表格单元格横竖线不对齐的状况，如果不对齐的值小于某个小量，则强行将其对齐；否则对不对齐的单元格所在的同行同列的单元格拆分成合并单元格；[S50B]无边框表格处理：[S50B1]收集页面内的散落文本框；[S50B2]确定文本框整体的边界，并将之作为当前表格的外边框；[S50B3]分...

【技术保护点】
1.一种PDF文件中表格信息的提取方法，其特征在于，包括：[S10] 读取PDF文件到内存，读取x‑refs以及所有的页面；[S20] 解析页面内所有对象的属性，其中对象包括文字、线段、曲线以及矩形；[S30] 找到并整理页面内所有横线以及竖线的集合；[S40] 判断当前页面的横竖线集合能否组成完整的表格边框，若能则按照步骤[S50A]处理，反之则按照步骤[S50B]处理；[S50A] 有边框表格处理：[S50A1] 提选出整理得到的原始线段；[S50A2] 合并横纵向距离小于某个小量的临近平行线段；[S50A3] 延长并连接端点之间距离小于某个小量的线段；[S50A4] 对于某些表格单元格横竖线不对齐的状况，如果不对齐的值小于某个小量，则强行将其对齐；否则对不对齐的单元格所在的同行同列的单元格拆分成合并单元格；[S50B] 无边框表格处理：[S50B1] 收集页面内的散落文本框；[S50B2] 确定文本框整体的边界，并将之作为当前表格的外边框；[S50B3] 分别通过三种方案获取表格的内分割线：[S50B3I] 根据文本框字符的对齐状况获得行和列的分割线；[S50B3II] 通过文本...

【技术特征摘要】
1.一种PDF文件中表格信息的提取方法，其特征在于，包括：[S10]读取PDF文件到内存，读取x-refs以及所有的页面；[S20]解析页面内所有对象的属性，其中对象包括文字、线段、曲线以及矩形；[S30]找到并整理页面内所有横线以及竖线的集合；[S40]判断当前页面的横竖线集合能否组成完整的表格边框，若能则按照步骤[S50A]处理，反之则按照步骤[S50B]处理；[S50A]有边框表格处理：[S50A1]提选出整理得到的原始线段；[S50A2]合并横纵向距离小于某个小量的临近平行线段；[S50A3]延长并连接端点之间距离小于某个小量的线段；[S50A4]对于某些表格单元格横竖线不对齐的状况，如果不对齐的值小于某个小量，则强行将其对齐；否则对不对齐的单元格所在的同行同列的单元格拆分成合并单元格；[S50B]无边框表格处理：[S50B1]收集页面内的散落文本框；[S50B2]确定文本框整体的边界，并将之作为当前表格的外边框；[S50B3]分别通过三种方案获取表格的内分割线：[S50B3I]根据文本框字符的对齐状况获得行和列的分割线；[S50B3II]通过文本框的平均字符大小为单位，逐行逐列扫描得到文本的共同边界作为分割线；[S50B3III]直接计算的到文本框之间的空白区域，并以此确定表格的内边框；[S50B4]根据新增的辅助内边框线段重新尝试有边框表格的处理方案；[S60]得到表格的行列以及单元格的元信息；[S70]判断是否为跨页表格，如果是跨页表格则合并跨页表格；若不是跨页表格则直接存储表格；[S80]存储表格的行列信息，以及所在的页和页面内位置等提取得到的信息。2.根据权利要求1所述的提取方法，其特征在于：判断是否跨页以及合并跨页表格的具体方法是：[S701...

【专利技术属性】
技术研发人员：孟泽洋，王俊，
申请(专利权)人：南京吾道知信信息技术有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人