一种PDF表格内容识别方法、系统及存储介质技术方案

技术编号:36298176 阅读:49 留言:0更新日期:2023-01-13 10:13
本申请公开了一种PDF表格内容识别方法、系统及存储介质,其涉及PDF内容识别技术领域,该方法包括如下步骤:获取包含表格内容的待识别PDF文档;预处理所述待识别PDF文档,得到预处理文档;通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域;从所述预处理文档中截取出所述表格区域,并基于所述表格区域生成表格图片;对所述表格图片进行图像识别,得到所述表格图片中的表格特征和文本属性;在预设的可编辑文档中基于所述表格特征生成目标表格;根据所述文本属性在所述目标表格中的各个目标单元格内填入对应的目标文字。本申请具有提取PDF文档中表格内容后可以直接对表格内容进行编辑的效果。以直接对表格内容进行编辑的效果。以直接对表格内容进行编辑的效果。

【技术实现步骤摘要】
一种PDF表格内容识别方法、系统及存储介质


[0001]本申请涉及PDF内容识别
,尤其是涉及一种PDF表格内容识别方法、系统及存储介质。

技术介绍

[0002]随着计算机技术的发展,越来越多的文档格式被开发出来并被广泛使用着,比如PDF(Portable Document Format,便携式文档格式)格式的文档。其中,PDF是一种被广泛使用的电子文档格式。现在越来越多的专业资料、电子图书、产品说明和电子邮件等在开始使用PDF格式的文档。
[0003]PDF格式的文档是一种不可直接编辑的文档,若想获取并编辑PDF格式文档中表格内的特殊数据时,通常可以通过编写代码遍历PDF文档确定文档中的表格位置,再遍历表格中的各个单元格,以获取单元格属性并爬取单元格内的文本内容,根据单元格属性中的单元格行列数据生成所有文本内容之间的矩阵关系,最后将所有文本内容以矩阵形式输出至新建的可编辑文档中,即可在可编辑文档中编辑表格内容。
[0004]针对上述中的相关技术,专利技术人认为存在有以下缺陷:通过代码遍历爬取PDF文档的表格内容虽然可以准确爬取到表格内的所有数据,但由于表格内容的输出形式是基于单元格属性进行的矩阵输出,若部分单元格中的表格内容较多,则输出的表格内容会比较杂乱,不利于对表格内容进行编辑操作,因此在获取到输出的表格内容后需要重新整理或重新绘制表格才有利于后续的编辑操作。

技术实现思路

[0005]为了改善识别获取到PDF表格内容后可能难以直接对表格内容进行编辑的缺陷,本申请提供一种PDF表格内容识别方法、系统及存储介质。
[0006]第一方面,本申请提供一种PDF表格内容识别方法,包括如下步骤:获取包含表格内容的待识别PDF文档;预处理所述待识别PDF文档,得到预处理文档;通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域;从所述预处理文档中截取出所述表格区域,并基于所述表格区域生成表格图片;对所述表格图片进行图像识别,得到所述表格图片中的表格特征和文本属性;在预设的可编辑文档中基于所述表格特征生成目标表格;根据所述文本属性在所述目标表格中的各个目标单元格内填入对应的目标文字。
[0007]通过采用上述技术方案,在获取到待识别PDF文档后需要先对待识别PDF文档进行预处理,以得到有利于表格区域识别的预处理文档,再通过预设的表格识别模型识别出预处理文档中的表格区域,截取表格区域并转换为表格图片,通过图像识别技术识别出表格图片中所包含表格的表格特征以及文本属性,从而在预设的可编辑文档中先根据表格特征
生成目标表格,再根据文本属性在目标表格中的各个目标单元格内填入对应的目标文字。因此在可编辑文档中输出的待识别PDF文档表格数据包含可编辑的表格边框和表格边框内的可编辑数据,相较于代码爬取并输出的PDF文档表格数据,具有与待识别PDF文档中表格相同的排版和完整的边框,更有利于后续对可编辑文档中输出的表格数据进行直接编辑。
[0008]可选的,所述预处理所述待识别PDF文档,得到预处理文档包括如下步骤:检测所述待识别PDF文档是否存在水印图层;若存在所述水印图层,则删除所述水印图层,得到去水印文档;对所述去水印文档进行去均值化处理,得到去均值化文档;对所述去均值化文档进行归一化处理,得到预处理文档。
[0009]通过采用上述技术方案,先将待识别PDF文档进行解析,分析待识别PDF文档中是否存在具有干扰的水印图层,若存在,则删除水印图层,再将删除水印图层后的去水印文档进行去均值化处理和归一化处理,以增强文档中所显示内容的内容特征,最终得到预处理后的预处理文档。
[0010]可选的,所述通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域包括如下步骤:通过预设的表格识别模型识别出所述预处理文档中的所有预选表格区域;识别所有所述预选表格区域中表头部分的表头内容;结合预设的表头内容数据库和所述表头内容筛选所述预选表格区域;将筛选后剩下的所有所述预选表格区域作为识别到的表格区域。
[0011]通过采用上述技术方案,在通过预设的表格识别模型识别出预处理文档中的所有预选表格区域之后,需要结合预设的表头内容数据库和根据预选表格区域的表头内容对预选表格区域进行筛选,从而筛除不需要获取的表格区域以及表格区域中包含的表格数据。
[0012]可选的,所述结合预设的表头内容数据库和所述表头内容筛选所述预选表格区域包括如下步骤:基于预设的表头内容数据库对所述表头内容进行语义分析,得到所述表格内容的语义契合度;判断所述语义契合度是否超出预设的契合度阈值;若所述语义契合度超出所述契合度阈值,则保留对应的预选表格区域;若所述语义契合度未超出所述契合度阈值,则筛除对应的预选表格区域。
[0013]通过采用上述技术方案,通过语义分析模型可以分析出各个表头内容与表头内容数据库中数据内容之间的语义相似度,再计算得到表格内容的语义契合度,从而可以根据预设的契合度阈值判断是否保留预选表格区域,若语义契合度未超出契合度阈值,则说明对应预选表格区域中的表格内容不为所需的表格内容,因此需要筛除对应的预选表格区域。
[0014]可选的,所述对所述表格图片进行图像识别,得到所述表格图片中的表格特征和文本属性包括如下步骤:通过预设的线段识别算法识别所述表格图片中的所有基础线段;获取所有所述基础线段两端基础线段端点的端点坐标;基于所述端点坐标标记出所述基础线段端点中的公共交点;
筛除所有所述基础线段中至少一端所述基础线段端点不为所述公共交点的孤立基础线段;分别统计各个所述公共交点的端点重合数量;将所述端点重合数量和所述公共交点的交点坐标值作为所述公共交点的交点属性;结合筛除后的所有所述基础线段和所有所述交点属性生成表格特征;结合预设的文本识别算法和所述交点属性获取所述表格图片中各个单元格的文本属性。
[0015]通过采用上述技术方案,图像识别包括线段识别算法和文字识别算法,先通过线段识别算法识别出表格图片中的所有基础线段,由于基础线段中可能包含不属于表格边框的线段,因此需要根据基础线段中基础线段端点的端点坐标分析出具有基础线段交汇的公共交点,再通过判断基础线段中的两个端点是否均为公共交点,以判断基础线段是否为不属于表格边框的孤立基础线段,并筛除孤立基础线段,从而根据筛除后的所有基础线段和所有交点属性生成表格特征,并结合预设的文本识别算法和交点属性获取表格图片中各个单元格的文本属性。
[0016]可选的,所述结合预设的文本识别算法和所述交点属性获取所述表格图片中各个单元格的文本属性包括如下步骤:通过预设的文本识别算法识别所述表格图片中各个单元格内的文本内容,并根据所述文本内容生成文本内容框;基于所述交点坐标值所在坐标系获取所述文本内容框的内容框坐标值;结合所述交点坐标值和所述内容框坐标值选取对应文本内容框的关联公共交点;将所述关联公共交点的关联交点属性和所述文本内容作为对应单元格的文本属性。
[0017]通过采用上述技术方案,通过文字识别算法可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种PDF表格内容识别方法,其特征在于,包括如下步骤:获取包含表格内容的待识别PDF文档;预处理所述待识别PDF文档,得到预处理文档;通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域;从所述预处理文档中截取出所述表格区域,并基于所述表格区域生成表格图片;对所述表格图片进行图像识别,得到所述表格图片中的表格特征和文本属性;在预设的可编辑文档中基于所述表格特征生成目标表格;根据所述文本属性在所述目标表格中的各个目标单元格内填入对应的目标文字。2.根据权利要求1所述的一种PDF表格内容识别方法,其特征在于,所述预处理所述待识别PDF文档,得到预处理文档包括如下步骤:检测所述待识别PDF文档是否存在水印图层;若存在所述水印图层,则删除所述水印图层,得到去水印文档;对所述去水印文档进行去均值化处理,得到去均值化文档;对所述去均值化文档进行归一化处理,得到预处理文档。3.根据权利要求1所述的一种PDF表格内容识别方法,其特征在于,所述通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域包括如下步骤:通过预设的表格识别模型识别出所述预处理文档中的所有预选表格区域;识别所有所述预选表格区域中表头部分的表头内容;结合预设的表头内容数据库和所述表头内容筛选所述预选表格区域;将筛选后剩下的所有所述预选表格区域作为识别到的表格区域。4.根据权利要求3所述的一种PDF表格内容识别方法,其特征在于,所述结合预设的表头内容数据库和所述表头内容筛选所述预选表格区域包括如下步骤:基于预设的表头内容数据库对所述表头内容进行语义分析,得到所述表格内容的语义契合度;判断所述语义契合度是否超出预设的契合度阈值;若所述语义契合度超出所述契合度阈值,则保留对应的预选表格区域;若所述语义契合度未超出所述契合度阈值,则筛除对应的预选表格区域。5.根据权利要求1所述的一种PDF表格内容识别方法,其特征在于,所述对所述表格图片进行图像识别,得到所述表格图片中的表格特征和文本属性包括如下步骤:通过预设的线段识别算法识别所述表格图片中的所有基础线段;获取所有所述基础线段两端基础线段端点的端点坐标;基于所述端点坐标标记出所述基础线段端点中的公共交点;筛除所有所述基础线段中至少一...

【专利技术属性】
技术研发人员:蔡青山黄威威黄鑫涛
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1