一种PDF表格内容识别方法、系统及存储介质技术方案

技术编号：36298176 阅读：49 留言：0更新日期：2023-01-13 10:13

本申请公开了一种PDF表格内容识别方法、系统及存储介质，其涉及PDF内容识别技术领域，该方法包括如下步骤：获取包含表格内容的待识别PDF文档；预处理所述待识别PDF文档，得到预处理文档；通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域；从所述预处理文档中截取出所述表格区域，并基于所述表格区域生成表格图片；对所述表格图片进行图像识别，得到所述表格图片中的表格特征和文本属性；在预设的可编辑文档中基于所述表格特征生成目标表格；根据所述文本属性在所述目标表格中的各个目标单元格内填入对应的目标文字。本申请具有提取PDF文档中表格内容后可以直接对表格内容进行编辑的效果。以直接对表格内容进行编辑的效果。以直接对表格内容进行编辑的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种PDF表格内容识别方法、系统及存储介质

[0001]本申请涉及PDF内容识别
，尤其是涉及一种PDF表格内容识别方法、系统及存储介质。

技术介绍

[0002]随着计算机技术的发展，越来越多的文档格式被开发出来并被广泛使用着，比如PDF(Portable Document Format，便携式文档格式)格式的文档。其中，PDF是一种被广泛使用的电子文档格式。现在越来越多的专业资料、电子图书、产品说明和电子邮件等在开始使用PDF格式的文档。
[0003]PDF格式的文档是一种不可直接编辑的文档，若想获取并编辑PDF格式文档中表格内的特殊数据时，通常可以通过编写代码遍历PDF文档确定文档中的表格位置，再遍历表格中的各个单元格，以获取单元格属性并爬取单元格内的文本内容，根据单元格属性中的单元格行列数据生成所有文本内容之间的矩阵关系，最后将所有文本内容以矩阵形式输出至新建的可编辑文档中，即可在可编辑文档中编辑表格内容。
[0004]针对上述中的相关技术，专利技术人认为存在有以下缺陷：通过代码遍历爬取PDF文档的表格内容虽然可以准确爬取到表格内的所有数据，但由于表格内容的输出形式是基于单元格属性进行的矩阵输出，若部分单元格中的表格内容较多，则输出的表格内容会比较杂乱，不利于对表格内容进行编辑操作，因此在获取到输出的表格内容后需要重新整理或重新绘制表格才有利于后续的编辑操作。

技术实现思路

[0005]为了改善识别获取到PDF表格内容后可能难以直接对表格内容进行编辑的缺陷，本申请提供一种P...

【技术保护点】

【技术特征摘要】
1.一种PDF表格内容识别方法，其特征在于，包括如下步骤：获取包含表格内容的待识别PDF文档；预处理所述待识别PDF文档，得到预处理文档；通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域；从所述预处理文档中截取出所述表格区域，并基于所述表格区域生成表格图片；对所述表格图片进行图像识别，得到所述表格图片中的表格特征和文本属性；在预设的可编辑文档中基于所述表格特征生成目标表格；根据所述文本属性在所述目标表格中的各个目标单元格内填入对应的目标文字。2.根据权利要求1所述的一种PDF表格内容识别方法，其特征在于，所述预处理所述待识别PDF文档，得到预处理文档包括如下步骤：检测所述待识别PDF文档是否存在水印图层；若存在所述水印图层，则删除所述水印图层，得到去水印文档；对所述去水印文档进行去均值化处理，得到去均值化文档；对所述去均值化文档进行归一化处理，得到预处理文档。3.根据权利要求1所述的一种PDF表格内容识别方法，其特征在于，所述通过预设的表格识别模型识别出所述预处理文档中包含所述表格内容的表格区域包括如下步骤：通过预设的表格识别模型识别出所述预处理文档中的所有预选表格区域；识别所有所述预选表格区域中表头部分的表头内容；结合预设的表头内容数据库和所述表头内容筛选所述预选表格区域；将筛选后剩下的所有所述预选表格区域作为识别到的表格区域。4.根据权利要求3所述的一种PDF表格内容识别方法，其特征在于，所述结合预设的表头内容数据库和所述表头内容筛选所述预选表格区域包括如下步骤：基于预设的表头内容数据库对所述表头内容进行语义分析，得到所述表格内容的语义契合度；判断所述语义契合度是否超出预设的契合度阈值；若所述语义契合度超出所述契合度阈值，则保留对应的预选表格区域；若所述语义契合度未超出所述契合度阈值，则筛除对应的预选表格区域。5.根据权利要求1所述的一种PDF表格内容识别方法，其特征在于，所述对所述表格图片进行图像识别，得到所述表格图片中的表格特征和文本属性包括如下步骤：通过预设的线段识别算法识别所述表格图片中的所有基础线段；获取所有所述基础线段两端基础线段端点的端点坐标；基于所述端点坐标标记出所述基础线段端点中的公共交点；筛除所有所述基础线段中至少一...

【专利技术属性】
技术研发人员：蔡青山，黄威威，黄鑫涛，
申请(专利权)人：企知道网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人