一种PDF文档提取的表格信息转换为结构化知识的方法技术

技术编号:29874056 阅读:40 留言:0更新日期:2021-08-31 23:49
本发明专利技术公开了一种PDF文档提取的表格信息转换为结构化知识的方法,其特点采用PDF文档表格知识抽取算法框架构建知识图谱,其表格信息的提取和转换具体包括:将PDF页转化为图片并使用图像处理算法寻找所有闭合矩形框;对闭合矩形框区域进行位置分析以及OCR识别得出完整表格信息;基于表格信息进行跨页表合并以及表名称检测;预定义产品名检测规则以及属性关键字将表头分为第一依据及第二依据;根据依据项位置将表格划分为三类并利用不同规则进行知识抽取,得到头尾实体以及关系的三元组。本发明专利技术与现有技术相比只需提供原始的PDF文档以及预定义依据检测规则即可抽取得到表格内结构化的知识,方法易于实现且准确、可覆盖绝大多数表格种类,为进一步构建知识图谱奠定了良好的基础。

【技术实现步骤摘要】
一种PDF文档提取的表格信息转换为结构化知识的方法
本专利技术涉及数据处理
,尤其是一种从非结构化PDF文档中识别并提取其中表格信息以及将其转换为结构化知识的方法。
技术介绍
随着信息技术的发展以及产品的不断迭代,一些专业领域的设备文档越来越多,这些文档大都没有固定的编写标准,且大都以PDF的形式所储存。在PDF规范中,其文本、位图以及表格等信息并非像Word一样有着明显的结构化关系。PDF中对于文本描述了每个字符的大小、坐标等信息,对表格除此以外还有表格边缘线的一些信息。由此,当处理PDF中表格信息时并不能得知某个字是否在表格内以及它是属于哪行哪列。这对基于PDF文档的表格识别工作带来了巨大的挑战。此外,即使有了结构化的表格信息,但在各种形形色色的表格类型下想要让计算机提取出其中所包含的知识也是一项挑战。因此,如何从非结构化的PDF文档中提取结构化表格中的知识是技术人员关注的一个重点问题。
技术实现思路
本专利技术的目的是针对现有技术的不足而设计的一种PDF文档提取的表格信息转换为结构化知识的方法,采用PDF文档表格知识抽取算法框架构建知识图谱,对非结构化PDF文档经图像处理算法,识别出结构化的表格信息,基于表格中的文本特征,利用规则模板确定表头、设备项等信息,从而精准的抽取出表格中的实体、关系及属性,得到头尾实体及其关系的三元组构建结构化知识图谱,本专利技术只需提供原始的PDF文档以及预定义依据检测规则即可抽取得到表格内结构化的知识,方法易于实现且准确、可覆盖绝大多数表格种类,为进一步构建知识图谱奠定了良好的基础。本专利技术的目的是这样实现的:一种PDF文档提取的表格信息转换为结构化知识的方法,其特点是将结构化表格信息转化为相应的知识图谱具体包括下述步骤:(一)从非结构化PDF中提取结构化表格信息步骤1:将PDF的每一页转化为图片存储在本地。步骤2:对转换好的PDF图片做二值化处理,得到黑白图片。步骤3:利用(1,20)和(20,1)的卷积核对图像做闭运算,从而确定图中的横线与竖线,得到用于寻找表格的临时图。步骤4:通过图像处理算法寻找临时图中的矩形,按矩形面积从大到小排序并遍历,找出所有不被其他矩形所包含的矩形列表(rect_list),具体遍历时当rect_list为空或有不被rect_list内的矩形所包含时则算为rect,否则停止遍历。步骤5:遍历rect_list中的每个矩形,使用OCR模型寻找矩形区域内的文字框;并对区域再做一次矩形检测,如果区域内文本框数量少于4个或区域内矩形框少于4个则移除该矩形。步骤6:取步骤5中处理后的矩形列表进行遍历,根据矩形坐标及阈值确定该矩形在每行每列的位置。步骤7:视矩形为单元格,截取单元格内容并使用OCR模型识别文字,识别结果作为该单元格的文字。步骤8:根据已确定好的矩形框属于表格的第几行第几列与跨行跨列的大小,以及此单元格中的文字内容组织结果并作为表格转图谱步骤的输入。(二)将结构化表格信息转化为相应的知识图谱(结构化知识)由于真实文档中存在的表格形式以及它所记录信息的方式不可胜举,但仅关注表格中数据区域与标题区域之间的对应关系可将表格分为以下三种:1)表格内数据以上方作为依据,左方作为属性;2)表格内数据以左方作为依据,上方作为属性;3)表格内数据无参考依据,仅包含属性。根据上述表格的特征,将其转化为相应的知识图谱具体步骤如下:步骤1:跨页表预先合并,在从非结构化PDF文档中提取表格信息的过程中,若前页下方存在表格且后页上方存在表格,两表拥有相同的首行或后页表格无表头且两表的列数相同下,则认定为跨页表进行合并。步骤2:对每个识别的表格抽取该表格在文档中的上、下文(临近文本),使用模板匹配这些上、下文文本,从中找出符合表格名称特点的文本内容作为表标题(如表1:xxx)。步骤3:预先设定一系列中英文关键字(如:xx参数、xx大小等)以及匹配产品名的正则表达式作为预估表格属于上述三种类别中的哪一个。根据关键字及正则匹配在表格前两行以及前两列中找出第一依据与第二依据开始的行或列(所谓依据,就是哪个做键,哪个做值。键是第一依据,值是第二依据,比如“额定电压”相比于具体产品是做第二依据的,所以找出第一依据和第二依据主要用来组织图谱中的知识,把一个产品从表格中提取出来以树形的方式表现出来)。特殊的,当依据判别的过程中若存在依据跨行或跨列的情况,则需考虑几行/几列的单元格才可以确定唯一属性列。步骤4:针对不同的表格类型,实施不同的图谱转换方法,该方法主要以头实体(第一依据)、关系(第二依据)以及尾实体(值)的知识表示方式进行图谱转换。对无参考依据的表格(即无第一依据),使用其表名称作为第一依据,属性作为第二依据。此外,对于其他特殊情况应考虑如下:1)针对规整表格(不存在单元格跨行跨列情况)需要注意过滤编号行或编号列;2)针对表头跨行的情况需要将表头所涉及的行合并,目的在于生成唯一依据项;3)针对左侧依据,上方属性的表格需要用最小可表达依据的多列表格信息合并为唯一依据,具体实施为递归处理。固定属性行对表格进行递归处理,决定递归的依据是当前左方列能否作为第二列开始的子表的唯一依据项(左方列相比于其他列是否存在跨多行的情况,若存在则不可表达唯一依据),此时递归过程中,左方列标题与单元格值拼接作为头实体,第二列标题与单元格值拼接作为关系,第三列标题与单元格值拼接作为尾实体。当存在唯一依据项时,则表头属性作为关系,相应单元格值作为尾实体。此过程会生成一棵树形结构的图谱。本专利技术与现有技术相比具有将非结构化PDF文档中的表格提取并转化为结构化的知识图谱,并通过跨页表合并、表名称检测以及后续的表格转图谱方法准确的抽取出表格中的头实体(第一依据)、关系(第二依据)以及尾实体(值)等信息,为进一步构建知识图谱提供了可靠的基础保障。附图说明图1为本专利技术的PDF文档表格知识抽取算法框架;图2为产品功能表格;图3为PDF文档转化为图片的表格;图4为员工信息表格。具体实施方式参阅附图1,采用PDF文档表格知识抽取算法框架,构建知识图谱,其表格信息的提取和转换具体包括下述步骤:(一)表格信息的提取1-1:从PDF文档中检测所有矩形轮廓区域,具体包括下述步骤:1-1-1:将PDF文档每一页转化为图片存储于本地;1-1-2:对转换好的PDF图片做二值化处理,并得到黑白图片;1-1-3:利用卷积核对图像做闭运算,从而确定图中的横线与竖线,得到临时图;1-1-4:利用图像处理算法寻找临时图中不被其他矩形所包含的矩形区域;1-1-5:利用OCR模型寻找矩形区域内的文字框,并对该区域再做一次矩形检测,过滤无用的矩形区域。1-2:根据矩形框坐标及阈值确定该矩形在每行每列的位置,及其跨行跨列的大小,确定单元矩形及其坐标信息。本文档来自技高网...

【技术保护点】
1.一种PDF文档提取的表格信息转换为结构化知识的方法,其特征在于采用PDF文档表格知识抽取算法框架构建知识图谱,其表格信息的提取和转换具体包括下述步骤:/n(一)表格信息的提取/n1-1:从PDF文档中检测所有矩形轮廓区域;/n1-2:根据矩形框坐标及阈值确定该矩形在每行每列的位置,及其跨行跨列的大小,确定单元矩形及其坐标信息;/n1-3:根据矩形轮廓区域进行裁剪,使用OCR模型识别单元格内文字,并结合单元格信息生成完整的表格信息;/n(二)结构化知识的转化/n2-1:按下述定义表格类别:/n1)、表格内数据以上方作为依据,左方作为属性;/n2)、表格内数据以左方作为依据,上方作为属性;/n3)、表格内数据无参考依据,仅包含属性;/n2-2:识别并检测表格中数据区域与标题区域间的对应关系,根据表格识别的结果进行分析,判别该表属于预定义的哪种表格类别;/n2-3:将表格按定义的产品名检测以及属性关键字,将表头分为第一依据和第二依据,并根据依据项位置将表格划分为三类进行知识抽取,得到头尾实体以及关系的三元组,进而得到结构化知识。/n

【技术特征摘要】
1.一种PDF文档提取的表格信息转换为结构化知识的方法,其特征在于采用PDF文档表格知识抽取算法框架构建知识图谱,其表格信息的提取和转换具体包括下述步骤:
(一)表格信息的提取
1-1:从PDF文档中检测所有矩形轮廓区域;
1-2:根据矩形框坐标及阈值确定该矩形在每行每列的位置,及其跨行跨列的大小,确定单元矩形及其坐标信息;
1-3:根据矩形轮廓区域进行裁剪,使用OCR模型识别单元格内文字,并结合单元格信息生成完整的表格信息;
(二)结构化知识的转化
2-1:按下述定义表格类别:
1)、表格内数据以上方作为依据,左方作为属性;
2)、表格内数据以左方作为依据,上方作为属性;
3)、表格内数据无参考依据,仅包含属性;
2-2:识别并检测表格中数据区域与标题区域间的对应关系,根据表格识别的结果进行分析,判别该表属于预定义的哪种表格类别;
2-3:将表格按定义的产品名检测以及属性关键字,将表头分为第一依据和第二依据,并根据依据项位置将表格划分为三类进行知识抽取,得到头尾实体以及关系的三元组,进而得到结构化知识。


2.根据权利要求1所述PDF文档提取的表格信息转换为结构化知识的方法,其特征在于所述检测所有矩形轮廓区是对PDF文档进行处理,得到其中与表格相关的矩形轮廓区域,具体包括下述步骤:
1-1-1:将PDF文档每一页转化为图片存储于本地;
1-1-2:对转换好的PDF图片做二值化处理,并得到黑白图片;
1-1-3:利用卷积核对图像做闭运算,从而确定图中的横线与竖线,得到临时图;
1-1-4:利用图像处理算法寻找临时图中不被其他矩形所包含的矩形区域;
1-1-5:利用OCR模型寻找矩形区域内的文字框,并对该区域再做一次矩形检测,过滤无用的矩形区域。


3.根据权利要求1所述PDF文档提取的表格信息转换为结构化知识的方法,其特征在于...

【专利技术属性】
技术研发人员:张帆赵前陶思雨李倩倩戚瑶瑶
申请(专利权)人:上海电气集团股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1