【技术实现步骤摘要】
一种PDF文档提取的表格信息转换为结构化知识的方法
本专利技术涉及数据处理
,尤其是一种从非结构化PDF文档中识别并提取其中表格信息以及将其转换为结构化知识的方法。
技术介绍
随着信息技术的发展以及产品的不断迭代,一些专业领域的设备文档越来越多,这些文档大都没有固定的编写标准,且大都以PDF的形式所储存。在PDF规范中,其文本、位图以及表格等信息并非像Word一样有着明显的结构化关系。PDF中对于文本描述了每个字符的大小、坐标等信息,对表格除此以外还有表格边缘线的一些信息。由此,当处理PDF中表格信息时并不能得知某个字是否在表格内以及它是属于哪行哪列。这对基于PDF文档的表格识别工作带来了巨大的挑战。此外,即使有了结构化的表格信息,但在各种形形色色的表格类型下想要让计算机提取出其中所包含的知识也是一项挑战。因此,如何从非结构化的PDF文档中提取结构化表格中的知识是技术人员关注的一个重点问题。
技术实现思路
本专利技术的目的是针对现有技术的不足而设计的一种PDF文档提取的表格信息转换为结构化知识的方法,采用PDF文档表格知识抽取算法框架构建知识图谱,对非结构化PDF文档经图像处理算法,识别出结构化的表格信息,基于表格中的文本特征,利用规则模板确定表头、设备项等信息,从而精准的抽取出表格中的实体、关系及属性,得到头尾实体及其关系的三元组构建结构化知识图谱,本专利技术只需提供原始的PDF文档以及预定义依据检测规则即可抽取得到表格内结构化的知识,方法易于实现且准确、可覆盖绝大多数表格种类,为进一步构 ...
【技术保护点】
1.一种PDF文档提取的表格信息转换为结构化知识的方法,其特征在于采用PDF文档表格知识抽取算法框架构建知识图谱,其表格信息的提取和转换具体包括下述步骤:/n(一)表格信息的提取/n1-1:从PDF文档中检测所有矩形轮廓区域;/n1-2:根据矩形框坐标及阈值确定该矩形在每行每列的位置,及其跨行跨列的大小,确定单元矩形及其坐标信息;/n1-3:根据矩形轮廓区域进行裁剪,使用OCR模型识别单元格内文字,并结合单元格信息生成完整的表格信息;/n(二)结构化知识的转化/n2-1:按下述定义表格类别:/n1)、表格内数据以上方作为依据,左方作为属性;/n2)、表格内数据以左方作为依据,上方作为属性;/n3)、表格内数据无参考依据,仅包含属性;/n2-2:识别并检测表格中数据区域与标题区域间的对应关系,根据表格识别的结果进行分析,判别该表属于预定义的哪种表格类别;/n2-3:将表格按定义的产品名检测以及属性关键字,将表头分为第一依据和第二依据,并根据依据项位置将表格划分为三类进行知识抽取,得到头尾实体以及关系的三元组,进而得到结构化知识。/n
【技术特征摘要】
1.一种PDF文档提取的表格信息转换为结构化知识的方法,其特征在于采用PDF文档表格知识抽取算法框架构建知识图谱,其表格信息的提取和转换具体包括下述步骤:
(一)表格信息的提取
1-1:从PDF文档中检测所有矩形轮廓区域;
1-2:根据矩形框坐标及阈值确定该矩形在每行每列的位置,及其跨行跨列的大小,确定单元矩形及其坐标信息;
1-3:根据矩形轮廓区域进行裁剪,使用OCR模型识别单元格内文字,并结合单元格信息生成完整的表格信息;
(二)结构化知识的转化
2-1:按下述定义表格类别:
1)、表格内数据以上方作为依据,左方作为属性;
2)、表格内数据以左方作为依据,上方作为属性;
3)、表格内数据无参考依据,仅包含属性;
2-2:识别并检测表格中数据区域与标题区域间的对应关系,根据表格识别的结果进行分析,判别该表属于预定义的哪种表格类别;
2-3:将表格按定义的产品名检测以及属性关键字,将表头分为第一依据和第二依据,并根据依据项位置将表格划分为三类进行知识抽取,得到头尾实体以及关系的三元组,进而得到结构化知识。
2.根据权利要求1所述PDF文档提取的表格信息转换为结构化知识的方法,其特征在于所述检测所有矩形轮廓区是对PDF文档进行处理,得到其中与表格相关的矩形轮廓区域,具体包括下述步骤:
1-1-1:将PDF文档每一页转化为图片存储于本地;
1-1-2:对转换好的PDF图片做二值化处理,并得到黑白图片;
1-1-3:利用卷积核对图像做闭运算,从而确定图中的横线与竖线,得到临时图;
1-1-4:利用图像处理算法寻找临时图中不被其他矩形所包含的矩形区域;
1-1-5:利用OCR模型寻找矩形区域内的文字框,并对该区域再做一次矩形检测,过滤无用的矩形区域。
3.根据权利要求1所述PDF文档提取的表格信息转换为结构化知识的方法,其特征在于...
【专利技术属性】
技术研发人员:张帆,赵前,陶思雨,李倩倩,戚瑶瑶,
申请(专利权)人:上海电气集团股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。