PDF表格文字识别方法和装置制造方法及图纸

技术编号:31578526 阅读:15 留言:0更新日期:2021-12-25 11:20
本发明专利技术公开了一种PDF表格文字识别方法和装置。所述方法包括:读取PDF表格中的文字和直线;取出一个待匹配的模板;根据模板定义的关键字及其关键字单元格,寻找PDF表格中的关键字及其关键字单元格,确定模板与PDF表格是否匹配,若匹配成功则进入下一步;根据模板定义的关键字单元格与其它的值单元格、混合单元格和组单元格之间的拓扑关系,寻找并提取PDF表格中的值单元格、混合单元格和组单元格的信息,得到识别结果;如此匹配所有模板,合并处理匹配成功的每一个模板的识别结果,并消除其中重复的部分。本发明专利技术实现了对表格中不同类型的单元格的准确定位,避免了表格位置变化对识别带来的影响,解决了现有技术的不足。解决了现有技术的不足。解决了现有技术的不足。

【技术实现步骤摘要】
PDF表格文字识别方法和装置


[0001]本专利技术涉及PDF文件识别
,具体涉及一种基于单元格拓扑关系的PDF表格文字识别方法和装置。

技术介绍

[0002]随着数字化信息技术的发展,PDF文件在设计企业的生产和管理中发挥的作用也越来越大,受到重视的程度日益提高。许多业主在接收设计图纸的时候,往往还要求设计企业提供与之对应的PDF文件。设计企业的电子档案管理,对PDF文件归档的要求日益重要。如果设计企业对多年来积累的PDF文件能有效管理,能在大量的历史图档中找到和当前工程设计有关的图档并有效利用,就能够大大节省重新设计的时间,带来可观的效益。但是,海量的PDF文件,也带来了管理上的难题。为了把这些PDF文件进行有效的分类,必须提取图档中的工程、专业、设计者等有效信息。
[0003]PDF图档文件中的关键信息,往往存在于“表格”(Title Box)中。如图1所示,是PDF文件中的表格的示意图,该表格记录了设计企业的信息、设计者的信息、以及工程编号、图名等具体的工程信息,对图档的用途有说明作用。几乎所有正式打印交付的图档都有表格。因此,表格信息对于检索图档有着至关重要的作用。目前提取表格信息是一个重复和繁琐的手工录入过程,面对海量的PDF文件,工作量非常大,而且容易出现人为的错误。
[0004]自动提取表格信息的研究已经有一些成果。这些研究都集中于通过定制模板来实现表格信息的读取。因为同一设计单位的表格都具有相似的布局,因此定制模板的方式能解决相当部分表格的读取问题。然而,迄今这些识别方法都是针对相对固定的表格格式,主要借助表格中的特征文字进行识别,无法解决在实际应用中出现的表格变化问题。
[0005]这些问题包括:
[0006](1)表格布局的变化。表格虽然有大致的布局,但往往没有严格统一的规范;同时由于表格方式的多样性,设计人员也容易随心所欲的对表格进行一些修改。比如,因为文字太多,存放文字的单元格被拉长、加宽或移位。这类布局的变化,会导致识别失败。
[0007](2)相似的表格引起的重复识别问题。许多表格看似相同,实际上存在变化,特别是信息的提示文字-关键字发生变化,使得一个模板无法同时适应多种表格。如果针对每一种变化制定一个模板,又容易出现重复识别的问题,即某些图,能同时适用于多个模板。特别是表格格式比较多的时候,不同的模板之间很难完全区分开,这种情况非常容易发生。
[0008](3)没有关键字指引的单元格的识别与定位。有些单元格没有明显的关键字在附近,但是又必须准确识别。

技术实现思路

[0009]本专利技术的目的在于克服现有技术的不足,提出一种PDF表格文字识别方法和装置,通过对表格共性的提取,制定一套匹配的规则,对表格中的单元格进行准确定位,读取单元格中的文字,提取出表格信息。
[0010]本专利技术第一方面,提供一种PDF表格文字识别方法,该方法用计算机程序实现,自动读取PDF文件中的表格信息,该方法包括如下步骤:第一步,读取所述PDF表格中的文字和直线;第二步,取出下一个待匹配的模板,模板为预先定义好的;第三步,根据所述模板定义的关键字及其关键字单元格,寻找所述PDF表格中的关键字及其关键字单元格,确定所述模板与所述PDF表格是否匹配,若匹配成功则进入下一步,否则返回到第二步;第四步,根据所述模板定义的关键字单元格与其它的值单元格、混合单元格和组单元格之间的拓扑关系,寻找所述PDF表格中的值单元格、混合单元格和组单元格并提取其中的信息,得到识别结果;第五步,如果还有待匹配的其他模板,则返回到第二步;最后,等到全部模板都依次匹配识别之后,合并处理匹配成功的每一个模板的识别结果,并消除其中重复的部分,得到最终的识别结果。
[0011]一种实现方式中,所述第一步还包括对读取的文字和直线进行预处理,所述预处理的步骤包括:提取PDF表格中的文字和直线的坐标位置和内容参数,把不同类型的文字和直线分别归并为同一类型的文字和直线,把方向相同、首尾相连或中间部分重复的直线合并为一条单一的直线;把误差范围内略微倾斜的直线调整成为角度为0
°
或90
°
的直线;以及,把所有的直线和文字分别按照坐标位置排序。
[0012]一种实现方式中,所述第三步包括:寻找所述PDF表格中的一个关键字及其关键字单元格,并根据该已知关键字单元格寻找所述PDF表格内的其它单元格;如果所述模板只定义了一个关键字单元格,则在该关键字单元格找到后,认为所述模板与所述PDF表格匹配成功;如果所述模板定义了多个不同的关键字单元格,再根据所述模板定义的表格搜索范围和不同的关键字单元格之间的拓扑关系,寻找所述PDF表格中的其它关键字及其关键字单元格;如果成功完成则认为所述模板与所述PDF表格匹配成功。
[0013]一种实现方式中,所述第三步中寻找所述PDF表格中的一个关键字及其关键字单元格的步骤包括:在寻找关键字单元格时,根据关键字所在的位置任意确定一点P,再按上,、下、左、右方向,根据以下规则找到所有直线L:从所述点P引垂线到一直线,垂足落在所述直线上即认为获得一个所述直线L;再轮流选取四个方向上的直线,每个方向上均根据距离由近到远排序,如果是水平线,寻找垂直方向上相交的两条直线;如果是垂直线,寻找水平方向上相交的两条直线,直至得到包围该点P、且两两相交的两条水平直线和两条垂直直线,即为所述关键字所在的关键字单元格的四条边。
[0014]一种实现方式中,所述第三步中根据该已知关键字单元格寻找所述PDF表格内的其它单元格的步骤包括:反复根据已知关键字单元格在某个方向寻找与其相邻的单元格,其中,寻找左边相邻的单元格的步骤包括:寻找相交于所述已知关键字单元格矩形的左边线的所有直线并分别求出交点,所述交点把所述已知关键字单元格的左边线分隔成若干个线段A,找到分别相交于每个所述线段A,的上、下端点的两条水平直线B和C,再寻找位于所述线段A的左边、并且平行于所述线段A、还相交于所述水平直线B和C、同时距离A最近的直线D,所述线段A、直线B和C、以及直线D组成的单元格就是左边相邻的单元格。
[0015]一种实现方式中,所述第四步中寻找所述值单元格、混合单元格和组单元格并提取其中的信息的步骤包括:在寻找值单元格式时,根据所述关键字单元格,利用所述模板中规定的所述拓扑关系,找到对应的值单元格;或者在全部单元格中,寻找与所述模板定义的所述值单元格的位置最接近的一个单元格。
[0016]一种实现方式中,所述第四步中寻找所述值单元格、混合单元格和组单元格并提取其中的信息的步骤包括:在寻找混合单元格时,首先搜索包含混合单元格关键字的单元格,然后在单元格的内容中去除关键字部分。
[0017]一种实现方式中,所述第四步中寻找所述值单元格、混合单元格和组单元格并提取其中的信息的步骤包括:在寻找组单元格时,首先搜索与其配对的关键字单元格,然后反复在规定的方向上搜索与其宽度相同的单元格。
[0018]本专利技术第二方面,提供一种PDF表格文字识别装置,该装置包括:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种PDF表格文字识别方法,其特征在于,包括如下步骤:第一步,读取PDF表格中的文字和直线;第二步,取出一个待匹配的模板;第三步,根据所述模板定义的关键字及其关键字单元格,寻找所述PDF表格中的关键字及其关键字单元格,确定所述模板与所述PDF表格是否匹配,若匹配成功则进入下一步,否则返回到第二步;第四步,根据所述模板定义的关键字单元格与其它的值单元格、混合单元格和组单元格之间的拓扑关系,寻找所述PDF表格中的值单元格、混合单元格和组单元格并提取其中的信息,得到识别结果;第五步,如果还有待匹配的其他模板,则返回到第二步,否则合并处理匹配成功的每一个模板的识别结果,并消除其中重复的部分。2.根据权利要求1所述的方法,其特征在于,所述第一步还包括对读取的文字和直线进行预处理,所述预处理的步骤包括:提取PDF表格中的文字和直线的坐标位置,把不同类型的文字和直线分别归并为同一类型的文字和直线,把方向相同、首尾相连或中间部分重复的直线合并为一条单一的直线,把误差范围内略微倾斜的直线调整成为角度为0
°
或90
°
的直线,以及,把所有的直线和文字分别按照坐标位置排序。3.根据权利要求1所述的表格识别方法,其特征在于,所述第三步包括:寻找所述PDF表格中的一个关键字及其关键字单元格,并根据该已知关键字单元格寻找所述PDF表格内的其它单元格;如果所述模板只定义了一个关键字单元格,则在该关键字单元格找到后,认为所述模板与所述PDF表格匹配成功;如果所述模板定义了多个不同的关键字单元格,再根据所述模板定义的不同的关键字单元格之间的拓扑关系,寻找所述PDF表格中的其它关键字及其关键字单元格;如果成功完成则认为所述模板与所述PDF表格匹配成功。4.根据权利要求3所述的表格识别方法,其特征在于,所述第三步中寻找所述PDF表格中的一个关键字及其关键字单元格的步骤包括:在寻找关键字单元格时,根据关键字所在的位置任意确定一点P,再按上、下、左、右方向,根据以下规则找到所有直线L:从所述点P引垂线到一直线,垂足落在所述直线上即认为获得一个所述直线L;再轮流选取四个方向上的直线,每个方向上均根据距离由近到远排序,如果是水平线,寻找垂直方向上相交的两条直线;如果是垂直线,寻找水平方向上相交的两条直线,直至得到包围该点P、且两两相交的两条水平直线和两条垂直直线,即为所述关键字所在的关键字单元格的四条边。5.根据权利要求3所述的方法,其特征在于,所述第...

【专利技术属性】
技术研发人员:黄天祥
申请(专利权)人:纬衡浩建科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1