基于OCR技术的电子图纸内线路端口自动链接及跳转方法技术

技术编号:35273821 阅读:28 留言:0更新日期:2022-10-19 10:50
本发明专利技术公开了一种基于OCR技术的电子图纸内线路端口自动链接及跳转方法,包括:设置图纸内的线路端口标记规则;在上传图纸时,如果确定是扫描型PDF,则通过OCR技术将图纸文本化;对上传图纸进行分区;在文本化的图纸内查找符合所述线路端口标记规则的标记;建立所有标记所在页码、坐标及指向页码、坐标的第一映射关系,并结合穷举法确定每一页含有标记图纸的实际页码;建立PDF页码与实际页码的第二映射关系;建立图纸内线路端口双端链接关系,并添加至每一个标记中;在点击标记后跳转到标记对应的目标页码并自动高亮目标坐标区域。通过上述方式,本发明专利技术能够对PDF图纸内线路端口设置跳转链接,点击即可跳转至目标页码并高亮目标坐标区域,方便读图人员快速查阅。方便读图人员快速查阅。方便读图人员快速查阅。

【技术实现步骤摘要】
基于OCR技术的电子图纸内线路端口自动链接及跳转方法


[0001]本专利技术涉及电厂
,特别涉及一种基于OCR技术的电子图纸内线路端口自动链接及跳转方法。

技术介绍

[0002]随着社会的发展,为人们提供稳定电力的发电厂必不可少,,发电厂种类多种多样,有核电厂、常规水电厂、火电厂、抽水蓄能电厂等等,而各个电厂均需要自动化、电气、水工、机械及运行等专业来保证电厂设备的安全稳定运行。各专业人员在对电厂设备开展运维过程中对图纸的理解程度关乎设备安全,但各个专业图纸不仅数量繁多,而且有些图纸逻辑关系十分复杂,极大阻碍了读图效率。例如电气二次图纸中,受限于每页图纸的篇幅,几乎每一条完整的电气回路均分散分布于多页图纸中,错综复杂,各页图纸电气回路之间的连接关系用线路端口上的由字符、字母及数字组成的特殊标记表示,且各个设备厂家的标记规则不尽相同,这些均给专业人员读图并理解图中逻辑关系带来了严重的挑战。目前推行的图纸规范化,统一标记格式虽在一定程度上有助于减轻工作人员读图负担,但未能从根本上解决各页图纸中电气回路断线对快速读图形成巨大阻碍的问题。而人工逐个为图纸设置跳转链接虽然能够从根本上解决上述问题,但前期工作量巨大,且容易出错。

技术实现思路

[0003]本专利技术主要解决的技术问题是提供一种基于OCR技术的电子图纸内线路端口自动链接及跳转方法,能够对PDF图纸内线路端口设置跳转链接,点击链接即可跳转至目标页码并高亮目标坐标区域,方便读图人员查阅,灵活性高。
[0004]为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种基于OCR技术的电子图纸内线路端口自动链接及跳转方法,其特征在于,该方法包括:设置目标图纸内线路端口的标记规则;在上传图纸时,如果确定是扫描型PDF,则通过OCR技术将图纸文本化;根据所述标记规则以及图纸尺寸在图纸中建立坐标系以对图纸进行分区;在分区后的图纸内查找符合所述标记规则的标记;建立所有标记所在页码、坐标以及标记所指向页码、标记所指向页码的坐标所对应的第一映射关系,并结合穷举法确定每一页含有标记图纸的实际页码;建立PDF页码与实际页码的第二映射关系;根据每个标记的实际页码及坐标,结合第二映射关系,建立图纸内线路端口双端链接关系,并将其加入至每一个标记;在点击标记后跳转到该标记所对应的目标页码并自动高亮目标坐标区域。
[0005]进一步的,该方法还包括:在建立的坐标系内加入自动高亮坐标区域的功能,以使得在击标记后跳转到该标记所对应的目标页码,并对该目标页码所对应的坐标区域进行自动高亮。
[0006]进一步的,执行所述在分区后的图纸内查找符合所述标记规则的标记的步骤之前,该方法还包括:判断分区后的图纸是否存在有符合所述标记规则的标记;如果确定分区后的图纸存在有符合所述标记规则的标记,则在分区后的图纸内查找符合所述标记规则的
所有标记。
[0007]进一步的,该方法还包括:如果确定分区后的图纸没有存在符合所述标记规则的标记,则手动为该分区后的图纸设置符合所述标记规则的标记。
[0008]进一步的,所述对图纸建立所有标记所在页码、坐标及指向页码、坐标的第一映射关系,并结合穷举法确定每一页含有标记图纸的实际页码的步骤包括:根据使用IText对可编辑PDF图纸文件进行全文扫码,且根据正则识别复核规则的文本段落,并获取横纵坐标的最大值;如果找到对应横纵坐标的最大值,则使用IText对可编辑PDF图纸文件计算图纸的尺寸,并通过尺寸大小以及边距计算当前页中每一块存在的规则数,并按照规则跳转到指定的页面和位置,并通过穷举法确定每一页含有标记图纸的实际页码。
[0009]进一步的,所述将所上传的图纸建立图纸内线路端口双端链接关系,并添加至每一个标记中,在点击标记后跳转到标记对应的目标页码并自动高亮目标坐标区域的步骤包括:将已经存在关联的图纸进行再次关联,并进一步根据规则,识别页面和行列信息,并生成一个URL为#开头的链接;如果存在二次关联的图纸,则存储生成规则的PDF文件,文件名为“原文件名_Linked.pdf”,前端使用PDFJS,加载Linked的PDF文件,扫码具有特殊URL的a元素,然后添加Click监听,跳转到对应页面,并通过穷举法来确定实际页码。
[0010]也就是说,本实施例通过在每一页子图纸上设置跳转点,可以通过点击该跳转点可以将所显示的图纸跳转至与该跳转点对应的图纸进行显示,实现双向跳转,灵活性高
[0011]本专利技术的有益效果是:区别于现有技术的情况,本专利技术所公开的基于OCR技术的电子图纸内线路端口自动链接及跳转方法能够对所上传的图纸进行识别、判断并设置跳转链接,使得读图人员在点击标记后即可跳转到该标记所对应的目标页码并高亮目标坐标区域,方便读图人员快速查阅,灵活性高。
附图说明
[0012]图1为本专利技术基于OCR技术的电子图纸内线路端口自动链接及跳转方法流程示意图;
[0013]图2是本专利技术跳转后的图纸示意图;
[0014]图3为本专利技术图纸拆分的示意图。
具体实施方式
[0015]请参阅图1,该基于OCR技术的电子图纸内线路端口自动链接及跳转方法包括以下步骤:
[0016]步骤S101:设置目标图纸内线路端口的标记规则。
[0017]应理解,本实施例是针对各个电厂的电子图纸分析出图纸内需要自动链接及跳转的线路端口标记的相同特点,并根据这些特点设置目标图纸内线路端口的标记规则。
[0018]优选地,电厂包括但不限定于核电厂、常规水电厂、抽水蓄能电厂、燃气电厂以及火电厂。
[0019]应理解,相同特点具体可以是符合自动链接及跳转的字符、数字及字母的组合等。
[0020]步骤S102:在上传图纸时,如果确定是扫描型PDF,则通过OCR技术将图纸文本化。
[0021]应理解,上传图纸可以分为可编辑型PDF图纸和扫描型PDF图纸,而使用扫描仪扫
描纸质版图纸得到的就是扫描型PDF图纸。
[0022]在步骤S102中会判断所上传的图纸是否为扫描型PDF,而判断所上传的图纸是否为扫描型PDF主要是同个IText对PDF图纸文件进行全文扫码,判断PDF图纸是否可以进行文字编辑和文字识别,如果可以编辑并识别到文字,则为可编辑型PDF图纸,否则判定所上传的图纸为扫描型PDF图纸。应理解,当确定所上传的图纸为扫描型PDF图纸时,通过OCR技术将图纸文本化。
[0023]步骤S103:根据所述标记规则以及图纸尺寸在图纸中建立坐标系以对图纸进行分区。
[0024]应理解,通过PDFJS对所有PDF图纸文件进行全局全文扫码的同时进行索引处理,查到对应规则之后进行标记。
[0025]步骤S104:在分区后的图纸内查找符合所述标记规则的标记。
[0026]应理解,步骤S104中对图纸进行分区的步骤包括:
[0027]步骤S1041:根据电子图纸搜索内容计算第m个解码词对应解码词向量wm属于每一种类型的概率pm,1、pm,2和pm本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR技术的电子图纸内线路端口自动链接及跳转方法,其特征在于,该方法包括:设置目标图纸内线路端口的标记规则;在上传图纸时,如果确定是扫描型PDF,则通过OCR技术将图纸文本化;根据所述标记规则以及图纸尺寸在图纸中建立坐标系以对图纸进行分区;在分区后的图纸内查找符合所述标记规则的标记;建立所有标记所在页码、坐标及标记所指向页码、标记所指向页码的坐标所对应的第一映射关系,并结合穷举法确定每一页含有标记的图纸的实际页码;建立PDF页码与实际页码的第二映射关系;根据每个标记的实际页码及坐标,结合第二映射关系,建立图纸内线路端口双端链接关系,并将其加入至每一个标记;在点击标记后跳转到该标记所对应的目标页码并自动高亮目标坐标区域。2.根据权利要求1所述的方法,其特征在于,该方法还包括:在建立的坐标系内加入自动高亮坐标区域的功能,以使得在击标记后跳转到该标记所对应的目标页码,并对该目标页码所对应的坐标区域进行自动高亮。3.根据权利要求2所述的方法,其特征在于,执行所述在分区后的图纸内查找符合所述标记规则的标记的步骤之前,该方法还包括:判断分区后的图纸是否存在有符合所述标记规则的标记;如果确定分区后的图纸存在有符合所述标记规则的标记,则在分区后的图纸内查找符合所述标记规则的所有标记。4.根据权利要求3所述的方法,其特征在...

【专利技术属性】
技术研发人员:黄文汉聂靓靓李青黄明浩刘向东凌鹏蒋军
申请(专利权)人:南方电网调峰调频发电有限公司检修试验分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1