一种电力设备试验报告的结构化处理方法技术

技术编号:15200331 阅读:93 留言:0更新日期:2017-04-22 01:51
目前有大量在信息系统建设之前的设备试验报告没有纳入信息系统中进行结构化存储,这些丰富的历史试验结果数据的价值也就未得到充分利用。本发明专利技术涉及电力设备状态监测及故障诊断技术领域,特别涉及一种电力设备试验报告的结构化处理方法:首先将纸质试验报告转成电子化图像文件;其次基于OCR技术将图像信息转化为文本信息;然后结合模板配置信息进行结构化处理;接着对识别的试验数据进行校核分析;最后完成试验设备匹配并保存至信息系统。本发明专利技术创造性地实现了出厂、交接、预防性及跟踪试验等历史纸质的电力设备试验报告的结构化处理与存储,丰富了诊断分析所需的基础数据,提升了电力设备运维水平和输变电设施的可靠性。

Structured processing method for electric power equipment test report

At present, there are a large number of equipment test reports before the information system construction is not included in the information system for structured storage, the value of these rich historical test results data has not been fully utilized. The invention relates to a power equipment condition monitoring and fault diagnosis technology field, in particular relates to a method for processing structured power equipment test report: first, the paper test report into electronic image files; secondly based on the technology of OCR image information into text information; and then combined with the configuration information template structure; followed by analysis of the check test data recognition; finally, complete test equipment and save information system. The invention creatively implement the structured processing and storage, transfer, prevention of factory test reports of power equipment and tracking test history paper, enrich the basic data analysis required, to enhance the reliability of power transmission and distribution facilities and equipment maintenance level.

【技术实现步骤摘要】

本专利技术涉及电力设备状态监测及故障诊断
,特别涉及一种电力设备试验报告的结构化处理方法。
技术介绍
预防性试验是电力设备运行和维护工作中的一个重要环节,是保证电力系统安全运行的有效手段之一。最常见的试验项目有:交流耐压试验、直流耐压试验、局部放电测量、气体的色谱分析、空载电流测量、极化指数、吸收比、极性检查、介质损耗因数tanδ试验。电力设备运维人员在分析设备是否存在缺陷时,不仅需要分析本次试验结果数据,还需要与该设备历次试验结果数据以及同类设备试验结果数据相比较,进行全面分析后再做出判断。目前,在未建立信息系统之前,电力设备预防性试验一般是先根据试验内容模板打印出纸质的试验报告,然后在试验过程中根据试验情况由人工完成试验结果数据填写,最后再将试验报告进行存档。根据设备类型和试验类型的不同,电力设备预防性试验的内容模板也不同,如图1是一种变压器耐压试验的内容模板。生产管理信息系统的建设和现场作业移动应用的推广,为电力设备试验结果数据的结构化存储提供了便利基础。但仍有大量在信息系统建设之前的设备试验结果数据,以纸质文件的形式进行存档。因为未纳入信息系统中进行结构化存储,这些丰富的历史试验数据的价值也未得到充分利用。由于纸质历史试验报告的数量很多,靠人工在信息系统中进行补录的工作量巨大。因此,为方便试验结果数据的查询与分析,试验结果数据的结构化存储是十分重要且必要的。
技术实现思路
为实现出厂、交接、预防性及跟踪试验等历史纸质的电力设备试验报告的结构化处理与存储,充分发挥电力设备历史试验数据的价值,为电力设备诊断分析提供更丰富的数据基础,促进电力设备运维水平的提升,进而提高电力设备运行的可靠性,本专利技术提出了一种电力设备试验报告结构化处理方法,主要包括以下步骤,如图2所示:(1)将纸质试验报告转成电子化图像文件;(2)基于OCR技术将图像信息转化为文本信息;(3)结合模板配置信息进行结构化处理;(4)对识别的试验数据进行校核分析;(5)完成试验设备匹配并保存至信息系统。进一步,步骤(1)首先根据设备类型、试验类型和试验内容模板,对纸质试验报告进行分类整理,然后通过高速扫描仪将所有纸质试验报告进行自动批量扫描成电子化图像文件,并按照设备类型、试验类型和试验内容模板采用不同的文件路径保存。进一步,步骤(2)基于OCR技术,如tesseract引擎,将电子化的试验报告图像文件转化成文本信息,并生成一个box文件;所述box文件记录tesseract识别出来的每一个字和其位置坐标。进一步,步骤(2)基于OCR技术将图像信息转化为文本信息的转化过程中,可以选择默认的简体中文语言库,也可基于tesseract提供的训练样本方法,生成自己所需的识别语言库。进一步,针对每组设备类型、试验类型和试验内容模板的试验报告文件,设置一套模板配置信息;步骤(3)在模板配置信息的基础上,根据配置的位置信息,对步骤(2)识别出来的文本信息和其位置坐标进行对比解析,并根据配置的对象信息进行结构化保存至试验报告处理的中间数据库。进一步,步骤(3)中所述的模板配置信息是根据需要解析的各部分内容,配置其在图像文件中的位置信息和其在结构化处理后的对象信息。进一步,步骤(3)结合模板配置信息进行结构化处理中所述的中间数据库采用传统的关系数据库。进一步,步骤(4)根据电力设备试验报告的业务特征,采用以下三种方法中的至少一种对保存在中间数据库的试验数据进行数据校核分析:方法1:根据试验内容数据自身的阈值范围进行校核分析;方法2:根据试验内容项之间的数据关系进行校核分析;方法3:根据同一设备同一试验内容在不同时间的试验数据变化趋势进行校核。进一步,步骤(5)首先根据试验报告中电力设备及试验内容项的命名方式,制定与信息系统中的设备及试验内容项的匹配规则;在建立了匹配规则的基础上,将试验报告处理中间数据库中的数据,以信息系统中的数据形式,统一保存至信息系统的数据库中;所述信息系统是一种生产管理信息系统。进一步,步骤(5)完成试验设备匹配并保存至信息系统中所述的统一保存的方法可以通过数据库间的映射进行批量导入,也可以通过编写程序进行转换保存。综上,则完成了历史纸质的电力设备试验报告的结构化处理,并统一保存至信息系统中,电力设备运维人员可以方便地对这些历史试验结果数据进行相关查询与分析。本专利技术提出了一种电力设备试验报告的结构化处理方法,实现了历史纸质的电力设备试验报告的结构化处理与存储,为电力设备诊断分析提供更丰富的数据基础,不仅充分发挥历史试验数据的价值,还提升了电力设备运维水平,提高了电力设备运行的可靠性。其具体技术优势如下:实现了智能结构化处理电力设备试验报告,彻底克服了纸质报告数据转化为信息系统数据的关键难题,显著提升了电力试验生产业务的处理效率。实现了高效率补录电力设备历史试验数据,进一步丰富了诊断分析电力设备的基础工况数据样本,一举扭转了依赖人工录入信息系统的被动局面。实现了归集电力设备全生命周期试验数据,有助于挖掘了出厂、交接及预防性试验等历史工况数据的潜在价值,显著提升了输变电设施的可靠性。附图说明图1是一种变压器耐压试验的内容模板截图;图2是本专利技术电力设备试验报告结构化处理与存储的流程示意图。具体实施方式以下结合附图对本专利技术作进一步说明。一种电力设备试验报告的结构化处理方法,包括以下五个步骤:(1)将纸质试验报告转成电子化图像文件此步骤首先根据设备类型、试验类型和试验内容模板,对出厂、交接、预防性及跟踪试验等纸质试验报告进行分类整理,然后通过高速扫描仪将所有纸质试验报告进行自动批量扫描成电子化图像文件,并按照设备类型、试验类型和试验内容模板采用不同的文件路径保存。(2)基于OCR技术将图像信息转化为文本信息OCR(opticalcharacterrecognition,光学字符识别)技术目前已经渐趋成熟,并已形成很多商业软件,也有开源的OCR引擎支持用户编写软件对图像上的文字进行识别,比如由HP实验室研发、由Google改进及维护的tesseract引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。本步骤基于OCR技术(如tesseract引擎),将电子化的试验报告图像文件,转化成文本信息,并生成一个box文件,该文件记录tesseract识别出来的每一个字和其位置坐标。其中,在转化过程中,可以选择默认的简体中文语言库,也可基于tesseract提供的训练样本方法,生成自己所需的识别语言库。(3)结合模板配置信息进行结构化处理对于某一组特定的设备类型、试验类型和试验内容模板的试验报告文件,其格式是固定的,而且中文属性与数字值一般结对出现,在图像文件中的相对位置也是固定的。因此,针对每组设备类型、试验类型和试验内容模板的试验报告文件设置一套模板配置信息。模板配置信息是根据需要解析的各部分内容,配置其在图像文件中的位置信息和其在结构化处理后的对象信息,比如可采用XML方式配置。本步骤在模板配置信息的基础上,根据配置的位置信息,对步骤(2)识别出来的文本信息和其位置坐标进行对比解析,并根据配置的对象信息进行结构化保存至试验报告处理的中间数据库,该数据库采用传统的关系数据库。(4)对识别的试验数据进行本文档来自技高网...
一种电力设备试验报告的结构化处理方法

【技术保护点】
一种电力设备试验报告的结构化处理方法,其特征在于包括以下步骤:(1)将纸质试验报告转成电子化图像文件;(2)基于OCR技术将图像信息转化为文本信息;(3)结合模板配置信息进行结构化处理;(4)对识别的试验数据进行校核分析;(5)完成试验设备匹配并保存至信息系统。

【技术特征摘要】
1.一种电力设备试验报告的结构化处理方法,其特征在于包括以下步骤:(1)将纸质试验报告转成电子化图像文件;(2)基于OCR技术将图像信息转化为文本信息;(3)结合模板配置信息进行结构化处理;(4)对识别的试验数据进行校核分析;(5)完成试验设备匹配并保存至信息系统。2.根据权利要求1所述的一种电力设备试验报告的结构化处理方法,其特征在于:步骤(1)首先根据设备类型、试验类型和试验内容模板,对纸质试验报告进行分类整理,然后通过高速扫描仪将所有纸质试验报告进行自动批量扫描成电子化图像文件,并按照设备类型、试验类型和试验内容模板采用不同的文件路径保存。3.根据权利要求1所述的一种电力设备试验报告的结构化处理方法,其特征在于:步骤(2)基于OCR技术,如tesseract引擎,将电子化的试验报告图像文件转化成文本信息,并生成一个box文件;所述box文件记录tesseract识别出来的每一个字和其位置坐标。4.根据权利要求1所述的一种电力设备试验报告的结构化处理方法,其特征在于:步骤(2)基于OCR技术将图像信息转化为文本信息的转化过程中,可以选择默认的简体中文语言库,也可基于tesseract提供的训练样本方法,生成自己所需的识别语言库。5.根据权利要求1所述的一种电力设备试验报告的结构化处理方法,其特征在于:针对每组设备类型、试验类型和试验内容模板的试验报告文件,设置一套模板配置信息;步骤(3)在模板配置信息的基础上,根据配置的位置信息,对步骤(2)识别出来的文本信息和其位置坐标进行对比解析...

【专利技术属性】
技术研发人员:张炜杨健吴秋莉颜海俊苏毅邬蓉蓉郭丽娟邓雨荣张玉波吕泽承黎新
申请(专利权)人:广西电网有限责任公司电力科学研究院
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1