核电文件校验处理方法以及系统技术方案

技术编号:20545941 阅读:29 留言:0更新日期:2019-03-09 18:52
本发明专利技术公开了一种核电文件校验处理方法以及系统,方法包括:从企业内容管理系统中获取非结构化核电文件及相关元数据信息;根据获取到的非结构化核电文件及相关元数据信息,基于预先录入的校验规则配置信息,获取校验规则;基于所述校验规则,对所述非结构化核电文件进行图像分割,并对分割出来的信息块图片进行文字识别以提取图片结构化信息;结合所述图片结构化信息,进行文档数据校验。本发明专利技术适用于包含图片的非结构化核电文件的校验处理,填补了核电企业内容自动化图像识别校验的空白,可以根据需求预先录入配置信息以实现针对不同的文件类型实现多样化定制校验规则,极大的提升了生产效率,降低人力成本。

Nuclear Power Document Verification Processing Method and System

The invention discloses a nuclear power document verification processing method and system, which includes: acquiring unstructured nuclear power documents and related metadata information from enterprise content management system; acquiring verification rules based on configuration information of pre-inputted verification rules according to acquired unstructured nuclear power documents and related metadata information; and acquiring verification rules based on said verification rules, and summarizing the unstructured nuclear power documents and related metadata information. The constructed nuclear power documents are segmented into images, and the segmented information block pictures are recognized by characters to extract the structured information of the pictures. The document data are checked by combining the structured information of the pictures. The invention is suitable for the verification processing of unstructured nuclear power documents containing pictures, fills in the blank of automatic image recognition and verification of nuclear power enterprise content, and can input configuration information in advance according to the needs to realize the diversification of customized verification rules for different file types, thus greatly improving the production efficiency and reducing the labor cost.

【技术实现步骤摘要】
核电文件校验处理方法以及系统
本专利技术涉及核电领域,尤其涉及一种核电文件校验处理方法以及系统。
技术介绍
据统计,在核电建设项目中,工程总成本的约3%~5%是由信息传递的问题导致工程变更和工程实施的错误所造成的。核电工程企业内容信息数据复杂,文档资料数量庞大,达到百万级别,尤其是项目工程文件、技术文档、商务合同、往来函件及各技术路线(如AP1000、EPR三代核电技术)转让资料。由于技术资料大部分是以半结构化形式存储在企业内容管理系统(EnterpriseContentManagementSystem,ECMS)中,信息量庞大。核电文档结构化的元数据信息除了在信息平台中体现外,在非结构化的实体的工程文档文件中也有相应的体现,而工程实施过程中,在ECM中存储的元数据需要通过实体文件的形式展示给现场人员,因此核电文档信息的准确性直接影响了项目的建设实施,为了保证核电工程质量和核安全,文档的规范化检查与元数据匹配是的核电文档管理重要基础工作。核电文档实行电子化、无纸化管理,电子化工作流审批及自动化数字签名大大提高了生产效率,但文档检查需要投入大量人力,成为文档流转的瓶颈。核电文档检查工作是一个复杂繁琐的事务性工作,每个工程设计文件需要进行多达24项,均需要人工核对检查,每天需要检查核对几百份工程文件与工程函件,消耗大量的人力与成本,而这种重复性的工作。公开号为CN106815268A的专利技术申请公开了一种海量非结构化电子文件的结构化处理方法及系统。该专利技术仅从技术资料的实体电子文件的属性(如文件名称、大小、目录、哈希码等信息)进行了分析和提取,并未对非结构化文档的具体内容,尤其是图像内的数据信息进行进一步处理。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种核电文件校验处理方法以及系统。本专利技术解决其技术问题所采用的技术方案是:构造一种核电文件校验处理方法,包括:从企业内容管理系统中获取非结构化核电文件及相关元数据信息;根据获取到的非结构化核电文件及相关元数据信息,基于预先录入的校验规则配置信息,获取校验规则;基于所述校验规则,对所述非结构化核电文件进行图像分割,并对分割出来的信息块图片进行文字识别以提取图片结构化信息;结合所述图片结构化信息,进行文档数据校验。优选的,所述方法还包括:在进行图像分割之前,对所述非结构化核电文件进行预处理,所述预处理包括:对所述非结构化核电文件先后进行灰度处理、二值化处理、滤波降噪处理以及图片倾斜矫正。优选的,所述方法还包括:提取所述非结构化核电文件的颜色信息,获取校验所需要的文件属性信息;在进行图像分割之后,识别信息块图片的清晰度;在进行文档数据校验时,基于所述校验规则,对提取出的所述图片结构化信息、清晰度信息、提取到的颜色信息文件以及获取到的文件属性信息进行综合校验,导出校验结果给结果显示用户接口,并提供各项校验结果的说明。优选的,所述的对所述非结构化核电文件进行图像分割,包括:对所述非结构化核电文件中的图片进行图片边缘识别;对识别出边缘的图片进行倾斜校正;分割出倾斜校正后的图片;根据校验规则中的文件模板,获取位置信息,根据位置信息定位提取单个信息块图片。优选的,所述的对分割出来的信息块图片进行文字识别以提取图片结构化信息,包括:对分割出来的单个信息块图片进行行、字切分得到单个文字图片;通过对单个文字图片的统计特征进行分析,获取特征向量;将所述特征向量输入人工神经网络以获取所述单个文字图片的文字信息。本专利技术还要求保护一种核电文件校验处理系统,包括:内容管理系统接口,用于从企业内容管理系统中获取非结构化核电文件及相关元数据信息;校验规则获取模块,用于根据获取到的非结构化核电文件及相关元数据信息,基于预先录入的校验规则配置信息,获取校验规则;图片结构化信息提取模块,用于基于所述校验规则,对所述非结构化核电文件进行图像分割,并对分割出来的信息块图片进行文字识别以提取图片结构化信息;校验模块,用于结合所述图片结构化信息,进行文档数据校验。优选的,所述系统还包括:预处理模块,用于对所述非结构化核电文件进行预处理后送往所述图片结构化信息提取模块进行处理;其中,所述预处理包括:对所述非结构化核电文件先后进行灰度处理、二值化处理、滤波降噪处理以及图片倾斜矫正。优选的,所述系统还包括:颜色信息提取模块,用于提取所述非结构化核电文件的颜色信息并送往所述校验模块;文件属性提取模块,用于获取校验所需要的文件属性信息并送往所述校验模块;清晰度识别模块,用于识别信息块图片的清晰度并送往所述校验模块;所述校验模块具体用于基于所述校验规则,对提取出的所述图片结构化信息、清晰度信息、提取到的颜色信息文件以及获取到的文件属性信息进行综合校验,导出校验结果给结果显示用户接口,并提供各项校验结果的说明。优选的,所述图片结构化信息提取模块包括:图片分割提取单元,用于对所述非结构化核电文件中的图片进行图片边缘识别,对识别出边缘的图片进行倾斜校正,分割出倾斜校正后的图片;以及根据校验规则中的文件模板,获取位置信息,根据位置信息定位提取单个信息块图片。优选的,所述图片结构化信息提取模块包括:文字识别单元,用于对分割出来的单个信息块图片进行行、字切分得到单个文字图片,通过对单个文字图片的统计特征进行分析,获取特征向量,将所述特征向量输入人工神经网络以获取所述单个文字图片的文字信息。本专利技术的核电文件校验处理方法以及系统,具有以下有益效果:本专利技术适用于包含图片的非结构化核电文件的校验处理,填补了核电企业内容自动化图像识别校验的空白,可以根据需求预先录入配置信息以实现针对不同的文件类型实现多样化定制校验规则,适应核电多专业、多机组、多技术路线的发展特点,保证了核电内容的完整性和准确性,极大的提升了生产效率,降低人力成本。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图:图1是本专利技术实施例一的方法流程图;图2是人工神经网络模型;图3是本专利技术实施例二的系统结构示意图。具体实施方式为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述。附图中给出了本专利技术的典型实施例。但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本专利技术总的思路是:先从企业内容管理系统中获取非结构化核电文件及相关元数据信息;然后基于预先录入的校验规则配置信息,获取校验规则;再基于所述校验规则,对所述非结构化核电文件进行图像分割,并对分割出来的信息块图片进行文字识别以提取图片结构化信息;最后,结合所述图片结构化信息,进行文档数据校验。如此可以实现经图片中的内容信息提取出来形成结构化信息进而进行校验,填补了核电企业内容自动化图像识别校验的空白,而且通过录入不本文档来自技高网
...

【技术保护点】
1.一种核电文件校验处理方法,其特征在于,包括:从企业内容管理系统中获取非结构化核电文件及相关元数据信息;根据获取到的非结构化核电文件及相关元数据信息,基于预先录入的校验规则配置信息,获取校验规则;基于所述校验规则,对所述非结构化核电文件进行图像分割,并对分割出来的信息块图片进行文字识别以提取图片结构化信息;结合所述图片结构化信息,进行文档数据校验。

【技术特征摘要】
1.一种核电文件校验处理方法,其特征在于,包括:从企业内容管理系统中获取非结构化核电文件及相关元数据信息;根据获取到的非结构化核电文件及相关元数据信息,基于预先录入的校验规则配置信息,获取校验规则;基于所述校验规则,对所述非结构化核电文件进行图像分割,并对分割出来的信息块图片进行文字识别以提取图片结构化信息;结合所述图片结构化信息,进行文档数据校验。2.根据权利要求1所述的核电文件校验处理方法,其特征在于,所述方法还包括:在进行图像分割之前,对所述非结构化核电文件进行预处理,所述预处理包括:对所述非结构化核电文件先后进行灰度处理、二值化处理、滤波降噪处理以及图片倾斜矫正。3.根据权利要求1所述的核电文件校验处理方法,其特征在于,所述方法还包括:提取所述非结构化核电文件的颜色信息,获取校验所需要的文件属性信息;在进行图像分割之后,识别信息块图片的清晰度;在进行文档数据校验时,基于所述校验规则,对提取出的所述图片结构化信息、清晰度信息、提取到的颜色信息文件以及获取到的文件属性信息进行综合校验,导出校验结果给结果显示用户接口,并提供各项校验结果的说明。4.根据权利要求1所述的核电文件校验处理方法,其特征在于,所述的对所述非结构化核电文件进行图像分割,包括:对所述非结构化核电文件中的图片进行图片边缘识别;对识别出边缘的图片进行倾斜校正;分割出倾斜校正后的图片;根据校验规则中的文件模板,获取位置信息,根据位置信息定位提取单个信息块图片。5.根据权利要求1所述的核电文件校验处理方法,其特征在于,所述的对分割出来的信息块图片进行文字识别以提取图片结构化信息,包括:对分割出来的单个信息块图片进行行、字切分得到单个文字图片;通过对单个文字图片的统计特征进行分析,获取特征向量;将所述特征向量输入人工神经网络以获取所述单个文字图片的文字信息。6.一种核电文件校验处理系统,其特征在于,包括:内容管理系统接口,用于从企业内容管理系统中获取非结构化核电文...

【专利技术属性】
技术研发人员:白鹤颜斯泰王云福涂红兵侯斌戴伟琦马菁刘婧吴祥勇
申请(专利权)人:深圳中广核工程设计有限公司中广核工程有限公司中国广核集团有限公司中国广核电力股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1