The invention discloses a nuclear power document verification processing method and system, which includes: acquiring unstructured nuclear power documents and related metadata information from enterprise content management system; acquiring verification rules based on configuration information of pre-inputted verification rules according to acquired unstructured nuclear power documents and related metadata information; and acquiring verification rules based on said verification rules, and summarizing the unstructured nuclear power documents and related metadata information. The constructed nuclear power documents are segmented into images, and the segmented information block pictures are recognized by characters to extract the structured information of the pictures. The document data are checked by combining the structured information of the pictures. The invention is suitable for the verification processing of unstructured nuclear power documents containing pictures, fills in the blank of automatic image recognition and verification of nuclear power enterprise content, and can input configuration information in advance according to the needs to realize the diversification of customized verification rules for different file types, thus greatly improving the production efficiency and reducing the labor cost.
【技术实现步骤摘要】
核电文件校验处理方法以及系统
本专利技术涉及核电领域,尤其涉及一种核电文件校验处理方法以及系统。
技术介绍
据统计,在核电建设项目中,工程总成本的约3%~5%是由信息传递的问题导致工程变更和工程实施的错误所造成的。核电工程企业内容信息数据复杂,文档资料数量庞大,达到百万级别,尤其是项目工程文件、技术文档、商务合同、往来函件及各技术路线(如AP1000、EPR三代核电技术)转让资料。由于技术资料大部分是以半结构化形式存储在企业内容管理系统(EnterpriseContentManagementSystem,ECMS)中,信息量庞大。核电文档结构化的元数据信息除了在信息平台中体现外,在非结构化的实体的工程文档文件中也有相应的体现,而工程实施过程中,在ECM中存储的元数据需要通过实体文件的形式展示给现场人员,因此核电文档信息的准确性直接影响了项目的建设实施,为了保证核电工程质量和核安全,文档的规范化检查与元数据匹配是的核电文档管理重要基础工作。核电文档实行电子化、无纸化管理,电子化工作流审批及自动化数字签名大大提高了生产效率,但文档检查需要投入大量人力,成为文档流转的瓶颈。核电文档检查工作是一个复杂繁琐的事务性工作,每个工程设计文件需要进行多达24项,均需要人工核对检查,每天需要检查核对几百份工程文件与工程函件,消耗大量的人力与成本,而这种重复性的工作。公开号为CN106815268A的专利技术申请公开了一种海量非结构化电子文件的结构化处理方法及系统。该专利技术仅从技术资料的实体电子文件的属性(如文件名称、大小、目录、哈希码等信息)进行了分析和提取,并未对非结构 ...
【技术保护点】
1.一种核电文件校验处理方法,其特征在于,包括:从企业内容管理系统中获取非结构化核电文件及相关元数据信息;根据获取到的非结构化核电文件及相关元数据信息,基于预先录入的校验规则配置信息,获取校验规则;基于所述校验规则,对所述非结构化核电文件进行图像分割,并对分割出来的信息块图片进行文字识别以提取图片结构化信息;结合所述图片结构化信息,进行文档数据校验。
【技术特征摘要】
1.一种核电文件校验处理方法,其特征在于,包括:从企业内容管理系统中获取非结构化核电文件及相关元数据信息;根据获取到的非结构化核电文件及相关元数据信息,基于预先录入的校验规则配置信息,获取校验规则;基于所述校验规则,对所述非结构化核电文件进行图像分割,并对分割出来的信息块图片进行文字识别以提取图片结构化信息;结合所述图片结构化信息,进行文档数据校验。2.根据权利要求1所述的核电文件校验处理方法,其特征在于,所述方法还包括:在进行图像分割之前,对所述非结构化核电文件进行预处理,所述预处理包括:对所述非结构化核电文件先后进行灰度处理、二值化处理、滤波降噪处理以及图片倾斜矫正。3.根据权利要求1所述的核电文件校验处理方法,其特征在于,所述方法还包括:提取所述非结构化核电文件的颜色信息,获取校验所需要的文件属性信息;在进行图像分割之后,识别信息块图片的清晰度;在进行文档数据校验时,基于所述校验规则,对提取出的所述图片结构化信息、清晰度信息、提取到的颜色信息文件以及获取到的文件属性信息进行综合校验,导出校验结果给结果显示用户接口,并提供各项校验结果的说明。4.根据权利要求1所述的核电文件校验处理方法,其特征在于,所述的对所述非结构化核电文件进行图像分割,包括:对所述非结构化核电文件中的图片进行图片边缘识别;对识别出边缘的图片进行倾斜校正;分割出倾斜校正后的图片;根据校验规则中的文件模板,获取位置信息,根据位置信息定位提取单个信息块图片。5.根据权利要求1所述的核电文件校验处理方法,其特征在于,所述的对分割出来的信息块图片进行文字识别以提取图片结构化信息,包括:对分割出来的单个信息块图片进行行、字切分得到单个文字图片;通过对单个文字图片的统计特征进行分析,获取特征向量;将所述特征向量输入人工神经网络以获取所述单个文字图片的文字信息。6.一种核电文件校验处理系统,其特征在于,包括:内容管理系统接口,用于从企业内容管理系统中获取非结构化核电文...
【专利技术属性】
技术研发人员:白鹤,颜斯泰,王云福,涂红兵,侯斌,戴伟琦,马菁,刘婧,吴祥勇,
申请(专利权)人:深圳中广核工程设计有限公司,中广核工程有限公司,中国广核集团有限公司,中国广核电力股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。