【技术实现步骤摘要】
海量非结构化电子文件的结构化处理方法及系统
本专利技术属于文档管理信息化
,更具体地说,本专利技术涉及一种海量非结构化电子文件的结构化处理方法及系统。
技术介绍
核电工程资料多以图纸,文档,软件输入输入数据,三维模型为主,其非结构化程度较高,通常使用企业内容管理平台(EnterpriseContentManagement,ECM)进行管理,企业内容管理平台将部分结构化信息存储在数据库中,便于通过特征元数据快速检索和利用,而技术资料的主要技术信息则存储在实体的电子文件中。核电工程设计企业外部文档资料数量庞大,达到百万级别,尤其是AP1000、EPR三代核电技术转让资料,由于技术转让资料大部分是非结构化或半结构化文件档案,这些海量资料存在时间跨度大,数量庞大,编码复杂,文件版本多,重复提交现象严重,元数据信息不全,电子文件命名不规范等诸多问题。目前这些海量资料的结构化梳理方式以文档人员手动处理为主,不仅耗费大量人力物力,而且,海量资料人工梳理的工作效率极为低下。因此,如何开发及提供一种能够对半结构化甚至非结构化核电文档资料进行高效的结构化处理的核电技术资料处理方法及系统,已成为亟待解决的技术问题。
技术实现思路
本专利技术的目的在于:针对现有技术的上述缺陷,提供一种通过智能化分布式处理方式对海量非结构化电子文件进行高效的结构化处理,节省人工成本,显著提高数据结构化转换效率及准确率的结构化处理方法及系统。为了实现上述专利技术目的,本专利技术提供了一种海量非结构化电子文件的结构化处理方法,该方法包括:根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条件; ...
【技术保护点】
一种海量非结构化电子文件的结构化处理方法,其特征在于,该方法包括:根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条件;根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据,并将该海量结构化数据导入核电企业内容管理系统。
【技术特征摘要】
1.一种海量非结构化电子文件的结构化处理方法,其特征在于,该方法包括:根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条件;根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据,并将该海量结构化数据导入核电企业内容管理系统。2.根据权利要求1所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理的步骤包括:根据元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息,该结构化信息包括海量非结构化核电技术文件的文件属性、目录属性及内容属性;将抽取的结构化信息存储于元数据结构化信息数据库。3.根据权利要求2所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息的步骤包括:提取海量非结构化核电技术文件中的元数据,获得海量非结构化核电技术文件的文件属性及目录属性;以及对海量非结构化核电技术文件进行分布式内容分析,利用Map&Reduce抽取海量非结构化核电技术文件中的关键字,将抽取的关键字作为包含于海量非结构化核电技术文件的结构化信息中的内容属性。4.根据权利要求1所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据元数据形式化约束条件执行海量非结构化电子文件的结构化处理的步骤还包括:根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在数据噪声的核电技术文件。5.根据权利要求4所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在数据噪声的核电技术文件的步骤具体包括:抓取非结构化核电技术文件自带的结构化信息,通过元数据形式化约束条件对抓取的结构化信息进行校验,以判断该结构化信息是否符合元数据形式化约束条件;如该结构化信息不符合元数据形式化约束条件,则将该非结构化核电技术文件归为存在数据噪声的核电技术文件并报错;如该结构化信息符合元数据形式化约束条件,则将该结构化信息与元数据结构化信息数据库中的结构化信息进行匹配分析,判断两者是否匹配成功;如匹配成功,则执行下一个非结构化核电技术文件的抓取及匹配工作;反之,将该非结构化核电技术文件归为存在数据噪声的核电技术文件并报错。6.根据权利要求5所述的海量非结构化电子文件的结构化处理方法,其特征在于,将非结构化核电技术文件的结构化信息与元数据结构化信息数据库中的结构化信息进行匹配分析的步骤具体包括:应用匹配分值计算公式计算该非结构化核电技术文件的结构化信息在基于不同维度及权重的结构化元数据结构框架下的匹配分数,将该匹配分数与设定的匹配分数阈值进行比较;如该非结构化核电技术文件的结构化信息的匹配分数超过该设定的匹配分数阈值,则判定匹配成功,并建立匹配成功的结构化信息及其对应的经结构化处理的核电技术文件的映射关系;该匹配分值计算公式如下所示:其中:MatchMeta(Δ)表示非结构化核电技术文件的结构化信息在结构化元数据结构框架下的匹配分数;δi表示将核电技术文件的结构化数据按元数据规则划分成的n个元数据/元数据组中第i个元数据/元数据组;λi表示第i个元数据/元数据组的权值;Fi(δi,mi)为用于计算划分的每个元数据/元数据组的匹配分值的匹配函数。7.根据权利要求4或5所述的海量非结构化电子文件的结构化处理方法,其特征在于,该方法在过滤存在数据噪声的非结构化核电技术文件之后还包括:通过日志记录及保存报错信息。8.根据权利要求7所述的海量非结构化电子文件的结构化处理方法,其特征在于,该方法在完成海量非结构性核电技术文件的结构化处理及对结构化处理过程中的报错信息进行记录之后还包括:接收经人工干预更正的核电...
【专利技术属性】
技术研发人员:白鹤,杨帆,罗亚林,王云福,涂红兵,侯斌,刘东海,戴伟琦,
申请(专利权)人:中广核工程有限公司,中国广核集团有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。