海量非结构化电子文件的结构化处理方法及系统技术方案

技术编号:15616949 阅读:145 留言:0更新日期:2017-06-14 03:35
本发明专利技术公开了一种海量非结构化电子文件的结构化处理方法及系统。该系统包括元数据形式化约束配置模块,用于根据核电技术资料的编码规范及匹配规则制定元数据形式化约束条件;结构化处理模块,用于根据元数据形式化约束条件对海量非结构化电子文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据;以及内容管理系统集成模块,用于将该海量结构化数据导入核电企业内容管理系统。应用本发明专利技术海量非结构化电子文件的结构化处理方法及系统,可显著提高海量半结构化或非结构化电子文件的结构化转换效率及准确率,降低人工成本。本系统还可完整记录海量非结构化数据结构化转变过程中产生的报错信息,利于后期追踪及回滚。

【技术实现步骤摘要】
海量非结构化电子文件的结构化处理方法及系统
本专利技术属于文档管理信息化
,更具体地说,本专利技术涉及一种海量非结构化电子文件的结构化处理方法及系统。
技术介绍
核电工程资料多以图纸,文档,软件输入输入数据,三维模型为主,其非结构化程度较高,通常使用企业内容管理平台(EnterpriseContentManagement,ECM)进行管理,企业内容管理平台将部分结构化信息存储在数据库中,便于通过特征元数据快速检索和利用,而技术资料的主要技术信息则存储在实体的电子文件中。核电工程设计企业外部文档资料数量庞大,达到百万级别,尤其是AP1000、EPR三代核电技术转让资料,由于技术转让资料大部分是非结构化或半结构化文件档案,这些海量资料存在时间跨度大,数量庞大,编码复杂,文件版本多,重复提交现象严重,元数据信息不全,电子文件命名不规范等诸多问题。目前这些海量资料的结构化梳理方式以文档人员手动处理为主,不仅耗费大量人力物力,而且,海量资料人工梳理的工作效率极为低下。因此,如何开发及提供一种能够对半结构化甚至非结构化核电文档资料进行高效的结构化处理的核电技术资料处理方法及系统,已成为亟待解决的技术问题。
技术实现思路
本专利技术的目的在于:针对现有技术的上述缺陷,提供一种通过智能化分布式处理方式对海量非结构化电子文件进行高效的结构化处理,节省人工成本,显著提高数据结构化转换效率及准确率的结构化处理方法及系统。为了实现上述专利技术目的,本专利技术提供了一种海量非结构化电子文件的结构化处理方法,该方法包括:根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条件;根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据,并将该海量结构化数据导入核电企业内容管理系统。本专利技术还提供了一种海量非结构化电子文件的结构化处理系统,该系统包括:元数据形式化约束配置模块,用于根据核电技术资料的编码规范及匹配规则制定元数据形式化约束条件;结构化处理模块,用于根据元数据形式化约束条件对海量非结构化电子文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据;内容管理系统集成模块,用于将该海量结构化数据导入核电企业内容管理系统。本专利技术提供了一种智能化程度高,科学严谨,简单实用,且运行可靠稳定的海量非结构化电子文件的结构化处理方法及系统,应用本专利技术海量非结构化电子文件的结构化处理方法及系统,可显著提高海量半结构化或非结构化电子文件(比如结构化程度低的海量核电技术文件)的结构化转换效率及准确率,降低人工成本。另外,本专利技术还可通过日志对元数据形式化约束条件校验或匹配过程中的报错作完整记录,利于后期追踪及回滚,本专利技术系统还支持对因存在数据噪声而被滤除,但经人工干预更正的那部分核电技术文件进行再一次的结构化处理,以提高非结构化数据结构化转换的成功率。附图说明下面结合附图和具体实施方式,对本专利技术海量非结构化电子文件的结构化处理方法及系统进行说明,其中:图1为本专利技术较佳实施例提供的海量非结构化电子文件的结构化处理方法的流程图;图2为图1中包含的海量非结构化核电技术文件的结构化处理过程的具体流程图;图3为图2中包含的滤除海量核电技术文件中存在数据噪声的核电技术文件的流程图;图4为图2中包含的将海量结构化核电技术文件导入核电企业内容管理系统的流程图;图5为本专利技术另一较佳实施例提供的海量非结构化电子文件的结构化处理系统的结构框图;图6为图5中结构化处理模块的结构框图;图7为图6中数据噪声滤除子模块的结构框图。具体实施方式为了使本专利技术的专利技术目的、技术方案及其技术效果更加清晰,以下结合附图和具体实施方式,对本专利技术进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本专利技术,并非为了限定本专利技术。如图1所示,针对现有技术中核电技术资料数量庞大且大部分为非结构化或半结构化的文件,结构化梳理方式落后且处理效率低下,以及人工成本高的技术缺陷,本专利技术提出了一种海量非结构化电子文件的结构化处理方法,该方法包括以下步骤:S100、根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条件。该元数据形式化约束条件用于判断某个元数据m实例是否符合该元数据集合中对应元素m的限制条件,判断条件以元数据枚举库或形式化正则表达约束函数作为依据。S200、根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统600结构要求的海量结构化数据。在步骤S200中,优选地,对海量非结构化核电技术文件进行分布式处理,以此提高核电技术文件的处理效率,缩短海量核电技术文件结构化处理的耗时。S300、将该海量结构化数据导入核电企业内容管理系统600。在本专利技术海量非结构化核电技术文件的结构化处理方法中,应用分布式数据处理方式对海量非结构化核电技术文件进行分布式处理,提高了海量非结构化核电技术文件结构化梳理的处理效率,缩短了海量数据结构化处理的耗时。本专利技术可根据核电技术文件特点进行自由组合及配置,可适应多种核电技术路线。进一步地,如图2所示,本专利技术步骤S200具体包括:步骤S201、根据元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息,将抽取的结构化信息存储于元数据结构化信息数据库400。其中,海量非结构化核电技术文件的结构化信息的抽取过程如下:采用分布式处理方式对海量非结构化核电技术文件中的元数据进行扫描,获得海量非结构化核电技术文件的文件属性(例如,文件名称、文件类型、空间大小、创建日期、Hash码等)及目录属性(如技术转让任务包、传递文件的函件编码、传递文件的日期甚至文件的编码日期);以及对海量非结构化核电技术文件进行分布式内容分析,利用Map&Reduce抽取海量非结构化核电技术文件中的关键字,将抽取的关键字作为包含于海量非结构化核电技术文件的结构化信息中的内容属性。S202、根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在数据噪声的核电技术文件。在本专利技术中,由于一些电子文件的结构化数据表述模糊且形式不规范,致使该类电子文件中存在数据噪声。通过海量非结构化核电技术文件的结构化处理,滤除海量非结构化核电技术文件中存在数据噪声的核电技术文件,并建立关联结构化信息及核电技术文件的映射关系,为后面的核电技术文件的查找、索引提供了极大方便,保证了海量数据的有序、可用。进一步地,如图3所示,本专利技术提出了包含于步骤S202中的一种数据噪声过滤方案,该数据噪声过滤方案具体包括如下步骤:步骤S2021、抓取非结构化核电技术文件自带的结构化信息。步骤S2022、通过元数据形式化约束条件对该非结构化核电技术文件自带的结构化信息进行校验,以判断该结构化信息是否满足制定的元数据形式化约束条件。步骤S2023、如该结构化信息符合该元数据形式化约束条件,则执行下一步骤S2024;否则,执行步骤S2026。步骤S2024、将该结构化信息与元数据结构化信息数据库400中的结构化信息进行匹配分析。该匹配分析过程具体如下:应用匹配分值计算公式计算该非结构化核电技术文件的结构化信息在基于不同维度及权重的结构化元数据结构框架下的匹配分数,并将该匹配分数与设定的匹配分数阈值进行本文档来自技高网...
海量非结构化电子文件的结构化处理方法及系统

【技术保护点】
一种海量非结构化电子文件的结构化处理方法,其特征在于,该方法包括:根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条件;根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据,并将该海量结构化数据导入核电企业内容管理系统。

【技术特征摘要】
1.一种海量非结构化电子文件的结构化处理方法,其特征在于,该方法包括:根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条件;根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据,并将该海量结构化数据导入核电企业内容管理系统。2.根据权利要求1所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理的步骤包括:根据元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息,该结构化信息包括海量非结构化核电技术文件的文件属性、目录属性及内容属性;将抽取的结构化信息存储于元数据结构化信息数据库。3.根据权利要求2所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息的步骤包括:提取海量非结构化核电技术文件中的元数据,获得海量非结构化核电技术文件的文件属性及目录属性;以及对海量非结构化核电技术文件进行分布式内容分析,利用Map&Reduce抽取海量非结构化核电技术文件中的关键字,将抽取的关键字作为包含于海量非结构化核电技术文件的结构化信息中的内容属性。4.根据权利要求1所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据元数据形式化约束条件执行海量非结构化电子文件的结构化处理的步骤还包括:根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在数据噪声的核电技术文件。5.根据权利要求4所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在数据噪声的核电技术文件的步骤具体包括:抓取非结构化核电技术文件自带的结构化信息,通过元数据形式化约束条件对抓取的结构化信息进行校验,以判断该结构化信息是否符合元数据形式化约束条件;如该结构化信息不符合元数据形式化约束条件,则将该非结构化核电技术文件归为存在数据噪声的核电技术文件并报错;如该结构化信息符合元数据形式化约束条件,则将该结构化信息与元数据结构化信息数据库中的结构化信息进行匹配分析,判断两者是否匹配成功;如匹配成功,则执行下一个非结构化核电技术文件的抓取及匹配工作;反之,将该非结构化核电技术文件归为存在数据噪声的核电技术文件并报错。6.根据权利要求5所述的海量非结构化电子文件的结构化处理方法,其特征在于,将非结构化核电技术文件的结构化信息与元数据结构化信息数据库中的结构化信息进行匹配分析的步骤具体包括:应用匹配分值计算公式计算该非结构化核电技术文件的结构化信息在基于不同维度及权重的结构化元数据结构框架下的匹配分数,将该匹配分数与设定的匹配分数阈值进行比较;如该非结构化核电技术文件的结构化信息的匹配分数超过该设定的匹配分数阈值,则判定匹配成功,并建立匹配成功的结构化信息及其对应的经结构化处理的核电技术文件的映射关系;该匹配分值计算公式如下所示:其中:MatchMeta(Δ)表示非结构化核电技术文件的结构化信息在结构化元数据结构框架下的匹配分数;δi表示将核电技术文件的结构化数据按元数据规则划分成的n个元数据/元数据组中第i个元数据/元数据组;λi表示第i个元数据/元数据组的权值;Fi(δi,mi)为用于计算划分的每个元数据/元数据组的匹配分值的匹配函数。7.根据权利要求4或5所述的海量非结构化电子文件的结构化处理方法,其特征在于,该方法在过滤存在数据噪声的非结构化核电技术文件之后还包括:通过日志记录及保存报错信息。8.根据权利要求7所述的海量非结构化电子文件的结构化处理方法,其特征在于,该方法在完成海量非结构性核电技术文件的结构化处理及对结构化处理过程中的报错信息进行记录之后还包括:接收经人工干预更正的核电...

【专利技术属性】
技术研发人员:白鹤杨帆罗亚林王云福涂红兵侯斌刘东海戴伟琦
申请(专利权)人:中广核工程有限公司中国广核集团有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1