一种非结构化测绘报告数据解析方法及系统技术方案

技术编号:36024101 阅读:13 留言:0更新日期:2022-12-21 10:21
本发明专利技术涉及一种非结构化测绘报告数据解析方法及系统,包括:S1.预解析分类处理:对非结构化测绘数据进行预解析分类;S2.数据解析处理:根据映射关系对预解析分类得到的分类数据进行数据解析,得到中间数据和二进制格式原始文件;S3.结构化转换处理:将数据解析得到的中间数据和二进制格式原始文件作为数据源,调用相应的结构化表模板和映射关系,转换输出组织结构化测绘数据。本方法通过利用映射关系对非结构化历史测绘数据的锁定关键信息解析区域进行解析、完成非结构化测绘数据信息的最大化提取,实现结构化测绘报告数据转换,显著提升数据提取组织的自动化能力,提高信息整理水平,进而提升了测绘单位数据产品共享服务的质量。量。量。

【技术实现步骤摘要】
一种非结构化测绘报告数据解析方法及系统


[0001]本专利技术属于测绘地理信息
,具体涉及一种非结构化测绘报告数据解析方法及系统。

技术介绍

[0002]近年来,为了优化营商环境,加快城市发展建设,同时随着大数据浪潮的来临,海量数据处理技术的日渐成熟,数据存储成本下降,数据分析应用方向也逐渐向非结构化数据转移。
[0003]但是申请人发现:在新的形势下,针对测绘行业,国家、省级测绘主管部门相继提出了统一测绘,成果共享的更高要求。随着各地测绘业务整合及测绘成果共享资源池的建立,各单位保存着大量有用信息的非结构化历史测绘报告数据,却无法充分得到有效的组织与利用,因为非结构化历史测绘报告数据不但格式多样,标准多样,而且在技术层面上非结构化信息比结构化信息更难以标准化,所以非结构化数据的存储、检索、发布和利用需要更加智能化的 IT技术,比如海量存储、智能检索、知识挖掘、内容保护及信息的增值开发利用等;对比结构化数据,非结构化数据数量巨大、产生速度快,缺乏规律性,价值密度较低,加上缺乏有效的技术手段进行处理和分析,往往被丢弃和忽视。为了挖掘这些有用信息,各单位通常往往需要消耗大量的人力物力,不仅造成了资源的浪费,而且容易出现人工错漏,更加不利于长期稳定的信息化提取、存储以及共享;例如:非结构化历史测绘报告数据存储着大量如面积、权属调查等关键信息,但同时其数据结构不规则或不完整,没有预定义的数据模型,为了便于提取关键信息,需要对大批非结构化历史测绘成果报告进行关键信息的解析与结构化。然而由于非结构化数据存在组织复杂、标记较少,逻辑性差等缺点,使得基于文档资料的历史数据查询与统计分析难以实现,测绘单位往往面临历史数据存放临散、格式不统一、内容无法有效程序化、人工干预部分较多等问题。因此亟需探索研究一种非结构化历史测绘报告数据解析方法。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术的目的在于提供一种非结构化测绘报告数据解析方法,以及基于该非结构化测绘报告数据解析方法的系统。
[0005]为解决上述问题,本专利技术所采用的技术方案如下:
[0006]第一方面,本专利技术提供了一种非结构化测绘报告数据解析方法,包括:
[0007]S1.预解析分类处理:对非结构化测绘数据进行预解析分类;
[0008]S2.数据解析处理:根据映射关系对预解析分类得到的分类数据进行数据解析,得到中间数据和二进制格式原始文件;
[0009]S3.结构化转换处理:将数据解析得到的中间数据和二进制格式原始文件作为数据源,调用相应的结构化表模板和映射关系,转换输出组织结构化测绘数据。
[0010]进一步地,本专利技术所述方法还包括在预解析分类处理之前,进行映射关系建立,所
述映射关系建立具体为:提取各类测绘业务的成果共享资源池中关键信息,建立结构映射和语义映射。
[0011]进一步地,所述建立结构映射和语义映射,具体为:通过利用基于Grok语法的规则表达式开发的历史测绘报告信息映射技术对提取的非结构、不连续、单元离散的关键信息进行匹配重组,得到结构映射关系和语义映射关系。
[0012]进一步地,所述预解析分类处理包括:
[0013]获取原始非结构化测绘数据;
[0014]分析该原始非结构化测绘数据,并根据测绘报告业务类型进行解析预分类。
[0015]进一步地,所述分析该原始非结构化测绘数据,并根据测绘报告业务类型进行解析预分类,具体为:根据测绘报告业务类型选用相应的非结构化数据模板元,并根据该非结构化数据模板元对原始非结构化测绘数据进行比对,锁定关键信息解析区域,并将非锁定区域的数据进行预分类处理。
[0016]进一步地,所述根据该非结构化数据模板元对原始非结构化测绘数据进行比对,锁定信息解析区域,具体为:基于元数据的模板匹配机制,对原始非结构化测绘数据正反比较差异化,得到非结构化测绘数据的锁定关键信息解析区域。
[0017]进一步地,所述数据解析,具体包括:
[0018]根据分类规则从解析库中选取相应的映射关系;
[0019]在解析过程中,从选取的映射关系中根据对预解析分类得到的分类数据动态触发映射关系进行数据解析;
[0020]在解析完毕后生成Json中间数据以及二进制格式原始文件。
[0021]进一步地,在结构化转换处理并转换输出组织结构化的测绘数据后,根据独立模板元对转换输出组织结构化测绘数据进行冗余分析,确保组织结构化测绘数据的正确性。
[0022]进一步地,在预解析分类处理之前,建立非结构化数据模板元,该非结构化数据模板元不包含提取信息的原始结构数据,用于数据解析过程中对偏离模板的内容进行识别并单独处理。
[0023]第二方面,本专利技术还提供了一种基于上述非结构化测绘报告数据解析方法的系统,包括:
[0024]预解析分类模块,用于对非结构化测绘数据进行预解析分类;
[0025]数据解析处理模块,用于根据映射关系对预解析分类得到的分类数据进行数据解析,得到中间数据和二进制格式原始文件;
[0026]以及,结构化转换处理模块,用于将数据解析得到的中间数据和二进制格式原始文件作为数据源,调用相应的结构化表模板和映射关系,转换输出组织结构化的测绘数据。
[0027]相比现有技术,本专利技术的有益效果在于:
[0028]本专利技术通过利用映射关系对非结构化历史测绘数据的锁定关键信息解析区域进行解析,完成锁定关键信息解析区域内有效非结构化测绘数据信息的最大化提取,实现将非结构化测绘报告数据转换成为结构化测绘报告数据,有效解决因非结构化测绘报告数据临散、可利用性差而导致的需耗费大量人工提取问题,显著提升了整个数据共享资源池对于数据提取组织的自动化能力,提高单位内部的信息整理水平,进而提升了测绘数据产品共享服务的质量。
附图说明
[0029]图1是本专利技术所述的非结构化测绘报告数据解析方法的流程示意图;
[0030]图2是本专利技术所述的非结构化测绘报告数据解析系统的结构示意图。
具体实施方式
[0031]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0032]如图1所示,本专利技术所述的非结构化测绘报告数据解析方法,包括:
[0033]步骤S1.预解析分类处理:对非结构化测绘数据进行预解析分类。具体包括:
[0034]S1

1.获取原始非结构化测绘数据,例如:获取一条原始非结构化测绘数据,以及根据之前的分类规则作为参数输入到解析系统中;其中分类规则是非结构化数据资源池中预先制定的数据类型规则,根据数据的类型、范围、领域等进行分类,用于更加精准的数据匹配。
[0035]S1

2.分析该原始非结构化测绘数据,并根据测绘报告业务类型进行解析预分类;具体为:根据测绘报告业本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非结构化测绘报告数据解析方法,其特征在于,包括:S1.预解析分类处理:对非结构化测绘数据进行预解析分类;S2.数据解析处理:根据映射关系对预解析分类得到的分类数据进行数据解析,得到中间数据和二进制格式原始文件;S3.结构化转换处理:将数据解析得到的中间数据和二进制格式原始文件作为数据源,调用相应的结构化表模板和映射关系,转换输出组织结构化测绘数据。2.根据权利要求1所述的非结构化测绘报告数据解析方法,其特征在于,还包括在预解析分类处理之前,进行映射关系建立,所述映射关系建立具体为:提取各类测绘业务的成果共享资源池中关键信息,建立结构映射和语义映射。3.根据权利要求3所述的非结构化测绘报告数据解析方法,其特征在于,所述建立结构映射和语义映射,具体为:通过利用基于Grok语法的规则表达式开发的历史测绘报告信息映射技术对提取的非结构、不连续、单元离散的关键信息进行匹配重组,得到结构映射关系和语义映射关系。4.根据权利要求1或2或3所述的非结构化测绘报告数据解析方法,其特征在于,所述预解析分类处理包括:获取原始非结构化测绘数据;分析该原始非结构化测绘数据,并根据测绘报告业务类型进行解析预分类。5.根据权利要求4所述的非结构化测绘报告数据解析方法,其特征在于,所述分析该原始非结构化测绘数据,并根据测绘报告业务类型进行解析预分类,具体为:根据测绘报告业务类型选用相应的非结构化数据模板元,并根据该非结构化数据模板元对原始非结构化测绘数据进行比对,锁定关键信息解析区域,并将非锁定区域的数据进行预分类处理。6.根据权利要求5所述的非结构化测绘报告数据解析方法,其特征在于,所述根据该非结构化数据模...

【专利技术属性】
技术研发人员:李旺民曾仕声丁建勋黎彬高春辉贠法长李自然杜阳刘亚楠
申请(专利权)人:北京山维科技股份有限公司上海刻羽信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1