一种通过自动组合流程接入地质灾害数据的方法及装置制造方法及图纸

技术编号:34463530 阅读:17 留言:0更新日期:2022-08-10 08:35
本发明专利技术涉及网络技术领域,提供了一种通过自动组合流程接入地质灾害数据的方法及装置,方法包括:获取原始数据和最终数据,作为输入对象和理论输出对象,导入到自动组合流程系统中;自动组合流程系统分析所述输入对象和所述理论输出对象,确定所述输入对象和所述理论输出对象之间的逻辑关系;根据所述逻辑关系筛选出相应的算法子模块,对相应的算法子模块进行排列组合后作为待确认ETL流程反馈给操作终端;本发明专利技术提出了一种通过自动组合流程接入地质灾害数据的方法,在传统的ETL工具手动搭建数据接入流程的方式上进行改进,通过分析输入对象和理论输出对象之间的逻辑关系,自动进行相应算法子模块的筛选,节省了大多数复杂逻辑流程的搭配方式。流程的搭配方式。流程的搭配方式。

【技术实现步骤摘要】
一种通过自动组合流程接入地质灾害数据的方法及装置


[0001]本专利技术涉及网络
,尤其涉及一种通过自动组合流程接入地质灾害数据的方法及装置。

技术介绍

[0002]数据仓库技术(Extract

Transform

Load,简称ETL),用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程;ETL可以用于对地质灾害数据抽取、清洗转换之后加载到数据仓库,目的是将地质灾害数据中的分散、零乱、标准不统一的数据整合到一起,为灾害预警提供分析依据。
[0003]目前市场上提供的各种ETL工具大都是一种具备数据抽取(Extract)、清洗转换(Transform)和装载(Load)功能的通用的数据处理平台,有的还集成了数据同步、数据交换、数据整合功能,能够为基于数据集成的应用和日常的数据清洗转换工作提供了完整的支持。内建对各种数据库、消息服务器、文本文件、XML、Excel文件、WebService、LDAP等各种常见数据源的支持,并提供可视化的支持拖拽的流程设计器,可以大幅度提高工作效率,但是往往在设计复杂流程用于接入地质灾害数据的过程中也需要消耗过多的精力以及时间。
[0004]鉴于此,克服该现有技术所存在的缺陷是本
亟待解决的问题。

技术实现思路

[0005]本专利技术要解决的技术问题是:现有的接入地质灾害数据的方法往往流程过于复杂,需要搭建设计流程的操作步骤过多,需要消耗过多的精力和时间,降低了工作效率。
[0006]为实现上述目的,本专利技术采用如下技术方案:
[0007]第一方面,本专利技术提供了一种通过自动组合流程接入地质灾害数据的方法,包括:
[0008]获取操作终端发送的用户所期望的目标ETL流程所要实现导入的原始数据和ETL流程处理之后的最终数据,分别将所述原始数据和最终数据作为输入对象和理论输出对象,导入到自动组合流程系统中;
[0009]自动组合流程系统分析所述输入对象和所述理论输出对象,确定所述输入对象和所述理论输出对象之间的逻辑关系;
[0010]其中,所述逻辑关系包括:拆分所述理论输出对象得到的组成要素在所述输入对象中的关联位置的关系、相应的组成要素在输入对象中隐含有的归属于同种类型属性的关联数据的关系或相应的组成要素在输入对象中未能直接找到关联位置的关系中的一种或者多种;
[0011]根据所述逻辑关系筛选出相应的算法子模块,对相应的算法子模块进行排列组合后作为待确认ETL流程反馈给操作终端。
[0012]优选的,在排列组合的过程中,对于所述待确认ETL流程的每一个环节,若存在两个或者至少两个可供选择的算法子模块,则将相应的可供选择的算法子模块以选择切换的方式或者以列表清单的方式呈现,具体包括:
[0013]以选择切换方式呈现时,在选择切换到其中一个算法子模块时,呈现相应算法子模块工作时的性能属性;
[0014]以列表清单方式呈现时,在列表清单中完整呈现可供选择的所有算法子模块以及各个算法子模块工作时的性能属性;
[0015]所述性能属性包括相应的算法子模块所需的计算资源和计算单位数据量所需的时间的对应关系。
[0016]优选的,所述计算资源包括:物理服务器的数量、虚拟机的数量、物理服务器所要求的配置参数和虚拟机所拥有的配置参数中的一项或多项。
[0017]优选的,生成所述待确认ETL流程的过程包括:
[0018]拆分所述理论输出对象得到组成要素,将在输入对象中未能找到关联位置的第一部分组成要素抽离出来,根据在输入对象中能够找到关联位置的第二部分组成要素和所述输入对象的逻辑关系筛选出相应的算法子模块,按照所述第二部分组成要素在理论输出对象中的位置关系,对相应的算法子模块进行排列组合得到初始排列组合;
[0019]将所述第一部分组成要素和所述原始数据反馈给操作终端,触发用户补充所述第一部分组成要素和原始数据之间的进阶逻辑关系;所述自动组合流程系统根据所述进阶逻辑关系进一步筛选出相应的算法子模块,按照所述第一组成要素在理论输出对象中的位置关系,将筛选出的算法子模块安插到所述初始排列组合中,生成所述待确认ETL流程。
[0020]优选的,所述进阶逻辑关系包括:
[0021]原始数据中指定位置的对象之间通过指定加密算法运算得到所述第一部分组成要素的关系,和/或,原始数据中指定位置的对象之间通过指定运算规则计算得到所述第一部分组成要素的关系。
[0022]优选的,所述拆分所述理论输出对象得到组成要素,具体包括:
[0023]对所述理论输出对象进行语义分析和/或带有数据库特性的key

value拆分得到组成要素,将所述组成要素在所述输入对象中进行匹配;
[0024]若匹配成功,则将相应的组成要素归入第二部分组成要素;
[0025]若匹配失败,则将相应的组成要素进一步拆分得到最小构成要素,若拆分为单字节的最小构成要素仍匹配失败,则将相应的最小构成要素归入第一部分组成要素;其中,经过一次或者至少两次进一步拆分得到的最小构成要素若匹配成功,则将相应的最小构成要素归入第二部分组成要素。
[0026]优选的,所述将在输入对象中未能找到关联位置的第一部分组成要素抽离出来,具体包括:
[0027]将分析得到的相应的组成要素在输入对象中隐含有的归属于同种类型属性的关联数据补充到输入对象中,将在补充后的输入对象中未能找到关联位置的第一部分组成要素抽离出来。
[0028]优选的,筛选过程包括:
[0029]将指定的组成要素和相匹配的输入对象中关联上下文内容分别作为理论输出子对象和输入子对象,输入子对象经各种算法子模块处理后得到相应边的各种实际输出子对象,若其中一种算法子模块运行出的实际输出子对象与理论输出子对象一致,则相应的算法子模块被选中;否则,相应算法子模块被筛除。
[0030]优选的,若所述自动组合流程系统中已存储有ETL流程案例,则将所述原始数据导入所述自动组合流程系统,遍历已存储的ETL流程案例,得到对应各个案例的案例输出;将所述最终数据与各个案例输出逐一进行匹配;
[0031]若匹配度高于预设比例值,则最终数据中匹配成功的组成要素沿用相应的流程案例中的匹配成功的算法子模块,移除相应的流程案例中的未匹配上的算法子模块;将最终数据中未匹配上的组成要素作为理论输出对象进一步拆分后,进行相应的算法子模块的筛选,将筛选得到的相应的算法子模块添加到相应的流程案例中的适配位置,得到调整后的待确认ETL流程;
[0032]其中,所述适配位置根据所述未匹配上的组成要素在所述最终数据中所处的上下游位置进行确定。
[0033]第二方面,本专利技术提供了一种通过自动组合流程接入地质灾害数据的装置,用于实现第一方面所述的通过自动组合流程接入地质灾害数据的方法,通过自动组合流程接入地质灾害数据的装置包括:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通过自动组合流程接入地质灾害数据的方法,其特征在于,包括:获取操作终端发送的用户所期望的目标ETL流程所要实现导入的原始数据和ETL流程处理之后的最终数据,分别将所述原始数据和最终数据作为输入对象和理论输出对象,导入到自动组合流程系统中;自动组合流程系统分析所述输入对象和所述理论输出对象,确定所述输入对象和所述理论输出对象之间的逻辑关系;其中,所述逻辑关系包括:拆分所述理论输出对象得到的组成要素在所述输入对象中的关联位置的关系、相应的组成要素在输入对象中隐含有的归属于同种类型属性的关联数据的关系或相应的组成要素在输入对象中未能直接找到关联位置的关系中的一种或者多种;根据所述逻辑关系筛选出相应的算法子模块,对相应的算法子模块进行排列组合后作为待确认ETL流程反馈给操作终端。2.根据权利要求1所述的通过自动组合流程接入地质灾害数据的方法,其特征在于,在排列组合的过程中,对于所述待确认ETL流程的每一个环节,若存在两个或者至少两个可供选择的算法子模块,则将相应的可供选择的算法子模块以选择切换的方式或者以列表清单的方式呈现,具体包括:以选择切换方式呈现时,在选择切换到其中一个算法子模块时,呈现相应算法子模块工作时的性能属性;以列表清单方式呈现时,在列表清单中完整呈现可供选择的所有算法子模块以及各个算法子模块工作时的性能属性;所述性能属性包括相应的算法子模块所需的计算资源和计算单位数据量所需的时间的对应关系。3.根据权利要求2所述的通过自动组合流程接入地质灾害数据的方法,其特征在于,所述计算资源包括:物理服务器的数量、虚拟机的数量、物理服务器所要求的配置参数和虚拟机所拥有的配置参数中的一项或多项。4.根据权利要求1所述的通过自动组合流程接入地质灾害数据的方法,其特征在于,生成所述待确认ETL流程的过程包括:拆分所述理论输出对象得到组成要素,将在输入对象中未能找到关联位置的第一部分组成要素抽离出来,根据在输入对象中能够找到关联位置的第二部分组成要素和所述输入对象的逻辑关系筛选出相应的算法子模块,按照所述第二部分组成要素在理论输出对象中的位置关系,对相应的算法子模块进行排列组合得到初始排列组合;将所述第一部分组成要素和所述原始数据反馈给操作终端,触发用户补充所述第一部分组成要素和原始数据之间的进阶逻辑关系;所述自动组合流程系统根据所述进阶逻辑关系进一步筛选出相应的算法子模块,按照所述第一部分组成要素在理论输出对象中的位置关系,将筛选出的算法子模块安插到所述初始排列组合中,生成所述待确认ETL流程。5.根据权利要求4所述的通过自动组合流程接入地质灾害数据的方法,其特征在于,所述进阶逻辑关系包括:原始数据中指定位置的对象之间通过指定加密算法运算得到所述第一部分组成要素的关系,和/或,原始数据中...

【专利技术属性】
技术研发人员:杨迎冬黄成晏祥省魏蕾
申请(专利权)人:云南省地质环境监测院云南省环境地质研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1