一种优化ETL数据等待的方法、装置及存储介质制造方法及图纸

技术编号:35855716 阅读:11 留言:0更新日期:2022-12-07 10:42
本发明专利技术公开了一种优化ETL数据等待的方法、装置及存储介质。方法包括将接收到的多套数据内容,根据各数据内容所触发关联验证的历史任务,获取各数据内容当前等待验证的任务数量;获取当前完成对应任务数量验证后的数据内容,通过比对完成对应任务数量验证后的数据内容,确定是否能覆盖ETL过程所需的数据内容;若无法覆盖,则进入等待执行ETL过程;若可以覆盖,则执行ETL过程。本发明专利技术设定优先验证的预设阈值,对当前待验证的任务量小于预设阈值优先处理,降低数据处理等待时间;当前等待验证的任务数据信息和进行ETL操作之后的数据信息总量小于原始数据信息时,进行ETL操作,降低了ETL操作前的等待时间,提高了ETL的效率。提高了ETL的效率。提高了ETL的效率。

【技术实现步骤摘要】
一种优化ETL数据等待的方法、装置及存储介质


[0001]本专利技术涉及数据处理优化
,特别是涉及一种优化ETL数据等待的方法、装置及存储介质。

技术介绍

[0002]电力数据主要来源与电力生产和电能使用的发电、变电、配电、用电和调度各大环节,可大致分为三类:一是电网运行和设备检测或监测数据;二是电力企业营销数据,如交易电价、售电量、用电客户等方面数据;三是电力企业管理数据。而对于电网数据的分析,从发电、输变电环节,到用电环节,都需要实时数据处理,通过借助电力大数据的分析技术可以从电力系统的海量数据中找出潜在的模态与规律。对于我国广泛覆盖的电网系统而言,由于电网数据的庞大繁杂,电网数据通常采取分地区存储,各个不同的地区存储在自身本地服务器上;例如:以省为例,不同市的电网数据通常是不互通的,各个市的电网数据存储在自身本地服务器内,当需要对各个市的电网数据的某一方面进行汇总时,需要将各个市的数据进行抽取

转换

加载(Extract

Transform

Load,简写为ETL)操作,对各个市的数据进行抽取、转换、加载,最后将各市的有用电网数据按照特定的方式存储在省的服务器内,并在省服务器内删除各个市不需要的电网数据信息。
[0003]省级所属服务器对电网数据信息通过各个的市级服务器进行上传,通过各市级对原始数据的调用需求,就可以知晓执行ETL过程所需要获取的具体的电网数据信息。进行ETL通常以服务器内各市级调用电网数据信息对应的任务为单位进行处理,假如没有对电网数据信息内的历史任务进行验证,是否已经将历史任务相关的电网数据信息进行处理的情况下,就去做ETL操作,可能会浪费计算资源,最终判定被你做了ETL操作的数据是有问题的,这样会造成数据的浪费,另外,进行ETL操作之后的数据,理论上来说是无法拿出来正常参与校验过程的;除此之外,不同服务器之间数据传输主要受网速、传输距离、服务器处理数据能力决定,各个市之间的电网数据源来自不同的服务器,当省级接收各个市级的电网数据时,会存在时间上的差异,导致出现数据等待的问题。鉴于此,克服该现有技术所存在的缺陷是本
亟待解决的问题。

技术实现思路

[0004]本专利技术要解决的技术问题是在保证数据有效性的前提下,如何通过优化ETL,来降低数据等待的时间,以及提高ETL过程的效率问题。
[0005]本专利技术采用如下技术方案:第一方面,本专利技术提供了一种优化ETL数据等待的方法,包括:将已经接收到的多套数据内容,根据各数据内容所触发关联验证的历史任务,获取各数据内容当前等待验证的任务数量;获取当前完成对应任务数量验证后的数据内容,通过比对完成对应任务数量验证后的数据内容,确定是否能覆盖ETL过程所需的数据内容;若无法覆盖,则进入等待执行ETL
过程;若可以覆盖,则执行ETL过程;在等待执行ETL过程中,若分析出当前等待任务验证的剩余数据内容和执行ETL过程得到的结果数据之和小于等于处于等待执行ETL过程中原始数据内容时,则执行ETL过程,并保存ETL结果和当前等待任务验证的剩余数据内容。优选的,还包括在等待执行ETL过程中,若分析出当前等待任务验证的剩余数据内容和执行ETL过程得到的结果数据之和大于处于等待执行ETL过程中原始数据内容时,仍然维持等待执行ETL过程。
[0006]优选的,所述根据各数据内容所触发关联验证的历史任务,具体为:接收到的数据内容,按照数据内容的来源、数据内容的属性、数据内容的大小中的一项或者多项,确定所述数据内容所触发关联验证的历史任务;其中,所述历史任务需要多套数据内容均被收到才能完成验证,若存在数据内容缺失则无法进行相应历史任务的验证过程。
[0007]优选的,进入等待执行ETL过程,在所述ETL过程包括至少第一ETL过程和第二ETL过程时,方法还包括:获取第一ETL过程中各数据内容当前等待验证的剩余任务总数量,以及第二ETL过程中各数据内容当前等待验证的剩余任务总数量;若第一ETL过程中各数据内容当前等待验证的剩余任务总数量小于等于预设阈值,则调度本服务器或其他服务器进行优先处理第一ETL过程中各数据内容的验证任务。
[0008]优选的,ETL过程中各数据内容当前等待验证的剩余任务总数量均大于预设阈值时,按照本服务器或其他服务器原有的顺序处理当前等待验证的任务。
[0009]优选的,所述执行ETL过程,并保存ETL结果和当前等待任务验证的剩余数据内容,具体包括:所述执行ETL过程之前,生成当前等待任务验证的剩余数据内容的副本;在执行ETL过程之后,保存ETL结果和所述当前等待任务验证的剩余数据内容的副本;在所述当前等待任务验证的剩余数据内容的副本所对应的验证任务全部完成后,删除所述当前等待任务验证的剩余数据内容的副本。
[0010]优选的,在等待执行ETL过程中,分析出当前等待任务验证的剩余数据内容和执行ETL过程得到的结果数据之和与处于等待执行ETL过程中原始数据内容的大小关系,具体包括:在第一次触发所述分析之后,记录当前等待任务验证的剩余数据内容和执行ETL过程得到的结果数据之和与处于等待执行ETL过程中原始数据内容的第一差值;按照执行ETL过程得到的结果数据与执行ETL过程中原始数据内容的比值关系得到ETL压缩比例,则在第一次触发所述分析之后,新获取到一套或者多套数据内容所关联的任务数量清零后,且所述新获取到一套或者多套数据内容在加权所述ETL压缩比例之后得到结果大于等于所述第一差值时,第二次触发相应分析内容。
[0011]优选的,所述ETL压缩比的获取,包括历史执行对应ETL过程计算得到;或者,通过模拟仿真运算计算得到。
[0012]第二方面,本专利技术还提供了一种优化ETL数据等待的装置,用于实现第一方面所述的优化ETL数据等待的方法,所述装置包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存
储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,用于执行第一方面所述的优化ETL数据等待的方法。
[0013]第三方面,本专利技术还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,用于完成第一方面所述的优化ETL数据等待的方法。
[0014]本专利技术在进行ETL操作之前的数据有效性的验证阶段设定优先验证的预设阈值,在当前等待验证的任务数量小于预设阈值时,提供调度本服务器或其他服务器进行优先处理当前等待验证的任务,使得本专利技术尽早的完成数据的验证,降低了当前等待验证的任务数据的等待时间;除此之外,通过调整服务器触发判定进行ETL操作的逻辑,当前等待任务验证的剩余数据内容和执行ETL过程得到的结果数据之和小于等于处于等待执行ETL过程中原始数据内容时,则执行ETL过程并保存ETL结果,减少了验证当前等待验证任务的有效性所花费的时间,从而降低了服务器进行ETL操作的时间,提高了ETL过程的效率。...

【技术保护点】

【技术特征摘要】
1.一种优化ETL数据等待的方法,其特征在于,包括:将已经接收到的多套数据内容,根据各数据内容所触发关联验证的历史任务,获取各数据内容当前等待验证的任务数量;获取当前完成对应任务数量验证后的数据内容,通过比对完成对应任务数量验证后的数据内容,确定是否能覆盖ETL过程所需的数据内容;若无法覆盖,则进入等待执行ETL过程;若可以覆盖,则执行ETL过程;在等待执行ETL过程中,若分析出当前等待任务验证的剩余数据内容和执行ETL过程得到的结果数据之和小于等于处于等待执行ETL过程中原始数据内容时,则执行ETL过程,并保存ETL结果和当前等待任务验证的剩余数据内容。2.根据权利要求1所述的一种优化ETL数据等待的方法,其特征在于,还包括在等待执行ETL过程中,若分析出当前等待任务验证的剩余数据内容和执行ETL过程得到的结果数据之和大于处于等待执行ETL过程中原始数据内容时,仍然维持等待执行ETL过程。3.根据权利要求1所述的一种优化ETL数据等待的方法,其特征在于,所述根据各数据内容所触发关联验证的历史任务,具体为:接收到的数据内容,按照数据内容的来源、数据内容的属性、数据内容的大小中的一项或者多项,确定所述数据内容所触发关联验证的历史任务;其中,所述历史任务需要多套数据内容均被收到才能完成验证,若存在数据内容缺失则无法进行相应历史任务的验证过程。4.根据权利要求1所述的一种优化ETL数据等待的方法,其特征在于,进入等待执行ETL过程,在所述ETL过程包括至少第一ETL过程和第二ETL过程时,方法还包括:获取第一ETL过程中各数据内容当前等待验证的剩余任务总数量,以及第二ETL过程中各数据内容当前等待验证的剩余任务总数量;若第一ETL过程中各数据内容当前等待验证的剩余任务总数量小于等于预设阈值,则调度本服务器或其他服务器进行优先处理第一ETL过程中各数据内容的验证任务。5.根据权利要求4所述的一种优化ETL数据等待的方法,其特征在于,ETL过程中各数据内容当前等待验证的剩余任务总数量均大于预设阈值时,按照本服务器或其他服务器原有的顺序处理当前等待验证的任务。6.根据权利要求1所述的一种优...

【专利技术属性】
技术研发人员:阙凌燕张静钱建国章晓锘刘华蕾熊佩华马国梁金学奇方磊由甲川卢敏
申请(专利权)人:国网浙江省电力有限公司培训中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1