基于深度学习算法的ETL调度方法、装置、设备及介质制造方法及图纸

技术编号:38919717 阅读:21 留言:0更新日期:2023-09-25 09:31
本申请公开了一种基于深度学习算法的ETL调度方法、装置、设备及介质,包括获取待调度ETL任务的任务执行数据,包括任务执行时的处理器占用率、储存器占用率、接口占用率和运行时长;将任务执行数据输入至预设的调度分配模型,得到任务调度数据;任务调度数据包括ETL调度任务类型和调度任务线程数量;按照预设的数据校验方式对任务调度数据进行校验,当校验通过时根据任务调度数据进行ETL调度。本申请基于深度学习算法训练调度分配模型,通过改进的萤火虫算法对模型进行优化,提高了调度分配的效率和精确度;通过结合数据校验方式,避免了现有ETL任务调度过程中因校验不及时而造成错误数据较多的问题,增强了调度任务执行的能效。效。效。

【技术实现步骤摘要】
基于深度学习算法的ETL调度方法、装置、设备及介质


[0001]本申请涉及ETL调度
,尤其涉及一种基于深度学习算法的ETL调度方法、装置、设备及介质。

技术介绍

[0002]随着大数据技术发展,分布式的数据存储系统越来越多,大数据应用一般需要集成多个不同的数据存储系统来构建不同应用的数据仓库。数据仓库结构主要包括:数据源、ETL过程、数据展现。数据仓库的数据源主要来自企业保密的内部数据及对外公开的部分外部数据等;ETL过程是对数据的处理过程,其中的数据抽取部分是数据仓库的入口,然后进行一定的转换处理后转载到数据仓库中去,从而为用户提供所需数据;数据展现是使用专业的技术工具进行报表生产、决策分析及挖掘等操作。
[0003]ETL是将数据从数据源端经过数据抽取、转换、加载到目的端的过程。目前,ETL一词经常与数据仓库同时出现,但是其实ETL的对象并不只限于数据仓库。在ETL过程中数据抽取是将源数据的所需数据取出,转换则是将取出的数据经过清洗转成目标数据,加载是将处理好的目标数据载入目的端中。ETL的最终目标是把原始的数据经过技术处理后集成装入数据仓库中,然后使用专业的工具对数据进行报表生产、数据分析、数据挖掘等处理,最终为企业的决策提供准确的决策依据。
[0004]在实际应用中,一些ETL调度过程通常会涉及到数据校验。具体地,通过在ETL调度系统周围部署数据校验系统来实现,且当所有ETL调度系统中所有的ETL任务(ETL任务)运行调度完成后,再集中调度数据校验程序,随后获取数据校验结果,生成数据校验报告。然而,上述调度方式存在很多缺陷,例如在ETL调度过程中,若加载的数据有异常,现有的ETL调度系统中与前一个执行的ETL任务有依赖关系的下一个ETL任务仍会继续执行,导致异常数据继续加载到后续的列表中,这种情况一旦发生,异常数据影响范围大,随后需要处理多张有问题的列表来解决这个问题;另外,现有的调度方式中往往需要人工经验去干预,缺乏一种智能化的调度方式,因此导致ETL调度的效率远远无法满足实际调度需求。

技术实现思路

[0005]本申请的目的在于提供一种基于深度学习算法的ETL调度方法、装置、设备及介质,能够基于人工智能算法进行ETL调度,不仅大大提高ETL调度效率,且通过结合数据校验的方式,避免现有技术中数据仓库建立过程中因校验不及时而造成错误数据较多的问题。
[0006]为实现上述目的,本申请提供一种基于深度学习算法的ETL调度方法,包括:
[0007]获取待调度ETL任务的任务执行数据,包括任务执行时的处理器占用率、储存器占用率、接口占用率和运行时长;
[0008]将所述任务执行数据输入至预设的调度分配模型,得到任务调度数据;所述任务调度数据包括ETL调度任务类型和调度任务线程数量;
[0009]按照预设的数据校验方式对所述任务调度数据进行校验,当校验通过时根据所述
任务调度数据进行ETL调度。
[0010]在第一方面的一些实现方式中,所述按照预设的数据校验方式对所述任务调度数据进行校验,包括:
[0011]按照配置信息的优先级对执行ETL调度的任务数据进行校验;其中,配置信息的优先级排序依次为第一配置信息、第二配置信息以及第三配置信息;
[0012]所述第一配置信息包括:校验数据列表、校验规则列表、所述校验数据列表与所述校验规则列表之间的关系及校验数据期数;
[0013]所述第二配置信息包括:ETL任务的名称、任务之间的依赖关系、任务数据的加载周期及数据校验开关;
[0014]所述第三配置信息包括:ETL任务报错重试次数及ETL任务加载的数据表。
[0015]在第一方面的一些实现方式中,在所述将所述任务执行数据输入至预设的调度分配模型之前,还包括训练得到调度分配模型,包括:
[0016]从数据库中获取历史ETL调度任务中的任务执行数据和任务调度数据,作为训练样本;
[0017]利用所述训练样本,分别基于Faster

RCNN算法和LSTM算法,训练得到第一模型和第二模型;
[0018]将所述第一模型和所述第二模型输入至集成分类器,生成调度分配模型。
[0019]在第一方面的一些实现方式中,所述的基于深度学习算法的ETL调度方法,还包括:利用改进离散萤火虫算法对调度分配模型进行优化,将优化后的模型作为目标模型。
[0020]在第一方面的一些实现方式中,所述训练得到调度分配模型,还包括:
[0021]以历史ETL调度任务中的任务执行数据为输入,以历史ETL调度任务中的任务调度数据为输出,分别训练所述第一模型和所述第二模型;其中,
[0022]利用层次分析法,确定任务执行时的处理器占用率、储存器占用率、接口占用率和运行时长各数据的权重,将其加权组合后的结果作为模型输入。
[0023]在第一方面的一些实现方式中,基于所述Faster

RCNN算法训练得到第一模型,包括:
[0024]对Faster

RCNN算法的RoI卷积神经网络进行改进,包括:
[0025]把RoI投射到特征图区域内,将投射结果均匀地划分到一个区域里,在每个区域都布置若干个相同数量的采样点,对每个采样点进行双线性插值;
[0026]当每个采样点完成双线性插值后,对该区域内若干个采样点取最大值,得到区域的特征量;
[0027]利用改进的Faster

RCNN算法训练得到第一模型。
[0028]在第一方面的一些实现方式中,基于所述LSTM算法训练得到第二模型,包括:
[0029]构建STT

LSTM网络模型,所述STT

LSTM网络模型含有两层STT

LSTM网络,每层STT

LSTM网络包含有两个LSTM网络和一个全连接层;
[0030]将训练样本传进第一层STT

LSTM网络中的两个LSTM网络,分别训练两个LSTM网络,将两个LSTM网络的输出分别输入到对应的全连接层进行融合,得到初步融合结果;
[0031]将初步融合结果分别传入第二层STT

LSTM网络中两个LSTM网络,训练两个LSTM网络,将两个LSTM网络的输出分别输入到对应的全连接层进行融合,进行不断迭代,直至模型
收敛得到第二模型。
[0032]第二方面,本申请还提供了一种基于深度学习算法的ETL调度装置,包括:
[0033]数据获取单元,用于获取待调度ETL任务的任务执行数据,包括任务执行时的处理器占用率、储存器占用率、接口占用率和运行时长;
[0034]任务分配单元,用于将所述任务执行数据输入至预设的调度分配模型,得到任务调度数据;所述任务调度数据包括ETL调度任务类型和调度任务线程数量;
[0035]数据校验单元,用于按照预设的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习算法的ETL调度方法,其特征在于,包括:获取待调度ETL任务的任务执行数据,包括任务执行时的处理器占用率、储存器占用率、接口占用率和运行时长;将所述任务执行数据输入至预设的调度分配模型,得到任务调度数据;所述任务调度数据包括ETL调度任务类型和调度任务线程数量;其中,在所述将所述任务执行数据输入至预设的调度分配模型之前,还包括训练得到调度分配模型,包括:从数据库中获取历史ETL调度任务中的任务执行数据和任务调度数据,作为训练样本;利用所述训练样本,分别基于Faster

RCNN算法和LSTM算法,训练得到第一模型和第二模型;将所述第一模型和所述第二模型输入至集成分类器,生成调度分配模型;按照预设的数据校验方式对所述任务调度数据进行校验,当校验通过时根据所述任务调度数据进行ETL调度。2.根据权利要求1所述的基于深度学习算法的ETL调度方法,其特征在于,所述按照预设的数据校验方式对所述任务调度数据进行校验,包括:按照配置信息的优先级对执行ETL调度的任务数据进行校验;其中,配置信息的优先级排序依次为第一配置信息、第二配置信息以及第三配置信息;所述第一配置信息包括:校验数据列表、校验规则列表、所述校验数据列表与所述校验规则列表之间的关系及校验数据期数;所述第二配置信息包括:ETL任务的名称、任务之间的依赖关系、任务数据的加载周期及数据校验开关;所述第三配置信息包括:ETL任务报错重试次数及ETL任务加载的数据表。3.根据权利要求1所述的基于深度学习算法的ETL调度方法,其特征在于,还包括:利用改进离散萤火虫算法对调度分配模型进行优化,将优化后的模型作为目标模型。4.根据权利要求1所述的基于深度学习算法的ETL调度方法,其特征在于,所述训练得到调度分配模型,还包括:以历史ETL调度任务中的任务执行数据为输入,以历史ETL调度任务中的任务调度数据为输出,分别训练所述第一模型和所述第二模型;其中,利用层次分析法,确定任务执行时的处理器占用率、储存器占用率、接口占用率和运行时长各数据的权重,将其加权组合后的结果作为模型输入。5.根据权利要求4所述的基于深度学习算法的ETL调度方法,其特征在于,基于所述Faster

RCNN算法训练得到第一模型,包括:对Faster

RCNN算法的RoI卷积神经网络进行改进,包括:把RoI投射到特征图区域内,将投射结果均匀地划分到一个区域里,在每个区域都布置若干个相同数量的采样点,对每个采样点进行双线性插值;当每个采样点完成双线性插值后...

【专利技术属性】
技术研发人员:吴伟华林金怡李韩邹西山庞文刚文其瑞
申请(专利权)人:联通在线信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1