基于深度学习算法的ETL调度方法及装置制造方法及图纸

技术编号:38385333 阅读:12 留言:0更新日期:2023-08-05 17:41
本发明专利技术公开了一种基于深度学习算法的ETL调度方法及装置,该方法包括:获取多个ETL调度中心发送的针对目标调度任务组中的至少两个调度任务的历史调度策略;根据所述历史调度策略,确定所述调度任务对应的历史调度参数;根据所述ETL调度中心对应的中心设备参数和调度历史记录,确定所述调度任务对应的调度准确性参数;根据每一所述调度任务对应的任务执行参数,和预设的神经网络预测模型,确定每一所述调度任务对应的调度优先级参数;根据所述历史调度参数、调度准确性参数和调度优先级参数,确定所述目标调度任务组对应的任务执行策略。可见,本发明专利技术能够结合大规模多中心的数据处理过程中的经验来有效优化ETL作业的流程,提高调度的效率和效果。调度的效率和效果。调度的效率和效果。

【技术实现步骤摘要】
基于深度学习算法的ETL调度方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种基于深度学习算法的ETL调度方法及装置。

技术介绍

[0002]ETL(Extract

Transform

Load,数据抽取加载和转换)作业通常由一个集中的调度平台控制他们的运行,决定执行顺序,进行错误捕捉和处理。现有的较为完善的ETL系统,往往需要具有合理的调度算法来确定出调度策略,以实现合理高效的任务调度。
[0003]由于一些信息处理任务中涉及到多个平台多个系统的数据处理,会存在多个不同的系统或企业采用自己的ETL调度平台来执行自己的ETL任务调度,但现有的ETL调度技术中,没有考虑到综合利用不同子系统或企业的ETL中心调度的结果来修正或优化ETL调度,而是大部分各自在自己的数据区域内实现调度,从而无法利用超大数据处理记录中的经验来提高ETL作业的效率和效果,这严重制约了ETL的大规模应用。可见,现有技术存在缺陷,亟需解决。

技术实现思路

[0004]本专利技术所要解决的技术问题在于,提供一种基于深度学习算法的ETL调度方法及装置,能够结合大规模多中心的数据处理过程中的经验来有效优化ETL作业的流程,提高ETL调度的效率和效果。
[0005]为了解决上述技术问题,本专利技术第一方面公开了一种基于深度学习算法的ETL调度方法,所述方法包括:获取多个ETL调度中心发送的针对目标调度任务组中的至少两个调度任务的历史调度策略;所述目标调度任务组包括有多个调度任务;根据每一所述历史调度策略,确定每一所述调度任务对应的历史调度参数;根据每一所述ETL调度中心对应的中心设备参数和调度历史记录,确定每一所述调度任务对应的调度准确性参数;根据每一所述调度任务对应的任务执行参数,和预设的神经网络预测模型,确定每一所述调度任务对应的调度优先级参数;根据所有所述调度任务对应的历史调度参数、调度准确性参数和调度优先级参数,确定所述目标调度任务组对应的任务执行策略。
[0006]作为一个可选的实施方式,在本专利技术第一方面中,所述任务执行参数包括任务类型、任务执行时的处理器占用率、任务执行时的储存器占用率、任务执行时的接口占用率和任务的预计运行时长中的至少一种;以及,所述根据每一所述调度任务对应的任务执行参数,和预设的神经网络预测模型,确定每一所述调度任务对应的调度优先级参数,包括:将每一所述调度任务对应的任务执行参数输入至训练好的第一神经网络预测模型,以得到输出的每一所述调度任务对应的调度优先级参数;所述第一神经网络预测模型
通过包括有多个训练任务执行参数和对应的调度优先级标注的训练数据集训练得到。
[0007]作为一个可选的实施方式,在本专利技术第一方面中,所述根据每一所述历史调度策略,确定每一所述调度任务对应的历史调度参数,包括:对于每一所述调度任务,确定该调度任务在任一所述历史调度策略中对应的历史调度优先级;根据该调度任务在任一所述历史调度策略中对应的历史调度优先级,计算该调度任务对应的历史调度前位比例;所述历史调度前位比例为该调度任务在所有所述历史调度策略中的优先级在前预设位数内的次数占该调度任务在所有历史调度策略中的出现次数的比例;根据该调度任务在任一所述历史调度策略中对应的历史调度优先级,以及任一所述历史调度策略对应的调度场景,计算该调度任务对应的历史调度场景参数;计算该调度任务对应的所述历史调度前位比例和所述历史调度场景参数的加权求和值,得到该调度任务对应的历史调度参数。
[0008]作为一个可选的实施方式,在本专利技术第一方面中,所述根据该调度任务在任一所述历史调度策略中对应的历史调度优先级,以及任一所述历史调度策略对应的调度场景,计算该调度任务对应的历史调度场景参数,包括:确定本次调度的当前调度场景;对于该调度任务在任一所述历史调度策略中对应的历史调度优先级,计算该历史调度策略对应的调度场景和当前调度场景的场景相似度,并计算所述场景相似度和所述历史调度优先级的乘积,以得到该调度任务在该历史调度策略中对应的调度场景参数;所述当前调度场景或所述调度场景包括客户需求分析、客户需求预测、客户通信质量分析、客户通信场景分析、客户通信费用分析和客户画像分析中的一种或多种组合的需求;计算该调度任务在所有所述历史调度策略中对应的所述调度场景参数的平均值,以得到该调度任务对应的历史调度场景参数。
[0009]作为一个可选的实施方式,在本专利技术第一方面中,所述根据每一所述ETL调度中心对应的中心设备参数和调度历史记录,确定每一所述调度任务对应的调度准确性参数,包括:对于每一所述调度任务在任一所述调度策略,根据该调度策略对应的所述ETL调度中心对应的中心设备参数,计算该调度策略对应的设备先进度参数;根据该调度策略对应的所述ETL调度中心对应的调度历史记录,计算该调度策略对应的调度性能参数;计算该调度策略对应的设备先进度参数和调度性能参数的乘积,得到该调度策略对应的调度效果参数;计算该调度任务对应的所有所述调度策略的所述调度效果参数的平均值,确定该调度任务对应的调度准确性参数。
[0010]作为一个可选的实施方式,在本专利技术第一方面中,所述中心设备参数包括处理器参数、内存参数、硬盘参数、阵列卡参数、电源参数、网络硬件参数和内存参数中的至少一种;以及,所述根据该调度策略对应的所述ETL调度中心对应的中心设备参数,计算该调度策略对应的设备先进度参数,包括:
将该调度策略对应的所述ETL调度中心对应的中心设备参数,输入至训练好的第二神经网络预测模型,以得到输出的该调度策略对应的设备先进度参数;所述第二神经网络预测模型通过包括有多个训练中心设备参数和对应的设备先进度标注的训练数据集训练得到。
[0011]作为一个可选的实施方式,在本专利技术第一方面中,所述根据该调度策略对应的所述ETL调度中心对应的调度历史记录,计算该调度策略对应的调度性能参数,包括:根据该调度策略对应的所述ETL调度中心对应的调度历史记录,统计所述ETL调度中心在所述调度历史记录中计算出调度策略的平均用时的倒数,得到用时参数;根据所述调度历史记录,获取所述ETL调度中心计算出的所有调度策略对应的调度结果参数;所述调度结果参数包括任务执行参数、任务执行成功率和任务执行总时间;将所述调度结果参数输入至训练好的第三神经网络预测模型,以得到输出的该调度结果参数对应的调度效果预测值;所述第三神经网络预测模型通过包括有多个训练调度结果参数和对应的调度效果标注的训练数据集训练得到;计算所述ETL调度中心对应的所述用时参数和所述调度效果预测值的乘积,得到该调度策略对应的调度性能参数。
[0012]作为一个可选的实施方式,在本专利技术第一方面中,所述根据所有所述调度任务对应的历史调度参数、调度准确性参数和调度优先级参数,确定所述目标调度任务组对应的任务执行策略,包括:根据每一所述调度任务对应的历史调度参数和调度准确性参数的乘积的大小,确定每一所述调度任务对应的历史调度优先级参数;确定所述目标调度任务组中不同类型的所述调度任务对应的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习算法的ETL调度方法,其特征在于,所述方法包括:获取多个ETL调度中心发送的针对目标调度任务组中的至少两个调度任务的历史调度策略;所述目标调度任务组包括有多个调度任务;根据每一所述历史调度策略,确定每一所述调度任务对应的历史调度参数;根据每一所述ETL调度中心对应的中心设备参数和调度历史记录,确定每一所述调度任务对应的调度准确性参数;根据每一所述调度任务对应的任务执行参数,和预设的神经网络预测模型,确定每一所述调度任务对应的调度优先级参数;根据所有所述调度任务对应的历史调度参数、调度准确性参数和调度优先级参数,确定所述目标调度任务组对应的任务执行策略。2.根据权利要求1所述的基于深度学习算法的ETL调度方法,其特征在于,所述任务执行参数包括任务类型、任务执行时的处理器占用率、任务执行时的储存器占用率、任务执行时的接口占用率和任务的预计运行时长中的至少一种;以及,所述根据每一所述调度任务对应的任务执行参数,和预设的神经网络预测模型,确定每一所述调度任务对应的调度优先级参数,包括:将每一所述调度任务对应的任务执行参数输入至训练好的第一神经网络预测模型,以得到输出的每一所述调度任务对应的调度优先级参数;所述第一神经网络预测模型通过包括有多个训练任务执行参数和对应的调度优先级标注的训练数据集训练得到。3.根据权利要求1所述的基于深度学习算法的ETL调度方法,其特征在于,所述根据每一所述历史调度策略,确定每一所述调度任务对应的历史调度参数,包括:对于每一所述调度任务,确定该调度任务在任一所述历史调度策略中对应的历史调度优先级;根据该调度任务在任一所述历史调度策略中对应的历史调度优先级,计算该调度任务对应的历史调度前位比例;所述历史调度前位比例为该调度任务在所有所述历史调度策略中的优先级在前预设位数内的次数占该调度任务在所有历史调度策略中的出现次数的比例;根据该调度任务在任一所述历史调度策略中对应的历史调度优先级,以及任一所述历史调度策略对应的调度场景,计算该调度任务对应的历史调度场景参数;计算该调度任务对应的所述历史调度前位比例和所述历史调度场景参数的加权求和值,得到该调度任务对应的历史调度参数。4.根据权利要求3所述的基于深度学习算法的ETL调度方法,其特征在于,所述根据该调度任务在任一所述历史调度策略中对应的历史调度优先级,以及任一所述历史调度策略对应的调度场景,计算该调度任务对应的历史调度场景参数,包括:确定本次调度的当前调度场景;对于该调度任务在任一所述历史调度策略中对应的历史调度优先级,计算该历史调度策略对应的调度场景和当前调度场景的场景相似度,并计算所述场景相似度和所述历史调度优先级的乘积,以得到该调度任务在该历史调度策略中对应的调度场景参数;所述当前调度场景或所述调度场景包括客户需求分析、客户需求预测、客户通信质量分析、客户通信场景分析、客户通信费用分析和客户画像分析中的一种或多种组合的需求;
计算该调度任务在所有所述历史调度策略中对应的所述调度场景参数的平均值,以得到该调度任务对应的历史调度场景参数。5.根据权利要求1所述的基于深度学习算法的ETL调度方法,其特征在于,所述根据每一所述ETL调度中心对应的中心设备参数和调度历史记录,确定每一所述调度任务对应的调度准确性参数,包括:对于每一所述调度任务在任一所述调度策略,根据该调度策略对应的所述ETL调度中心对应的中心设备参数,计算该调度策略对应的设备先进度参数;根据该调度策略对应的所述ETL调度中心对应的调度历史记录,计算该调度策略对应的调度性能参数;计算该调度策略对应的设备先进度参数和调度性能参数的乘积,得到该调度策略对应的调度效果参数;计算该调度任务对应的所有所述调度策略的所述调度效果参数的平均值,确定该调度任务对应的调度准确性参数。6.根据权利要求5所述的基于深度学习算法的ETL调度方法,其特征在于,...

【专利技术属性】
技术研发人员:吴伟华林金怡李韩邹西山庞文刚文其瑞
申请(专利权)人:联通沃音乐文化有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1