【技术实现步骤摘要】
基于深度学习算法的ETL调度方法、装置、设备及介质
[0001]本申请涉及ETL调度
,尤其涉及一种基于深度学习算法的ETL调度方法、装置、设备及介质。
技术介绍
[0002]随着大数据技术发展,分布式的数据存储系统越来越多,大数据应用一般需要集成多个不同的数据存储系统来构建不同应用的数据仓库。数据仓库结构主要包括:数据源、ETL过程、数据展现。数据仓库的数据源主要来自企业保密的内部数据及对外公开的部分外部数据等;ETL过程是对数据的处理过程,其中的数据抽取部分是数据仓库的入口,然后进行一定的转换处理后转载到数据仓库中去,从而为用户提供所需数据;数据展现是使用专业的技术工具进行报表生产、决策分析及挖掘等操作。
[0003]ETL是将数据从数据源端经过数据抽取、转换、加载到目的端的过程。目前,ETL一词经常与数据仓库同时出现,但是其实ETL的对象并不只限于数据仓库。在ETL过程中数据抽取是将源数据的所需数据取出,转换则是将取出的数据经过清洗转成目标数据,加载是将处理好的目标数据载入目的端中。ETL的最终目标是把原始的数据经过技术处理后集成装入数据仓库中,然后使用专业的工具对数据进行报表生产、数据分析、数据挖掘等处理,最终为企业的决策提供准确的决策依据。
[0004]在实际应用中,一些ETL调度过程通常会涉及到数据校验。具体地,通过在ETL调度系统周围部署数据校验系统来实现,且当所有ETL调度系统中所有的ETL任务(ETL任务)运行调度完成后,再集中调度数据校验程序,随后获取数据校验结果,生成数据校 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习算法的ETL调度方法,其特征在于,包括:获取待调度ETL任务的任务执行数据,包括任务执行时的处理器占用率、储存器占用率、接口占用率和运行时长;将所述任务执行数据输入至预设的调度分配模型,得到任务调度数据;所述任务调度数据包括ETL调度任务类型和调度任务线程数量;其中,在所述将所述任务执行数据输入至预设的调度分配模型之前,还包括训练得到调度分配模型,包括:从数据库中获取历史ETL调度任务中的任务执行数据和任务调度数据,作为训练样本;利用所述训练样本,分别基于Faster
‑
RCNN算法和LSTM算法,训练得到第一模型和第二模型;将所述第一模型和所述第二模型输入至集成分类器,生成调度分配模型;按照预设的数据校验方式对所述任务调度数据进行校验,当校验通过时根据所述任务调度数据进行ETL调度。2.根据权利要求1所述的基于深度学习算法的ETL调度方法,其特征在于,所述按照预设的数据校验方式对所述任务调度数据进行校验,包括:按照配置信息的优先级对执行ETL调度的任务数据进行校验;其中,配置信息的优先级排序依次为第一配置信息、第二配置信息以及第三配置信息;所述第一配置信息包括:校验数据列表、校验规则列表、所述校验数据列表与所述校验规则列表之间的关系及校验数据期数;所述第二配置信息包括:ETL任务的名称、任务之间的依赖关系、任务数据的加载周期及数据校验开关;所述第三配置信息包括:ETL任务报错重试次数及ETL任务加载的数据表。3.根据权利要求1所述的基于深度学习算法的ETL调度方法,其特征在于,还包括:利用改进离散萤火虫算法对调度分配模型进行优化,将优化后的模型作为目标模型。4.根据权利要求1所述的基于深度学习算法的ETL调度方法,其特征在于,所述训练得到调度分配模型,还包括:以历史ETL调度任务中的任务执行数据为输入,以历史ETL调度任务中的任务调度数据为输出,分别训练所述第一模型和所述第二模型;其中,利用层次分析法,确定任务执行时的处理器占用率、储存器占用率、接口占用率和运行时长各数据的权重,将其加权组合后的结果作为模型输入。5.根据权利要求4所述的基于深度学习算法的ETL调度方法,其特征在于,基于所述Faster
‑
RCNN算法训练得到第一模型,包括:对Faster
‑
RCNN算法的RoI卷积神经网络进行改进,包括:把RoI投射到特征图区域内,将投射结果均匀地划分到一个区域里,在每个区域都布置若干个相同数量的采样点,对每个采样点进行双线性插值;当每个采样点完成双线性插值后...
【专利技术属性】
技术研发人员:吴伟华,林金怡,李韩,邹西山,庞文刚,文其瑞,
申请(专利权)人:联通在线信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。