【技术实现步骤摘要】
一种ETL工作负载的动态调整方法及装置
本专利技术涉及大数据
,具体涉及一种ETL工作负载的动态调整方法及装置。
技术介绍
ETL(Extract-Transform-Load),用来描述将数据从来源端经过抽取、转换、加载至目的端的过程。目的是将企业中分散、凌乱、标准不统一的数据整合在一起,以进行整体数据分析。ETL软件的工作原理是从源端获取一部分数据,在内存中处理后,加载到目标端,然后不断循环执行此过程。在ETL软件使用前,需要设定每次从源端获取数据的条数,现有技术中,上述条数为一个静态参数,是技术人员凭经验估算的。而ETL软件的运行环境是动态变化的,上述条数由于固定不变,会导致上述条数与ETL软件的运行环境不匹配,降低ETL软件的工作效率。
技术实现思路
针对现有技术中的问题,本专利技术实施例提供一种ETL工作负载的动态调整方法及装置,能够至少部分地解决现有技术中存在的问题。一方面,本专利技术提出一种ETL工作负载的动态调整方法,包括:定期获得ETL软件的运行环境的性能数 ...
【技术保护点】
1.一种ETL工作负载的动态调整方法,其特征在于,包括:/n定期获得ETL软件的运行环境的性能数据;/n对所述性能数据进行归一化处理,获得特征参数;/n根据所述特征参数以及动态估算模型,获得步长数值;其中,所述动态估算模型是基于ETL软件的性能训练数据训练获得的;/n计算所述步长数值与预设系数的乘积,作为当前的抽取步长。/n
【技术特征摘要】
1.一种ETL工作负载的动态调整方法,其特征在于,包括:
定期获得ETL软件的运行环境的性能数据;
对所述性能数据进行归一化处理,获得特征参数;
根据所述特征参数以及动态估算模型,获得步长数值;其中,所述动态估算模型是基于ETL软件的性能训练数据训练获得的;
计算所述步长数值与预设系数的乘积,作为当前的抽取步长。
2.根据权利要求1所述的方法,其特征在于,基于ETL软件的性能训练数据训练获得动态估算模型的步骤包括:
获取所述性能训练数据;
对所述性能训练数据进行归一化处理,获得特征训练集;
根据所述特征训练集以及初始模型,获得所述动态估算模型。
3.根据权利要求2所述的方法,其特征在于,所述获取所述性能训练数据包括:
对原始数据进行数据清洗,去除异常值。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述性能数据包括所述ETL软件的CPU用量,所述ETL软件的内存用量,所述ETL软件的带宽用量,所述ETL软件对应的数据宽度;相应地,所述对所述性能数据进行归一化处理,获得特征参数包括:
根据所述ETL软件的CPU用量和所述ETL软件对应的CPU总量,计算获得所述ETL软件的CPU利用率;
根据所述ETL软件的内存用量和所述ETL软件对应的内存总量,计算获得所述ETL软件的内存使用率;
根据所述ETL软件的带宽用量和所述ETL软件对应的带宽总量,计算获得所述ETL软件的带宽利用率;
根据所述ETL软件对应的数据宽度和最大数据宽度,计算获得所述ETL软件的数据充实率。
5.一种ETL工作负载的动态调整的装置,其特征在于,包括:
获得单元,用于定期获得ETL软件的运行环境的性能数据;
第一处理单元,用于对所述性能数据进行归一化处...
【专利技术属性】
技术研发人员:张国宇,刘建成,张楠,乔雨倩,
申请(专利权)人:工银科技有限公司,
类型:发明
国别省市:河北;13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。