一种大数据sql任务批量自动回归优化方法技术

技术编号:36094375 阅读:26 留言:0更新日期:2022-12-24 11:12
本发明专利技术公开了一种大数据sql任务批量自动回归优化方法,它涉及大数据离线分布式计算领域。对日常生产sql自动回归验证,以及优化,包括以下步骤:(1).从sql任务导入到任务准备执行阶段;(2).任务准备执行到计算引擎流程。本发明专利技术提出了sql任务回归自动改造,镜像库替换,以及任务回归后自动追加crc32算法校验结果,节省了大量的人力和底层spark引擎的物理层镜像库校验,提升了sql任务回归的安全保障。提出了spark sql可控制实际数据输入大小的方法,方便全局统一设置,不需要再每个任务中涉及的输入表行数和列数去推算设置,提升了开发效率和可控性。提出了sql任务回归组方式,可以满足不同回归需求,而且可以回溯之前回归情况,方便对比,调优sql任务。调优sql任务。调优sql任务。

【技术实现步骤摘要】
一种大数据sql任务批量自动回归优化方法


[0001]本专利技术涉及的是大数据离线分布式计算领域,具体涉及一种大数据sql任务批量自动回归优化方法。

技术介绍

[0002]大数据从数据分层建设,一般有ODS原始数据层、DWD明细数据层、DWS公共汇总层、ADS数据应用层,每一层都需要每天有大量的sql任务去运行,再者还有数据分析,日常也有很多报表也需要大量sql任务,而且随着公司业务不断发展,任务会越来越多,中小体量公司日常也会有几千上万的sql任务需要跑,大体量公司更是可以达到几十万以上。
[0003]对于sql任务的计算引擎,目前有hive,spark,flink,其中flink更多是用在实时领域,一般数据日常离线任务更多是用spark sql或hive,而对于hive,处于对性能的考虑,是用hive on spark,物理计算层还是用spark。spark从2009年诞生到2013年成为apache基金项目,到现在自身技术和周围生态都比较成熟,很多公司在离线计算领域都会选择spark。
[0004]日常大量调度sql任务的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种大数据sql任务批量自动回归优化方法,其特征在于,对日常生产sql自动回归验证,以及优化,包括以下步骤:(1).从sql任务导入到任务准备执行阶段;(2).任务准备执行到计算引擎流程。2.根据权利要求1所述的一种大数据sql任务批量自动回归优化方法,其特征在于,所述的步骤(2)具体包括:(1)、改造生产sql,使用antlr4框架解析sql,将写入的目标库表替换成镜像库,临时表引用也替换成镜像库,以及对于insert语句,在前面补上一条create table like语句;(2)、添加回归分组,按照不同回归需求或者优化,创建不同分组;每次回归会建立一个回归组,回归组下面包含本次回归的任务,如果需要优化的任务,可以在回归组挑选任务再建立一个对应调...

【专利技术属性】
技术研发人员:林传艺张璐波
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1