一种大数据sql任务批量自动回归优化方法技术

技术编号：36094375 阅读：26 留言：0更新日期：2022-12-24 11:12

本发明专利技术公开了一种大数据sql任务批量自动回归优化方法，它涉及大数据离线分布式计算领域。对日常生产sql自动回归验证，以及优化，包括以下步骤：(1).从sql任务导入到任务准备执行阶段；(2).任务准备执行到计算引擎流程。本发明专利技术提出了sql任务回归自动改造，镜像库替换，以及任务回归后自动追加crc32算法校验结果，节省了大量的人力和底层spark引擎的物理层镜像库校验，提升了sql任务回归的安全保障。提出了spark sql可控制实际数据输入大小的方法，方便全局统一设置，不需要再每个任务中涉及的输入表行数和列数去推算设置，提升了开发效率和可控性。提出了sql任务回归组方式，可以满足不同回归需求，而且可以回溯之前回归情况，方便对比，调优sql任务。调优sql任务。调优sql任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据sql任务批量自动回归优化方法

[0001]本专利技术涉及的是大数据离线分布式计算领域，具体涉及一种大数据sql任务批量自动回归优化方法。

技术介绍

[0002]大数据从数据分层建设，一般有ODS原始数据层、DWD明细数据层、DWS公共汇总层、ADS数据应用层，每一层都需要每天有大量的sql任务去运行，再者还有数据分析，日常也有很多报表也需要大量sql任务，而且随着公司业务不断发展，任务会越来越多，中小体量公司日常也会有几千上万的sql任务需要跑，大体量公司更是可以达到几十万以上。
[0003]对于sql任务的计算引擎，目前有hive，spark，flink，其中flink更多是用在实时领域，一般数据日常离线任务更多是用spark sql或hive，而对于hive，处于对性能的考虑，是用hive on spark，物理计算层还是用spark。spark从2009年诞生到2013年成为apache基金项目，到现在自身技术和周围生态都比较成熟，很多公司在离线计算领域都会选择spark。
[0004]日常...

【技术保护点】

【技术特征摘要】
1.一种大数据sql任务批量自动回归优化方法，其特征在于，对日常生产sql自动回归验证，以及优化，包括以下步骤：(1).从sql任务导入到任务准备执行阶段；(2).任务准备执行到计算引擎流程。2.根据权利要求1所述的一种大数据sql任务批量自动回归优化方法，其特征在于，所述的步骤(2)具体包括：(1)、改造生产sql，使用antlr4框架解析sql，将写入的目标库表替换成镜像库，临时表引用也替换成镜像库，以及对于insert语句，在前面补上一条create table like语句；(2)、添加回归分组，按照不同回归需求或者优化，创建不同分组；每次回归会建立一个回归组，回归组下面包含本次回归的任务，如果需要优化的任务，可以在回归组挑选任务再建立一个对应调...

【专利技术属性】
技术研发人员：林传艺，张璐波，
申请(专利权)人：天翼电子商务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人