【技术实现步骤摘要】
一种数据处理方法、系统及电子设备和存储介质
本申请涉及计算机
,更具体地说,涉及一种数据处理方法、系统及一种电子设备和一种计算机可读存储介质。
技术介绍
ETL,即Extract-Transform-Load,用于描述将数据从来源端经过萃取、转置、加载至目的端的过程。在数据仓库系统中,最初的源端是公司业务系统的业务数据库,目的端是大数据仓库。在实践中ETL过程还会在大数据仓库系统内部进行多次,用来做数据清洗和数仓分层。执行某个ETL的计算过程叫做ETL作业,所有的ETL作业需要定时按照作业依赖关系进行调度,这整个过程称为ETL作业调度。在传统的数据开发系统中,在开发有多层依赖的ETL作业任务时需要按照依赖顺序逐次开发,并且需要人工手动指定依赖关系。在修改了ETL脚本时,还需要再次调整依赖关系。上述数据作业开发方式中,按照顺序开发ETL作业需要耗费较多的工作时间,同时人工配置依赖关系时可能会存在失误,有些错误只有在运行时才能发现,而缺失依赖可能导致作业运行没有按照依赖顺序进行,从而引发不易察觉的数据错误。 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取针对ETL作业定义的第一类SQL脚本;/n对所有所述第一类SQL脚本进行自动解析,得到所述ETL作业之间的第一类依赖关系;/n利用第一自动检测脚本检测所述第一类依赖关系中是否存在依赖错误,所述自动检测脚本用于检测依赖关系是否符合基于预设依赖规则;/n若所述第一类依赖关系中不存在依赖错误,则发布所述ETL作业上线,并根据所述第一类依赖关系生成各所述ETL作业对应的作业产出表之间的数据血缘关系。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取针对ETL作业定义的第一类SQL脚本;
对所有所述第一类SQL脚本进行自动解析,得到所述ETL作业之间的第一类依赖关系;
利用第一自动检测脚本检测所述第一类依赖关系中是否存在依赖错误,所述自动检测脚本用于检测依赖关系是否符合基于预设依赖规则;
若所述第一类依赖关系中不存在依赖错误,则发布所述ETL作业上线,并根据所述第一类依赖关系生成各所述ETL作业对应的作业产出表之间的数据血缘关系。
2.根据权利要求1所述的数据处理方法,其特征在于,所述利用第一自动检测脚本检测所述第一类依赖关系中是否存在依赖错误之后,还包括:
若所述第一类依赖关系中存在依赖错误,则返回告警提示信息,所述告警提示信息包括错误出现位置、错误类型和错误描述信息。
3.根据权利要求1所述的数据处理方法,其特征在于,还包括:
获取针对数据接口定义的第二类SQL脚本;
利用第二自动检测脚本对所述第一类SQL脚本和所述第二类SQL脚本进行自动解析,检测各个数据接口所依赖的所述ETL作业和所述作业产出表是否存在;
如果是,则将所述数据接口发布至联调环境进行联调测试,并在测试通过后发布所述数据接口上线。
4.根据权利要求3所述的数据处理方法,其特征在于,所述利用第二自动检测脚本对所述第一类SQL脚本和所述第二类SQL脚本进行自动解析,检测各个数据接口所依赖的所述ETL作业和所述作业产出表是否存在,包括:
利用所述第二自动检测脚本对所述第一类SQL脚本和所述第二类SQL脚本进行语法分析,确定作业与数据接口之间的第二类依赖关系;
根据所述第二类依赖关系执行所述ETL作业,得到各层输出的实际数据产出表;
基于所述实际数据产出表和所述第一类SQL脚本定义的ETL作业,校验所述数据接口所依赖的所述ETL作业和所述作业产出表是否存在。
5.根据权利要求4所述的数据处理方法,其特征在于,所述利用所述第二自动检测脚本对所述第一类SQL脚本和所...
【专利技术属性】
技术研发人员:师印,蔡洁洁,易锋,
申请(专利权)人:政采云有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。