【技术实现步骤摘要】
基于ETL的数据处理方法、装置、设备和存储介质
本申请涉及大数据
,特别涉及一种基于ETL的数据处理方法、装置、设备和存储介质。
技术介绍
随着大数据技术的不断发展,各种应用产生的数据量急剧增加。面对大量产生的数据,通常会采用数据仓库来管理上述数据。ETL为英文Extract-Transform-Load的缩写,是指将数据进行抽取(Extract)、转换(Transform)、装载(Load)处理的过程,是构建数据仓库的重要环节。在实现ETL的过程中,通常将各种应用产生的源数据通过抽取、转换处理得到对应的目标数据表,并将目标数据表存储在对应的目标数据库中。其中,将源数据通过抽取、转换处理得到对应的数据之后,通常还会再次对处理后的数据进行抽取、转换处理,得到更新后的数据,重复多次,最终得到目标数据表,进而将目标数据表存储至对应的目标数据库中。另一方面,可以对源数据进行不同的抽取、转换处理,得到多个目标数据表,并将各目标数据表存储在其对应的目标数据库中。传统方法中,在对源数据进行抽取、转换处理时,通常在预先设定好的 ...
【技术保护点】
1.一种基于ETL的数据处理方法,其特征在于,包括:/n获取源数据的更新信息;所述更新信息用于指示所述源数据是否发生更新;/n当所述更新信息指示所述源数据发生更新时,根据预设的ETL配置信息确定所述源数据对应的待处理数据表集合和待执行的ETL任务;/n对所述源数据和所述待处理数据表集合执行所述ETL任务,得到目标数据表。/n
【技术特征摘要】
1.一种基于ETL的数据处理方法,其特征在于,包括:
获取源数据的更新信息;所述更新信息用于指示所述源数据是否发生更新;
当所述更新信息指示所述源数据发生更新时,根据预设的ETL配置信息确定所述源数据对应的待处理数据表集合和待执行的ETL任务;
对所述源数据和所述待处理数据表集合执行所述ETL任务,得到目标数据表。
2.根据权利要求1所述的方法,其特征在于,所述对所述源数据和所述待处理数据表集合执行所述ETL任务,得到目标数据表,包括:
获取所述待处理数据表集合中各待处理数据表的执行顺序;
按照所述执行顺序,对所述源数据与所述待处理数据表集合中第一个待处理数据表执行所述ETL任务,得到中间数据表;并对所述待处理数据表集合中下一个待处理数据表与所述中间数据表执行所述ETL任务,直至最后一个待处理数据表,得到所述目标数据表。
3.根据权利要求2所述的方法,其特征在于,所述按照所述执行顺序,对所述源数据与所述待处理数据表集合中第一个待处理数据表执行所述ETL任务,得到中间数据表;并对所述待处理数据表集合中下一个待处理数据表与所述中间数据表执行所述ETL任务,直至最后一个待处理数据表,得到所述目标数据表,包括:
在执行完成上一个待处理数据表的ETL任务,得到所述中间数据表时,立即对下一个待处理数据表与所述中间数据表执行所述ETL任务,直至最后一个待处理数据表,得到所述目标数据表。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述待处理数据表集合为多个,所述对所述源数据和所述待处理数据表集合执行所述ETL任务,得到目标数据表,包括:
根据所述预设的ETL配置信息获取各所述待处理数据表集合的优先级;
根据各所述待处理数据表集合的优先级、所述源数据和各待处理数据表集合执行所述ETL任务,得到各待处理数据表集合分别对应的目标数据表。
5.根据权利要求4所述的方法,其特征在于,所述根据各所述待处理数据表集合的优先级、所述源数...
【专利技术属性】
技术研发人员:毛周平,
申请(专利权)人:安徽希施玛数据科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。