【技术实现步骤摘要】
一种基于ETL的数据并行处理方法、装置、设备和存储介质
[0001]本专利技术涉及数据处理
,具体涉及一种基于ETL的数据并行处理方法、装置、计算机设备和计算机可读存储介质。
技术介绍
[0002]市场数据中心自研的ETL(Extract
‑
Transform
‑
Load)工具是一种灵活高效的数据交换工具,其集成任务调度功能为一体,能够实现任务调度、数据抽取等功能。ETL每天需要同步及处理的数据量超过数十亿条,其承担大量的数据分发及数据同步的任务。很多从上游数据库同步到下游数据库的数据表或是同步到其它应用库的明细表(如客户标签、轻度汇总层)都需要使用ETL的数据表同步功能。大多数据表都是数千万到数亿行记录的规模,由于现有的ETL只能单任务单线程处理数据,故其在同步这些数据表时需要耗费数小时,同步效率低且业务响应不够及时。
[0003]因此,如何提高ETL的数据处理效率,成为目前亟需解决的技术问题。
技术实现思路
[0004]本专利技术的目的在于提供了一种基于E ...
【技术保护点】
【技术特征摘要】
1.一种基于ETL的数据并行处理方法,其特征在于,所述方法包括:在ETL任务运行列表中新增用于并行调用任务的控制组件;在所述ETL任务运行列表中选中需被所述控制组件并行调用的目标待处理ETL任务,并将所述目标待处理ETL任务的并行标签的值设置为所述控制组件的并行标签的值;通过所述控制组件并行调用与所述控制组件具有相同并行标签的值的所有目标待处理ETL任务。2.根据权利要求1所述的方法,其特征在于,所述在ETL任务运行列表中新增用于并行调用任务的控制组件,包括:在所述ETL任务运行列表中确定出需被所述控制组件并行调用且排列位置在首位的目标待处理ETL任务;在所述ETL任务运行列表中新增一并行调用类型的任务;其中,所述并行调用类型的任务紧邻该确定出的目标待处理ETL任务且排列在该确定出的目标待处理ETL任务之前;在所述并行调用类型的任务中设置并行标签的值,以生成所述控制组件。3.根据权利要求2所述的方法,其特征在于,所述通过所述控制组件并行调用与所述控制组件具有相同并行标签的值的所有目标待处理ETL任务,包括:在处理所述并行调用类型的任务时,读取所述并行调用类型的任务中并行标签的值;从排列在所述并行调用类型的任务之后的所有待处理ETL任务中筛选出与所述并行调用类型的任务具有相同并行标签的值的所有目标待处理ETL任务;并行调用筛选出的所有目标待处理ETL任务。4.根据权利要求1所述的方法,其特征在于,所述通过所述控制组件并行调用与所述控制组件具有相同并行标签的值的所有目标待处理ETL任务,包括:获取所述目标待处理ETL任务所指向的待处理数据以及所携带的线程并发信息;确定用于处理所述目标待处理ETL任务的线程的并发线程数量;当所述线程并发信息中定义了分页字段时,根据所述分页字段将所述待处理数据分配给所述并发线程数量的线程;当所述线程并发信息中未定义分页字段时,根据所述待处理数据的序列号将所述待处理数据分配给所述并发线程数量的线程。5.根据权利要求4所述的方法,其特征在于,所述根据所述分页字段将所述待处理数据分配给所述并发线程数量的线程,包括:当所述分页字段为特定类型时,从所述待处理数据中获取所述分页字段的...
【专利技术属性】
技术研发人员:林泽鑫,李宗辉,
申请(专利权)人:易方达基金管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。