数据处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:42586461 阅读:16 留言:0更新日期:2024-09-03 18:03
本公开关于数据处理方法、装置、电子设备和存储介质,该方法包括:获取当前任务的目标并行度,其中,当前任务为任务流水线所包含的依次执行的多个任务的其中之一;在目标并行度达到预设并行度阈值的情况下,将当前任务切分为母任务和多个子任务;通过母任务创建多个处理线程;利用所创建的多个处理线程处理多个子任务,获得多个处理子结果;通过母任务将多个处理子结果进行融合,获得当前任务的融合处理结果。这样,相比于现有技术中,把完整管道当成一个黑盒任务,并且在执行任务之前将输入进行拆分的方式,本公开可以实现基于任务的类型区别性的分配执行资源,可以节省较多的执行资源,避免执行环境资源的过多浪费。

【技术实现步骤摘要】

本公开涉及计算机,更具体地说,涉及数据处理方法、装置、电子设备和存储介质


技术介绍

1、编排调度框架在处理任务(job)时,会把由多个任务构成的完整管道(pipeline)当成一个黑盒任务,如果处理时间超过容忍范围或者单次执行任务处理量超过执行环境的最大限制,一般会在执行任务之前将输入进行拆分,然后通过多次执行pipeline的方式完成任务处理。

2、但是,pipeline所包含的某些任务的运算逻辑比较复杂,其可能产生大量的中间数据,这些大量的中间数据会作为下游job的输入,此时,该下游job就会被称为资源密集型任务。为了满足资源密集型任务的运行需要,就不得不调大执行环境资源。然而,在整个pipeline处理过程中,仅仅存在少量的资源密集型任务,大多数任务属于非资源密集型任务,即大多数任务实际上并不需要特别大的执行环境资源。此时,需要等待整个pipeline运行结束之后才可以将资源密集型任务所占据的庞大执行环境资源释放出来,这会导致执行环境资源的较多浪费。


技术实现思路

1、本公开提供数据处理方本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.如权利要求1所述的数据处理方法,其特征在于,所述将所述当前任务切分为母任务和多个子任务,包括:

3.如权利要求2所述的数据处理方法,其特征在于,所述目标并行度为目标并行度区间,在基于所述目标并行度和所述目标拆分策略,将所述目标数据输入切分为多个数据子输入之前,还包括:

4.如权利要求1所述的数据处理方法,其特征在于,还包括:

5.如权利要求1所述的数据处理方法,其特征在于,所述利用所创建的多个处理线程处理所述多个子任务,获得多个处理子结果,包括:

6.如权利要求1所述的数据处理方法,...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.如权利要求1所述的数据处理方法,其特征在于,所述将所述当前任务切分为母任务和多个子任务,包括:

3.如权利要求2所述的数据处理方法,其特征在于,所述目标并行度为目标并行度区间,在基于所述目标并行度和所述目标拆分策略,将所述目标数据输入切分为多个数据子输入之前,还包括:

4.如权利要求1所述的数据处理方法,其特征在于,还包括:

5.如权利要求1所述的数据处理方法,其特征在于,所述利用所创建的多个处理线程处理所述多个子任务,获得多个处理子...

【专利技术属性】
技术研发人员:李瀚
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1