分布式数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34529063 阅读:14 留言:0更新日期:2022-08-13 21:21
本公开关于一种分布式数据处理方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法中,驱动节点获取多个待处理数据,将多个待处理数据分发给多个处理节点,以使得各处理节点对分发到的待处理数据进行迭代处理,得到包含每轮次迭代处理结果的第一处理结果,可以实现更高的数据处理效率。当各处理节点上的剩余待处理数据的数量满足预设条件时,驱动节点获取各处理节点上的剩余待处理数据,由其对各个剩余待处理数据进行一次性并行处理,得到第二处理结果,可以节省数据处理资源,并实现更高的数据处理效率。最后根据各处理节点得到的第一处理结果和第二处理结果,得到针对多个待处理数据的目标处理结果。个待处理数据的目标处理结果。个待处理数据的目标处理结果。

【技术实现步骤摘要】
分布式数据处理方法、装置、电子设备及存储介质


[0001]本公开涉及数据处理
,尤其涉及一种分布式数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着移动互联网技术的不断发展,每天都会产生海量的数据。对于数量级别较大的待处理数据,通常采用分布式迭代处理的方式,对待处理数据进行处理,从而得到期望得到的数据处理结果。
[0003]然而,由于每轮迭代的时长相对固定,且当经过多轮次的迭代处理之后,剩余的待处理数据的量级较小,继续通过迭代处理的方式来处理剩余的待处理数据,存在处理成本高、效率低的问题。

技术实现思路

[0004]本公开提供一种分布式数据处理方法、装置、电子设备及存储介质,在分布式数据处理场景下,可以节约成本,提升处理效率。
[0005]本公开实施例的技术方案如下:
[0006]根据本公开实施例的第一方面,提供一种分布式数据处理方法,应用于分布式数据处理系统中的驱动节点,分布式数据处理系统还包括多个处理节点。分布式数据处理方法包括:获取多个待处理数据。将多个待处理数据分发给多个处理节点,以使得各处理节点对分发到的待处理数据进行迭代处理,得到包含每轮次迭代处理结果的第一处理结果。当各处理节点上的剩余待处理数据的数量满足预设条件时,获取各处理节点上的剩余待处理数据。对各个剩余待处理数据进行并行处理,得到第二处理结果。根据各处理节点得到的第一处理结果和第二处理结果,得到针对多个待处理数据的目标处理结果。
[0007]可选的,预设条件为各处理节点上的剩余待处理数据的数量的总和小于预设阈值。提供了一种各处理节点的剩余待处理数据的数量的预设条件的具体实现方式,通过设置预设条件,能够确定各处理节点的剩余待处理数据的数量的总和是否小于预设阈值,确定获取各处理节点上的剩余待处理数据的前提条件。
[0008]可选的,预设条件为各处理节点上的剩余待处理数据的数量均小于预设阈值。提供了一种各处理节点的剩余待处理数据的数量的预设条件,通过驱动节点预设的内存容量和各处理节点预设的剩余待处理数据的数量两方面因素确定的预设阈值,能够在待处理数据的数量量级较大的情况下,通过迭代处理,在待处理数据的数量量级较小的情况下,通过并行处理,有效节约处理资源,减少处理时长,提升处理效率。
[0009]可选的,预设阈值根据驱动节点预设的内存容量和各处理节点预设的剩余数据数量确定,其中,各处理节点预设的剩余数据数量,是指处理节点执行的历史迭代处理过程进行到目标轮次后收敛速度小于预设收敛速度时的剩余待处理数据数量。
[0010]可选的,当各处理节点上的剩余待处理数据的数量满足预设条件时,获取各处理
节点上的剩余待处理数据,包括:当各处理节点上的剩余待处理数据的数量满足预设条件时,根据各处理节点上的剩余待处理数据的数量,确定并行处理剩余待处理数据所需的第一内存容量。在第一内存容量小于第二内存容量的情况下,获取各处理节点上的剩余待处理数据,第二内存容量为驱动节点的当前内存空闲容量。
[0011]可选的,分布式数据处理系统还包括配置节点。当各处理节点上的剩余待处理数据的数量满足预设条件时,获取各处理节点上的剩余待处理数据,还包括:在第一内存容量大于或者等于第二内存容量的情况下,向配置节点发送内存调节请求,以请求配置节点调节第二内存容量,以使得第一内存容量小于第二内存容量。当配置节点对第二内存容量调节完成时,获取各处理节点上的剩余待处理数据。
[0012]可选的,对各个剩余待处理数据进行并行处理,得到第二处理结果,包括:将第一格式的剩余待处理数据进行格式转换,得到第二格式的剩余待处理数据,第一格式是指与迭代处理匹配的数据格式,第二格式是指与并行处理匹配的数据格式。对第二格式的剩余待处理数据进行并行处理,得到第二处理结果。通过对来自各处理节点的待处理数据进行格式转换,转换为适合并行处理的格式,能够便于驱动节点进行处理,提升处理效率。
[0013]根据本公开实施例的第二方面,提供了一种分布式数据处理装置,应用于分布式数据处理系统中的驱动节点,分布式数据处理系统还包括多个处理节点。分布式数据处理装置包括:第一数据获取单元,被配置为执行获取多个待处理数据。数据分发单元,被配置为执行将多个待处理数据分发给多个处理节点,以使得各处理节点对分发到的待处理数据进行迭代处理,得到包含每轮次迭代处理结果的第一处理结果。第二数据获取单元,被配置为执行当各处理节点上的剩余待处理数据的数量满足预设条件时,获取各处理节点上的剩余待处理数据。数据处理单元,被配置为执行对各个剩余待处理数据进行并行处理,得到第二处理结果。结果确定单元,被配置为执行根据各处理节点得到的第一处理结果和第二处理结果,得到针对多个待处理数据的目标处理结果。
[0014]可选的,预设条件为各处理节点上的剩余待处理数据的数量的总和小于预设阈值。
[0015]可选的,预设条件为各处理节点上的剩余待处理数据的数量均小于预设阈值。
[0016]可选的,预设阈值根据驱动节点预设的内存容量和各处理节点预设的剩余数据数量确定,其中,各处理节点预设的剩余数据数量,是指处理节点执行的历史迭代处理过程进行到目标轮次后收敛速度小于预设收敛速度时的剩余待处理数据数量。
[0017]可选的,第二数据获取单元,具体被配置为执行:当各处理节点上的剩余待处理数据的数量满足预设条件时,根据各处理节点上的剩余待处理数据的数量,确定并行处理剩余待处理数据所需的第二内存容量。在第一内存容量小于第二内存容量的情况下,获取各处理节点上的剩余待处理数据,第二内存容量为驱动节点的当前内存空闲容量。
[0018]可选的,分布式数据处理系统还包括配置节点。第二数据获取单元,还被配置为执行:在第一内存容量大于或者等于第二内存容量的情况下,向配置节点发送内存调节请求,以请求配置节点调节第二内存容量,以使得第一内存容量小于第二内存容量。第二数据获取单元,还被配置为执行当配置节点对第二内存容量调节完成时,获取各处理节点上的剩余待处理数据。
[0019]可选的,结果确定单元,具体被配置为执行:将第一格式的剩余待处理数据进行格
式转换,得到第二格式的剩余待处理数据,第一格式是指与迭代处理匹配的数据格式,第二格式是指与并行处理匹配的数据格式。对第二格式的剩余待处理数据进行并行处理,得到第二处理结果。
[0020]根据本公开实施例的第三方面,提供一种电子设备,可以包括:处理器和用于存储处理器可执行指令的存储器。其中,处理器被配置为执行指令,以实现上述第一方面中任一种可选地分布式数据处理方法。
[0021]根据本公开实施例的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面中任一种可选地分布式数据处理方法。
[0022]根据本公开实施例的第五方面,提供一种计算机程序产品,当计算机程序/指令在被处理器执行时实现如第一方面中任本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式数据处理方法,其特征在于,应用于分布式数据处理系统中的驱动节点,所述分布式数据处理系统还包括多个处理节点,所述方法包括:获取多个待处理数据;将所述多个待处理数据分发给多个所述处理节点,以使得各所述处理节点对分发到的所述待处理数据进行迭代处理,得到包含每轮次迭代处理结果的第一处理结果;当各所述处理节点上的剩余待处理数据的数量满足预设条件时,获取各所述处理节点上的所述剩余待处理数据;对各个所述剩余待处理数据进行并行处理,得到第二处理结果;根据各所述处理节点得到的所述第一处理结果和所述第二处理结果,得到针对所述多个待处理数据的目标处理结果。2.根据权利要求1所述的分布式数据处理方法,其特征在于,所述预设条件为各所述处理节点上的剩余待处理数据的数量的总和小于预设阈值。3.根据权利要求1所述的分布式数据处理方法,其特征在于,所述预设条件为各所述处理节点上的剩余待处理数据的数量均小于预设阈值。4.根据权利要求2或3所述的分布式数据处理方法,其特征在于,所述预设阈值根据所述驱动节点预设的内存容量和各所述处理节点预设的剩余数据数量确定,其中,各所述处理节点预设的剩余数据数量,是指所述处理节点执行的历史迭代处理过程进行到目标轮次后收敛速度小于预设收敛速度时的剩余待处理数据数量。5.根据权利要求1所述的分布式数据处理方法,其特征在于,所述当各所述处理节点上的剩余待处理数据的数量满足预设条件时,获取各所述处理节点上的所述剩余待处理数据,包括:当各所述处理节点上的剩余待处理数据的数量满足预设条件时,根据各所述处理节点上的剩余待处理数据的数量,确定并行处理所述剩余待处理数据所需的第一内存容量;在所述第一内存容量小于第二内存容量的情况下,获取各所述处理节点上的所述剩余待处理数据,所述第二内存容量为所述驱动节点的当前内存空闲容量。6.根据权利要求5所述的分布式数据处理方法,其特征在于,所述分布式数据处理系统还包括配置节点;所述当各所述处理节点上的剩余待...

【专利技术属性】
技术研发人员:邵帅吴小龙
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1