【技术实现步骤摘要】
本公开涉及计算机,尤其涉及一种分布式数据处理方法、装置、设备和存储介质。
技术介绍
1、随着网络技术的发展,出现了分布式数据处理服务,其将同一任务的大量数据分配到多个数据处理节点,通过各数据处理节点的数据处理,提升上述任务的执行效率。例如,对于大量由经纬度、行政区划和地址文本等构成地理地址数据的去重任务,以街道为单位,将各地理地址数据划分为不同的数据块,并将这些数据块分配至不同的数据处理节点进行地址去重处理。
2、但是,上述分布式数据去重处理方案中存在各数据块的交界区域被物理隔离而无法进行去重处理,导致部分数据遗漏处理的问题;也存在数据块划分不合理而导致的各数据处理节点的数据量均衡性较差的问题。
技术实现思路
1、为了解决上述技术问题,本公开实施例提供了一种分布式数据处理方法、装置、设备和存储介质。
2、第一方面,本公开实施例提供了一种分布式数据处理方法,该方法包括:
3、获取目标区域中待处理的各初始数据;
4、将所述目标区域划分为多个均匀的
...【技术保护点】
1.一种分布式数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述预设计算关系包括:任一所述网格区域与沿相应网格区域的预设方向上的四个邻接的所述网格区域之间的计算关系。
3.根据权利要求2所述的方法,其特征在于,所述基于所述预设计算关系,向相应网格区域的各所述中间数据分别添加关联网格标识,生成目标数据,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于相同的所述归属网格标识与所述关联网格标识遍历各所述网格区域,将遍历到的网格区域中的各所述目标数据、以及与相应目标数据具有相同的所述关联网格标识的各所
...【技术特征摘要】
1.一种分布式数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述预设计算关系包括:任一所述网格区域与沿相应网格区域的预设方向上的四个邻接的所述网格区域之间的计算关系。
3.根据权利要求2所述的方法,其特征在于,所述基于所述预设计算关系,向相应网格区域的各所述中间数据分别添加关联网格标识,生成目标数据,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于相同的所述归属网格标识与所述关联网格标识遍历各所述网格区域,将遍历到的网格区域中的各所述目标数据、以及与相应目标数据具有相同的所述关联网格标识的各所述目标数据分配至同一个数据处理节点,包括:
5.根据权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:曹增旭,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。