【技术实现步骤摘要】
分布式数据的并行计算方法和装置
[0001]本专利技术涉及大数据领域,更具体地,涉及一种分布式数据的并行计算和装置。
技术介绍
[0002]在机器学习和大数据计算场景中,经常会遇到需要加速数据可分类的计算逻辑,常见的方法是限制计算处理逻辑的描述为特定的语言或框架,然后利用语言和框架层面的处理协同在多机环境(例如,并行计算环境)下对数据和任务进行拆分。而针对不能约束(或限制)计算描述框架的情况,则没有很好的方案。
技术实现思路
[0003]本专利技术的目的在于提供一种分布式数据的并行计算方法和装置。
[0004]根据本专利技术的一个或多个方面,本专利技术提供了一种分布式数据的并行计算方法,所述方法包括:根据拆分策略对待处理数据执行数据拆分以获得多个数据切片;将多个数据切片分配给多个计算单元,其中,每个计算单元基于所分配的数据切片执行计算以获得切片计算结果;以及聚合切片计算结果,其中,拆分策略包括第一拆分策略和第二拆分策略中的至少一种,其中,第一拆分策略为基于每个计算单元将分配的数据分区的数量来执行拆分, ...
【技术保护点】
【技术特征摘要】
1.一种分布式数据的并行计算方法,所述方法包括:根据拆分策略对待处理数据执行数据拆分以获得多个数据切片;将所述多个数据切片分配给多个计算单元,其中,每个计算单元基于所分配的数据切片执行计算以获得切片计算结果;以及聚合所述切片计算结果,其中,所述拆分策略包括第一拆分策略和第二拆分策略中的至少一种,其中,第一拆分策略为基于所述每个计算单元将分配的数据分区的数量来执行拆分,其中,第二拆分策略为基于所述每个计算单元将分配的数据行数或所述多个计算单元的总数来执行拆分。2.根据权利要求1所述的并行计算方法,其特征在于,所述根据拆分策略对待处理数据执行数据拆分以获得多个数据切片的步骤包括:根据所述第一拆分策略执行数据拆分以获得多个初始切片,然后根据所述第二拆分策略对所述多个初始切片进行调整以获得所述多个数据切片。3.根据权利要求2所述的并行计算方法,其特征在于,所述根据所述第二拆分策略对多个初始切片进行调整的步骤通过对所述多个初始切片进行重新分区来执行。4.根据权利要求1所述的并行计算方法,其特征在于,所述拆分策略还包括:第三拆分策略,所述第三拆分策略为根据资源调度信息来执行拆分,其中,所述资源调度信息包括所述计算的期望总运行时长和期望用于执行所述计算的计算资源中的至少一者。5.根据权利要求4所述的并行计算方法,其特征在于,所述根据拆分策略执行数据拆分以获得多个数据切片的步骤包括:根据所述第一拆分策略和/或所述第二拆分策略执行数据拆分以获得多个初始切片,然后根据所述第三拆分策略对所述多个初始切片进行调整以获得所述多个数据切片。6.根据权利要求4或5所述的并行计算方法,其特征在于,执行所述第三拆分策略的步骤包括:获取所述资源调度信息;获取运行资源指标和二次拆分指标,其中,所述运行资源指标用于表征所述计...
【专利技术属性】
技术研发人员:罗伟锋,方荣,郭朕,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。