分布式数据的并行计算方法和装置制造方法及图纸

技术编号:37490127 阅读:12 留言:0更新日期:2023-05-07 09:29
本发明专利技术提供了一种分布式数据的并行计算方法和装置。所述方法包括:根据拆分策略对原始数据执行数据拆分以获得多个数据切片;将多个数据切片分配给多个计算单元,其中,每个计算单元基于所分配的数据切片执行计算以获得切片计算结果;以及聚合切片计算结果,其中,拆分策略包括第一拆分策略和第二拆分策略中的至少一种,其中,第一拆分策略为基于每个计算单元将分配的数据分区的数量来执行拆分,其中,第二拆分策略为基于每个计算单元将分配的数据行数或多个计算单元的总数来执行拆分。数据行数或多个计算单元的总数来执行拆分。数据行数或多个计算单元的总数来执行拆分。

【技术实现步骤摘要】
分布式数据的并行计算方法和装置


[0001]本专利技术涉及大数据领域,更具体地,涉及一种分布式数据的并行计算和装置。

技术介绍

[0002]在机器学习和大数据计算场景中,经常会遇到需要加速数据可分类的计算逻辑,常见的方法是限制计算处理逻辑的描述为特定的语言或框架,然后利用语言和框架层面的处理协同在多机环境(例如,并行计算环境)下对数据和任务进行拆分。而针对不能约束(或限制)计算描述框架的情况,则没有很好的方案。

技术实现思路

[0003]本专利技术的目的在于提供一种分布式数据的并行计算方法和装置。
[0004]根据本专利技术的一个或多个方面,本专利技术提供了一种分布式数据的并行计算方法,所述方法包括:根据拆分策略对待处理数据执行数据拆分以获得多个数据切片;将多个数据切片分配给多个计算单元,其中,每个计算单元基于所分配的数据切片执行计算以获得切片计算结果;以及聚合切片计算结果,其中,拆分策略包括第一拆分策略和第二拆分策略中的至少一种,其中,第一拆分策略为基于每个计算单元将分配的数据分区的数量来执行拆分,第二拆分策略为基于每个计算单元将分配的数据行数或多个计算单元的总数来执行拆分。
[0005]在根据专利技术构思的示例性实施例中,所述根据拆分策略对待处理数据执行数据拆分以获得多个数据切片的步骤可以包括:根据第一拆分策略执行数据拆分以获得多个初始切片,然后根据第二拆分策略对多个初始切片进行调整以获得多个数据切片。
[0006]在根据专利技术构思的示例性实施例中,所述根据第二拆分策略对多个初始切片进行调整的步骤可以通过对多个初始切片进行重新分区来执行。
[0007]在根据专利技术构思的示例性实施例中,所述拆分策略还可以包括:第三拆分策略,第三拆分策略为根据资源调度信息来执行拆分,其中,资源调度信息包括计算的期望总运行时长和期望用于执行计算的计算资源中的至少一者。
[0008]在根据专利技术构思的示例性实施例中,所述根据拆分策略执行数据拆分以获得多个数据切片的步骤可以包括:根据第一拆分策略和/或第二拆分策略执行数据拆分以获得多个初始切片,然后根据第三拆分策略对多个初始切片进行调整以获得多个数据切片。
[0009]在根据专利技术构思的示例性实施例中,执行所述第三拆分策略的步骤可以包括:获取所述资源调度信息;获取运行资源指标和二次拆分指标,其中,运行资源指标用于表征计算资源的使用量,二次拆分指标用于表征执行调整时消耗的时间成本;根据资源调度信息基于所述运行资源指标和所述二次拆分指标来执行拆分。
[0010]在根据专利技术构思的示例性实施例中,所述计算资源可以包括正在执行计算的第一计算单元和未执行计算的第二计算单元,第一计算单元包括多个计算单元。所述根据资源调度信息基于所述运行资源指标和所述二次拆分指标来执行拆分的步骤可以包括:基于运
行资源指标获取第二计算单元中的待分配计算单元;根据待处理数据或多个初始切片、第一计算单元和待分配计算单元推测预计计算时长;至少基于预计计算时长和二次拆分指标推测总运行时长变化;并且根据资源调度信息基于总运行时长变化来执行拆分。
[0011]在根据专利技术构思的示例性实施例中,所述运行资源指标可以包括收集的每个计算单元的CPU利用率、内存利用率及带宽的利用率中的至少一者。
[0012]在根据专利技术构思的示例性实施例中,所述推测总运行时长变化的步骤可以包括:基于数据切片读取消耗、预处理消耗中的至少一者以及预计计算时长和二次拆分指标来推测总运行时长变化。
[0013]根据本专利技术的一个或多个方面,本专利技术提供了一种分布式数据的并行计算装置,装置包括:数据拆分单元,被配置为根据拆分策略对待处理数据执行数据拆分以获得多个数据切片;多个计算单元,被配置为基于所分配的数据切片执行计算以获得切片计算结果;以及聚合单元,被配置为聚合切片计算结果,其中,拆分策略包括第一拆分策略和第二拆分策略中的至少一种,其中,第一拆分策略为基于每个计算单元将分配的数据分区的数量来执行拆分,第二拆分策略为基于每个计算单元将分配的数据行数或多个计算单元的总数来执行拆分。
[0014]在根据专利技术构思的示例性实施例中,所述数据拆分单元还可以被配置为根据第一拆分策略执行数据拆分以获得多个初始切片,然后根据第二拆分策略对多个初始切片进行调整以获得多个数据切片。
[0015]在根据专利技术构思的示例性实施例中,所述数据拆分单元还可以被配置为通过对多个初始切片进行重新分区来执行根据第二拆分策略对多个初始切片进行调整的步骤。
[0016]在根据专利技术构思的示例性实施例中,所述拆分策略还可以包括:第三拆分策略,第三拆分策略为根据资源调度信息来执行拆分,其中,资源调度信息包括计算的期望总运行时长和期望用于执行计算的计算资源中的至少一者。
[0017]在根据专利技术构思的示例性实施例中,所述数据拆分单元可以被配置为根据第一拆分策略和/或第二拆分策略执行数据拆分以获得多个初始切片,然后根据第三拆分策略对多个初始切片进行调整以获得多个数据切片。
[0018]在根据专利技术构思的示例性实施例中,所述装置还可以包括指标获取单元,指标获取单元被配置为获取运行资源指标和二次拆分指标,其中,运行资源指标用于表征计算资源的使用量,二次拆分指标用于表征执行调整时消耗的时间成本。数据拆分单元在根据第三拆分策略执行数据拆分时可以被配置为:获取资源调度信息;从指标获取单元获取运行资源指标和二次拆分指标;根据资源调度信息基于运行资源指标和二次拆分指标来执行拆分。
[0019]在根据专利技术构思的示例性实施例中,所述计算资源可以包括正在执行计算的第一计算单元和未执行计算的第二计算单元,第一计算单元包括多个计算单元。所述数据拆分单元还被配置为:基于运行资源指标获取第二计算单元中的待分配计算单元;根据待处理数据或多个初始切片、第一计算单元和待分配计算单元推测预计计算时长;至少基于预计计算时长和二次拆分指标推测总运行时长变化;并且根据资源调度信息基于总运行时长变化来执行拆分。
[0020]在根据专利技术构思的示例性实施例中,所述运行资源指标可以包括收集的每个计算
单元的CPU利用率、内存利用率及带宽的利用率中的至少一者。
[0021]在根据专利技术构思的示例性实施例中,所述数据拆分单元还可以被配置为基于数据切片读取消耗、预处理消耗中的至少一者以及预计计算时长和二次拆分指标来推测总运行时长变化。
[0022]本专利技术的另一方面提供了一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的分布式数据的并行计算方法。
[0023]本专利技术的另一方面提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的分布式数据的并行计算方法。
[0024]根据本专利技术的一个或多个方面,通过根据拆分策略执行数据拆分以获得多个数据切片,通过将多个数据切片分配给多个计算单元分别执行计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式数据的并行计算方法,所述方法包括:根据拆分策略对待处理数据执行数据拆分以获得多个数据切片;将所述多个数据切片分配给多个计算单元,其中,每个计算单元基于所分配的数据切片执行计算以获得切片计算结果;以及聚合所述切片计算结果,其中,所述拆分策略包括第一拆分策略和第二拆分策略中的至少一种,其中,第一拆分策略为基于所述每个计算单元将分配的数据分区的数量来执行拆分,其中,第二拆分策略为基于所述每个计算单元将分配的数据行数或所述多个计算单元的总数来执行拆分。2.根据权利要求1所述的并行计算方法,其特征在于,所述根据拆分策略对待处理数据执行数据拆分以获得多个数据切片的步骤包括:根据所述第一拆分策略执行数据拆分以获得多个初始切片,然后根据所述第二拆分策略对所述多个初始切片进行调整以获得所述多个数据切片。3.根据权利要求2所述的并行计算方法,其特征在于,所述根据所述第二拆分策略对多个初始切片进行调整的步骤通过对所述多个初始切片进行重新分区来执行。4.根据权利要求1所述的并行计算方法,其特征在于,所述拆分策略还包括:第三拆分策略,所述第三拆分策略为根据资源调度信息来执行拆分,其中,所述资源调度信息包括所述计算的期望总运行时长和期望用于执行所述计算的计算资源中的至少一者。5.根据权利要求4所述的并行计算方法,其特征在于,所述根据拆分策略执行数据拆分以获得多个数据切片的步骤包括:根据所述第一拆分策略和/或所述第二拆分策略执行数据拆分以获得多个初始切片,然后根据所述第三拆分策略对所述多个初始切片进行调整以获得所述多个数据切片。6.根据权利要求4或5所述的并行计算方法,其特征在于,执行所述第三拆分策略的步骤包括:获取所述资源调度信息;获取运行资源指标和二次拆分指标,其中,所述运行资源指标用于表征所述计...

【专利技术属性】
技术研发人员:罗伟锋方荣郭朕
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1