【技术实现步骤摘要】
处理单元、处理设备、方法和计算机程序
技术介绍
[0001]负载平衡是从并行计算机系统实现高性能所必须解决的中心问题之一。对于并行应用,负载平衡试图将计算负载尽可能平均地跨并行计算机系统的多个处理器或机器分布,以改善性能。
[0002]当每个处理器解决一个数据块时,处理器必须周期性地与其邻居通信。并行程序可以按照一系列块求解器和接口求解器来划分。块求解器用于计算块的解。接口求解器用于在块边界之间交换信息。每个进程的执行时间受几个时变因素的影响,这些时变因素例如,处理器的负载、网络的负载、用于解决每个块的解决方案、块的大小等。因此,一些处理器可以比其他处理器更早完成计算,并周期性地等待来自其他处理器的信息。这种等待显著地增加了经过的程序执行时间并降低了并行计算机系统的效率。
[0003]由于负载不平衡直接导致处理器空闲时间,因此只有在并行计算机系统的处理器之间均匀地平衡计算负载,才能实现高效率。获得接近理想的计算和通信负载平衡通常不是简单的任务。负载平衡的一个困难场景是当算法依赖于全对全(all
‑
to
‑r/>all)通信模本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种第一处理单元,包括:一个或多个接口,所述一个或多个接口被配置成用于与多个第二处理单元进行通信;以及处理电路系统,所述处理电路系统被配置成用于控制所述一个或多个接口以及用于:执行至少一个计算任务;接收关于所述多个第二处理单元中的每个第二处理单元的所执行的通信任务的信息;基于从所述多个第二处理单元中的每个第二处理单元接收的通信任务来确定平衡;以及基于所述平衡来调整计算任务参数和/或通信任务参数以改进所述第一处理单元和/或所述多个第二处理单元中的至少一个第二处理单元的负载平衡。2.如权利要求1所述的第一处理单元,其特征在于:确定所述平衡是通过将平衡计数器的值增加在执行计算任务完成之前从其接收所述信息的所述多个第二处理单元中的每个第二处理单元的数量来执行的。3.如权利要求2所述的第一处理单元,其特征在于:所述处理电路系统进一步被配置成用于:通过将所述平衡计数器除以所述多个第二处理单元的数量来确定负载平衡参数;以及基于所述负载平衡参数来调整所述计算任务参数和/或所述通信任务参数。4.如权利要求3所述的第一处理单元,其特征在于:如果所述负载平衡参数不在预定义的负载平衡参数范围内,则所述处理电路系统进一步被配置成用于:用经调整的计算任务参数来重新执行所述至少一个计算任务,以及将信息传送至所述多个第二处理单元,以重新执行所述通信任务;重置所述平衡计数器,并基于从所述多个第二处理单元中的每个第二处理单元接收的经重新执行的通信任务来重新确定所述平衡计数器;重新确定所述负载平衡参数;以及检查经重新确定的负载平衡参数是否在所述负载平衡参数范围内,并且如果否,则基于经重新确定的负载平衡参数来重新调整用于改进所述第一处理单元和/或所述多个第二处理单元中的至少一个第二处理单元的负载平衡的所述计算任务参数和/或所述通信任务参数;以及用经重新调整的计算任务参数来重新执行所述至少一个计算任务,并向所述多个第二处理单元传送重新执行所述通信任务的信息,并且重新确定所述负载平衡参数,直到所述负载平衡参数在所述负载平衡参数范围内为止。5.如权利要求3所述的第一处理单元,其特征在于:传送至所述多个第二处理单元的、重新执行所述通信任务的信息进一步包括关于所述多个第二处理单元中的至少一个第二处理单元的经调整的通信任务参数和/或经重新调整的通信任务参数的信息。6.如权利要求3所述的第一处理单元,其特征在于:如果所述负载平衡参数不在预定义的负载平衡参数范围内,则所述处理电路系统进一步被配置成用于:
执行进一步计算任务;重置所述平衡计数器,并基于从所述多个第二处理单元中的每个第二处理单元接收的进一步执行的通信任务来重新确定所述平衡计数器;重新确定所述平衡计数器;以及检查经重新确定的负载平衡参数是否在所述负载平衡参数范围内,并且如果否,则基于经重新确定的负载平衡参数来重新调整用于改进所述第一处理单元和/或所述多个第二处理单元中的至少一个第二处理单元的负载平衡的所述计算任务参数和/或所述通信任务参数;以及执行另一进一步计算任务、通信任务和对所述负载平衡参数的重新确定,直到所述负载平衡参数在所述负载平衡参数范围内为止。7.如权利要求1所述的第一处理单元,其特征在于:负载平衡参数范围是0.95至0.97。8.如权利要求1所述的第一处理单元,其特征在于:调整所述计算任务参数和/或所述通信任务参数包括对所述至少一个第二处理单元的通信任务的消息大小进行调整。9.如权利要求1所述的第一处理单元,其特征在于:调整所述计算任务参数和/或所述通信任务参数包括对所述至少一个计算任务的计算大小进行调整。10.如权利要求1所述的第一处理单元,其特征在于:调整所述计算任务参数和/或所述通信任务参数包括调整通信管线深度。11.如权利要求1所述的第一处理单元,其特征在于:确定所述平衡计数器和/或确定所述负载平衡参数包括使用提供单侧远程直接存储器访问的并行编程库。12.如权利要求1所述的第一处理单元,其特征在于:确定所述平衡计数器和/或确定所述负载平衡参数包括在集群级别使用单侧消息传递接口交换。13.如权利要求3所述的第一处理单元,其特征在于:基于所述负载平衡参数来调整所述计算任务参数和/或所述通信任务参数包括使用用...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。