【技术实现步骤摘要】
用于管理计算系统的方法、设备和程序产品
[0001]本公开的各实现方式涉及计算系统的管理,更具体地,涉及用于 向计算系统中的多个计算单元分配一组操作的方法、设备和计算机程 序产品。
技术介绍
[0002]随着计算机技术的发展,计算系统可以包括大量计算单元。例如, 计算系统可以包括一个或多个计算设备,并且每个计算设备可以包括 一个或多个中央处理单元(CPU)和图形处理单元(GPU),等等。 进一步,CPU和GPU可以包括一个或多个处理器核。此时,计算系 统将会包括大量计算单元,并且计算系统可以执行多种操作。此时, 如何将这些操作在多个计算单元之间进行分配进而提高计算系统的 整体性能,成为一个研究热点。
技术实现思路
[0003]因而,期望能够开发并实现一种以更为有效的方式来管理计算机 系统中的大量计算单元的技术方案。期望该技术方案能够以更为方便 和有效的方式,向各个计算单元分配将要被执行的操作,进而提高计 算系统的运行效率。
[0004]根据本公开的第一方面,提供了一种用于管理计算系统的方法。 在该方法 ...
【技术保护点】
【技术特征摘要】
1.一种用于管理计算系统的方法,包括:获取将要在所述计算系统中的多个计算单元上执行的一组操作;基于所述一组操作、所述多个计算单元的状态以及分配模型,确定用于将所述一组操作分配至所述多个计算单元的分配动作和所述分配动作的奖励,所述分配模型描述一组操作、多个计算单元的状态、向所述多个计算单元分配所述一组操作的分配动作、以及所述分配动作的奖励之间的关联关系;响应于确定所述分配动作的所述奖励与在执行所述分配动作之后所述计算系统的性能指标的匹配度满足预定条件,接收针对所述奖励的调整;以及基于所述调整来生成用于更新所述分配模型的训练数据。2.根据权利要求1所述的方法,其中所述分配模型是基于用于向多个计算单元分配一组操作的专家知识来生成的。3.根据权利要求1所述的方法,其中所述预定条件包括:所述奖励的方向与所述性能指标的变化方向相反。4.根据权利要求3所述的方法,其中所述性能指标包括以下至少任一项:所述一组操作中的操作的等待时间;以及所述多个计算单元中的计算单元的累积工作量。5.根据权利要求1所述的方法,其中接收所述调整包括:接收来自管理所述计算系统的技术专家的所述调整,以及其中所述调整进一步包括针对所述分配模型的动作空间的调整。6.根据权利要求1所述的方法,进一步包括:响应于确定所述匹配度不满足所述预定条件,基于所述奖励来生成用于更新所述分配模型的训练数据。7.根据权利要求1所述的方法,进一步包括以下至少任一项:响应于确定所述训练数据与用于训练所述分配模型的历史训练数据之间的差异超过预定阈值,保留所述训练数据;以及响应于确定所述差异未超过预定阈值,删除所述训练数据。8.根据权利要求7所述的方法,进一步包括:利用所述训练数据,更新所述分配模型。9.根据权利要求8所述的方法,进一步包括:获取将要在所述多个计算单元上执行的另一组操作;基于所述另一组操作、所述多个计算单元的状态以及更新的所述分配模型,确定用于将所述另一组操作分配至所述多个计算单元的另一分配动作;以及在所述计算系统中执行所述另一分配动作。10.根据权利要求1所述的方法,其中所述分配模型是基于强化学习实现的,以及所述计算单元包括所述计算系统中的图形处理单元。11.一种电子设备,包括:至少一个处理器;易失性存储器;以及与所述至少一个处理器耦合的存储器,所述存储器具有存储于其中的指令,所述指令在被所述至少一个处理器执行时使得所述设备执行一种用于管理计算系统的方法,所述方法...
【专利技术属性】
技术研发人员:王子嘉,贾真,
申请(专利权)人:伊姆西IP控股有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。