用于管理计算系统的方法、设备和程序产品技术方案

技术编号:34361714 阅读:23 留言:0更新日期:2022-07-31 07:38
本公开涉及用于管理计算系统的方法、设备和程序产品。在一种方法中,获取将要在计算系统中的多个计算单元上执行的一组操作。基于一组操作、多个计算单元的状态以及分配模型,确定用于将一组操作分配至多个计算单元的分配动作和分配动作的奖励,分配模型描述一组操作、多个计算单元的状态、向多个计算单元分配一组操作的分配动作、以及分配动作的奖励之间的关联关系。响应于确定分配动作的奖励与在执行分配动作之后计算系统的性能指标的匹配度满足预定条件,接收针对奖励的调整。基于调整来生成用于更新分配模型的训练数据。提供了相应的设备和程序产品。利用本公开的示例性实现方式,可以以更为有效的方式为分配模型生成训练数据。练数据。练数据。

Methods, devices, and program products for managing computing systems

【技术实现步骤摘要】
用于管理计算系统的方法、设备和程序产品


[0001]本公开的各实现方式涉及计算系统的管理,更具体地,涉及用于 向计算系统中的多个计算单元分配一组操作的方法、设备和计算机程 序产品。

技术介绍

[0002]随着计算机技术的发展,计算系统可以包括大量计算单元。例如, 计算系统可以包括一个或多个计算设备,并且每个计算设备可以包括 一个或多个中央处理单元(CPU)和图形处理单元(GPU),等等。 进一步,CPU和GPU可以包括一个或多个处理器核。此时,计算系 统将会包括大量计算单元,并且计算系统可以执行多种操作。此时, 如何将这些操作在多个计算单元之间进行分配进而提高计算系统的 整体性能,成为一个研究热点。

技术实现思路

[0003]因而,期望能够开发并实现一种以更为有效的方式来管理计算机 系统中的大量计算单元的技术方案。期望该技术方案能够以更为方便 和有效的方式,向各个计算单元分配将要被执行的操作,进而提高计 算系统的运行效率。
[0004]根据本公开的第一方面,提供了一种用于管理计算系统的方法。 在该方法中,获取将要在计算系统中的多个计算单元上执行的一组操 作。基于一组操作、多个计算单元的状态以及分配模型,确定用于将 一组操作分配至多个计算单元的分配动作和分配动作的奖励,分配模 型描述一组操作、多个计算单元的状态、向多个计算单元分配一组操 作的分配动作、以及分配动作的奖励之间的关联关系。响应于确定分 配动作的奖励与在执行分配动作之后计算系统的性能指标的匹配度 满足预定条件,接收针对奖励的调整。基于调整来生成用于更新分配 模型的训练数据。
[0005]根据本公开的第二方面,提供了一种电子设备,包括:至少一个 处理器;易失性存储器;以及与至少一个处理器耦合的存储器,存储 器具有存储于其中的指令,指令在被至少一个处理器执行时使得设备 执行根据本公开的第一方面的方法。
[0006]根据本公开的第三方面,提供了一种计算机程序产品,计算机程 序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执 行指令,机器可执行指令用于执行根据本公开的第一方面的方法。
附图说明
[0007]结合附图并参考以下详细说明,本公开各实现方式的特征、优点 及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了 本公开的若干实现方式。在附图中:
[0008]图1示意性示出了其中可以实现本公开的示例性实现方式的应用 环境的框图;
[0009]图2示意性示出了根据本公开的示例性实现方式的用于管理计算 系统的过程的框图;
[0010]图3示意性示出了根据本公开的示例性实现方式的用于管理计算 系统的方法的
流程图;
[0011]图4示意性示出了根据本公开的示例性实现方式的用于管理计算 系统的分配模型的使用过程的框图;
[0012]图5示意性示出了根据本公开的示例性实现方式的用于确定需要 被调整的奖励的过程的框图;
[0013]图6示意性示出了根据本公开的示例性实现方式的用于管理计算 系统的过程的框图;
[0014]图7示意性示出了根据本公开的示例性实现方式的用于过滤训练 数据集的过程的框图;以及
[0015]图8示意性示出了根据本公开的示例性实现的用于管理计算系统 的设备的框图。
具体实施方式
[0016]下面将参照附图更详细地描述本公开的优选实现。虽然附图中显 示了本公开的优选实现,然而应该理解,可以以各种形式实现本公开 而不应被这里阐述的实现所限制。相反,提供这些实现是为了使本公 开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的 技术人员。
[0017]在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但 不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至 少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示 例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、
ꢀ“
第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确 的和隐含的定义。
[0018]为了便于描述起见,首先参见图1描述根据本公开的一个示例性 实现方式的应用环境。图1示意性示出了其中可以实现本公开的示例 性实现方式的应用环境100的框图。如图1所示,计算系统110可以 包括一个或多个计算设备120,并且每个计算设备120可以包括多种 类型的计算单元。例如,计算设备120可以包括CPU类型的计算单 元130以及GPU类型的计算单元140。这些计算单元可以共同服务于 计算系统110,以用于处理在计算系统110上执行的一组操作150。
[0019]目前已经提出了基于机器学习技术来管理向计算系统中的各个 计算单元分配工作负载的技术方案。将会理解,在工作负载管理的环 境中,人们的需求和计算系统的状态一直在变化。如果向计算系统添 加了新的计算单元,则训练好的模型需要再次被更新,进而导致时间 和资源的浪费。已经提出的基于强化学习的分配模型涉及巨大的计算 量,因而难以在计算能力有限的小型计算系统中使用。进一步,训练 过程可能涉及大量人工劳动,并且难以将已经积累的专家知识与强化 学习技术相结合。这导致已有的基于强化学习的分配模型的效果并不 令人满意。
[0020]为了解决上述缺陷,根据本公开的一个示例性实现方式,提出了 一种用于管理计算系统的技术方案。具体地,提出了基于强化学习技 术来构建初始分配模型。在进一步训练该初始分配模型的过程中,引 入了人工交互过程,以便基于技术专家的知识来人工干预训练过程, 进而生成更加有助于提高计算系统性能的训练数据。以此方式,可以 将机器学习过程与人工经验相结合,进而获取更为准确并有效的训练 模型。
[0021]在下文中,首先参见图2提供根据本公开的一个示例性实现方式 的概要。图2示意性示出了根据本公开的示例性实现方式的用于管理 计算系统110的过程200的框图。为了方便描述,在本公开的上下文 中将以GPU作为计算单元的示例,来描述用于管理计算系统中的多 个计算单元的技术方案。根据本公开的一个示例性实现方式,计算单 元可以包括但不限于计算设备、CPU、GPU、以及CPU和GPU的处 理器核,等等。如图2所示,可以获取多个计算单元140(例如,包 括n个计算单元)的状态260,并且可以获取将要被分配的一组操作 150(例如,包括m个操作)。可以基于强化学习技术来获得初步训 练的分配模型210,并且向该分配模型210输入多个计算单元的状态 260和一组操作150。分配模型210继而可以输出用于向多个计算单 元140分配一组操作150的分配动作以及与该动作相关的奖励220。
[0022]根据本公开的一个示例性实现方式,可以使用过滤器230来确定 奖励220与期望在计算系统110中获得的性能指标是否相一致。如果 两者不一致,则可以求助于技术专家270。可以接收来自技术专家270 的调整250,以便生成用于后续进一步训练过程的训练数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于管理计算系统的方法,包括:获取将要在所述计算系统中的多个计算单元上执行的一组操作;基于所述一组操作、所述多个计算单元的状态以及分配模型,确定用于将所述一组操作分配至所述多个计算单元的分配动作和所述分配动作的奖励,所述分配模型描述一组操作、多个计算单元的状态、向所述多个计算单元分配所述一组操作的分配动作、以及所述分配动作的奖励之间的关联关系;响应于确定所述分配动作的所述奖励与在执行所述分配动作之后所述计算系统的性能指标的匹配度满足预定条件,接收针对所述奖励的调整;以及基于所述调整来生成用于更新所述分配模型的训练数据。2.根据权利要求1所述的方法,其中所述分配模型是基于用于向多个计算单元分配一组操作的专家知识来生成的。3.根据权利要求1所述的方法,其中所述预定条件包括:所述奖励的方向与所述性能指标的变化方向相反。4.根据权利要求3所述的方法,其中所述性能指标包括以下至少任一项:所述一组操作中的操作的等待时间;以及所述多个计算单元中的计算单元的累积工作量。5.根据权利要求1所述的方法,其中接收所述调整包括:接收来自管理所述计算系统的技术专家的所述调整,以及其中所述调整进一步包括针对所述分配模型的动作空间的调整。6.根据权利要求1所述的方法,进一步包括:响应于确定所述匹配度不满足所述预定条件,基于所述奖励来生成用于更新所述分配模型的训练数据。7.根据权利要求1所述的方法,进一步包括以下至少任一项:响应于确定所述训练数据与用于训练所述分配模型的历史训练数据之间的差异超过预定阈值,保留所述训练数据;以及响应于确定所述差异未超过预定阈值,删除所述训练数据。8.根据权利要求7所述的方法,进一步包括:利用所述训练数据,更新所述分配模型。9.根据权利要求8所述的方法,进一步包括:获取将要在所述多个计算单元上执行的另一组操作;基于所述另一组操作、所述多个计算单元的状态以及更新的所述分配模型,确定用于将所述另一组操作分配至所述多个计算单元的另一分配动作;以及在所述计算系统中执行所述另一分配动作。10.根据权利要求1所述的方法,其中所述分配模型是基于强化学习实现的,以及所述计算单元包括所述计算系统中的图形处理单元。11.一种电子设备,包括:至少一个处理器;易失性存储器;以及与所述至少一个处理器耦合的存储器,所述存储器具有存储于其中的指令,所述指令在被所述至少一个处理器执行时使得所述设备执行一种用于管理计算系统的方法,所述方法...

【专利技术属性】
技术研发人员:王子嘉贾真
申请(专利权)人:伊姆西IP控股有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1