用于修改集群计算环境的技术制造技术

技术编号:38463760 阅读:10 留言:0更新日期:2023-08-11 14:40
本文讨论的系统、设备和方法针对智能地调整计算集群内的工作者节点的集合。举例来说,计算设备(或服务)可以监视计算集群的工作者节点的集合的性能度量。当检测到性能度量低于性能阈值时,计算设备可以对集群中节点的数量执行第一调整(例如,增加或减少)。训练数据可以至少部分地基于第一调整获得并且与受监督的学习技术一起使用以训练机器学习模型来预测集群中的未来性能改变。后续性能度量和/或集群元数据可以被提供给机器学习模型以获得指示预测的性能改变的输出。可以至少部分地基于输出来执行对工作者节点的数量的附加调整。于输出来执行对工作者节点的数量的附加调整。于输出来执行对工作者节点的数量的附加调整。

【技术实现步骤摘要】
【国外来华专利技术】用于修改集群计算环境的技术
[0001]相关申请的交叉引用
[0002]本申请要求于2020年11月10日提交的标题为“Techniques for Modifying Cluster Computing Environments”的编号为17/094,715的美国专利申请的优先权,其公开内容出于所有目的通过引用整体并入本文。

技术介绍

[0003]分布式计算系统变得越来越普遍。这些系统可以包括连接的节点(例如,计算机、服务器、虚拟机等)的计算集群,这些节点以协调的方式一起工作以处置各种请求(例如,在维护数据库的系统中存储和/或检索数据的请求)。随着任务数量的增加或减少,连接的节点的数量可能不是次优的。例如,如果任务的数量减少,那么节点的数量会大于未决任务所需的数量,从而使一些节点空闲。相反,如果任务的数量增加,那么节点的数量可能小于高效处置未决任务所需的数量,从而为执行未决任务引入更大时延。可以对常规系统管理计算集群的节点的数量的方式进行改进。本公开的实施例单独地和共同地解决这些问题和其它问题。

技术实现思路

[0004]提供了用于响应于计算集群的一个或多个性能度量的实际和/或预测的改变而调整计算集群的节点的数量的技术(例如,方法、系统、存储可由一个或多个处理器执行的代码或指令的非暂态计算机可读介质)。本文描述了各种实施例,包括方法、系统、存储可由一个或多个处理器执行的程序、代码或指令的非暂态计算机可读存储介质等。
[0005]一个实施例针对一种用于至少部分地基于计算集群的一个或多个性能度量的实际和/或预测的改变来调整计算集群中的计算节点的数量的方法。该方法可以包括由计算服务监视计算集群的工作者节点的集合的一个或多个性能度量。该方法还可以包括由计算服务检测性能度量低于性能阈值。该方法还可以包括由计算服务响应于检测到性能度量低于性能阈值而对计算集群的工作者节点的集合中的工作者节点的数量执行第一调整。该方法还可以包括由计算服务至少部分地基于执行第一调整来获得用于机器学习模型的训练数据。该方法还可以包括由计算服务利用训练数据和受监督的机器学习算法来训练机器学习模型。该方法还可以包括由计算服务获得指示计算集群中的预测的性能改变的输出。在一些实施例中,该输出是至少部分地基于将计算集群的一个或多个后续性能度量作为输入提供给机器学习模型来获得的。该方法还可以包括由计算服务至少部分地基于指示计算集群中的预测的性能改变的输出来对工作者节点的集合执行第二调整。
[0006]在一些实施例中,调整工作者节点的集合还包括由计算服务生成缩放任务,其中该缩放任务由计算过程执行,该计算过程在完成缩放任务后更新与计算集群相关联的元数据。
[0007]在一些实施例中,指示预测的性能改变的输出指示有多少工作者节点将在后续时间用于计算任务,该后续时间发生在未来预定义的时间段内。
[0008]在一些实施例中,执行第一调整或执行第二调整包括增加工作者节点的集合的数量或减少工作者节点的集合的数量。
[0009]在一些实施例中,执行第一调整包括向计算集群的工作者节点的集合供应多个附加工作者节点。在一些实施例中,该方法还可以包括确定供应所述多个附加工作者节点已经导致超过所述性能阈值的后续性能度量,其中所述训练数据是响应于确定所述多个附加工作者节点已经导致所述后续性能度量而生成的。
[0010]在一些实施例中,训练数据包括在第一时间段期间供应的附加工作者节点的数量、一个或多个性能度量和后续性能度量。在一些实施例中,一个或多个性能度量包括以下各项中的至少一项:未决查询的数量、未决任务的数量、时延测量、处理利用率或存储器利用率。
[0011]另一个实施例针对一种计算设备。计算设备可以包括存储非暂态计算机可执行程序指令的计算机可读介质。计算设备还可以包括通信地耦合到计算机可读介质以用于执行非暂态计算机可执行程序指令的处理设备。用处理设备执行非暂态计算机可执行程序指令使得计算设备执行操作。这些操作可以包括监视计算集群的工作者节点的集合的一个或多个性能度量。在一些实施例中,这些度量中的至少一个可以由工作者节点测量和/或收集,但是这些度量(例如,吞吐量度量)涉及外部服务或计算设备(例如,对象存储服务)。操作还可以包括性能度量低于性能阈值。操作还可以包括响响应于检测到性能度量低于性能阈值而对计算集群的工作者节点的集合中的工作者节点的数量执行第一调整。操作还可以包括至少部分地基于执行第一调整而获得用于机器学习模型的训练数据。操作还可以包括利用训练数据和受监督的机器学习算法来训练机器学习模型。操作还可以包括获得指示计算集群中的预测的性能改变的输出。在一些实施例中,该输出是至少部分地基于将计算集群的一个或多个后续性能度量作为输入提供给机器学习模型来获得的。操作还可以包括至少部分地基于指示计算集群中的预测的性能改变的输出来对工作者节点的集合执行第二调整。
[0012]又一个实施例针对一种存储计算机可执行程序指令的非暂态计算机可读存储介质,该计算机可执行程序指令在由计算设备的处理设备执行时使计算设备执行操作。这些操作可以包括监视计算集群的工作者节点的集合的一个或多个性能度量。操作还可以包括性能度量低于性能阈值。操作还可以包括响应于检测到性能度量低于性能阈值而对计算集群的工作者节点的集合中的工作者节点的数量执行第一调整。操作还可以包括至少部分地基于执行第一调整而获得用于机器学习模型的训练数据。操作还可以包括利用训练数据和受监督的机器学习算法来训练机器学习模型。操作还可以包括获得指示计算集群中的预测的性能改变的输出。在一些实施例中,该输出是至少部分地基于将计算集群的一个或多个后续性能度量作为输入提供给机器学习模型来获得的。操作还可以包括至少部分地基于指示计算集群中的预测的性能改变的输出来对工作者节点的集合执行第二调整。
[0013]参考以下说明书、权利要求书和附图,前述内容连同其它特征和实施例将变得更加清楚。
附图说明
[0014]将参考附图描述根据本公开的各种实施例,其中:
[0015]图1图示了根据至少一个实施例的用于至少部分地基于计算集群的实际和/或预
测的性能改变来调整计算集群中的节点的数量的流程;
[0016]图2图示了根据至少一个实施例的用于训练机器学习模型以预测计算集群的性能改变的流程;
[0017]图3图示了根据至少一个实施例的用于描绘用于对计算集群执行调整的示例用例的时间线。
[0018]图4图示了根据至少一个实施例的计算系统的组件;
[0019]图5是根据至少一个实施例的自动缩放引擎的示例计算机体系架构的示意图,其包括可以执行功能的多个模块;
[0020]图6描绘了图示根据至少一个实施例的用于至少部分地基于计算集群的实际和/或预测的性能改变来调整计算集群的节点数量的方法的示例的流程图。
[0021]图7是图示根据至少一个实施例的用于将云基础设施实现为服务系统的一个模式的框图。
[0022]图8是图示根据至少一个实施例的用于将云基础设施实现为服本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:由计算服务监视计算集群的工作者节点的集合的一个或多个性能度量;由计算服务检测性能度量低于性能阈值;由计算服务响应于检测到性能度量低于性能阈值而对计算集群的工作者节点的集合中的工作者节点的数量执行第一调整;由计算服务至少部分地基于执行第一调整来获得用于机器学习模型的训练数据;由计算服务利用训练数据和受监督的机器学习算法来训练机器学习模型;由计算服务获得指示计算集群中的预测的性能改变的输出,该输出是至少部分地基于将计算集群的一个或多个后续性能度量作为输入提供给机器学习模型来获得的;以及由计算服务至少部分地基于指示计算集群中的预测的性能改变的输出来对工作者节点的集合执行第二调整。2.如权利要求1所述的计算机实现的方法,其中调整工作者节点的集合还包括由计算服务生成缩放任务,其中该缩放任务由计算过程执行,该计算过程在完成缩放任务后更新与计算集群相关联的元数据。3.如权利要求1所述的计算机实现的方法,其中指示预测的性能改变的输出指示有多少工作者节点将在后续时间用于计算任务,该后续时间发生在未来预定义的时间段内。4.如权利要求1所述的计算机实现的方法,其中执行第一调整或执行第二调整包括增加工作者节点的集合的数量或减少工作者节点的集合的数量。5.如权利要求1所述的计算机实现的方法,其中执行第一调整包括向计算集群的工作者节点的集合供应多个附加工作者节点。6.如权利要求5所述的计算机实现的方法,还包括确定供应所述多个附加工作者节点已经导致超过所述性能阈值的后续性能度量,其中所述训练数据是响应于确定所述多个附加工作者节点已经导致所述后续性能度量而生成的。7.如权利要求6所述的计算机实现的方法,其中训练数据包括在第一时间段期间供应的附加工作者节点的数量、所述一个或多个性能度量和后续性能度量。8.如权利要求1所述的计算机实现的方法,其中所述一个或多个性能度量包括以下各项中的至少一项:未决查询的数量、未决任务的数量、时延测量、处理利用率或存储器利用率。9.一种计算设备,包括:一个或多个处理设备,通信地耦合到计算机可读介质;以及计算机可读介质,存储非暂态计算机可执行程序指令,该非暂态计算机可执行程序指令在由所述一个或多个处理设备执行时,使得计算设备执行包括以下的操作:监视计算集群的工作者节点的集合的性能度量;检测到性能度量低于性能阈值;响应于检测到性能度量低于性能阈值而对计算集群的工作者节点的集合中的工作者节点的数量执行第一调整;至少部分地基于第一调整而获得用于机器学习模型的训练数据;利用训练数据和受监督的机器学习算法来训练机器学习模型;获得指示计算集群中的预测的性能改变的输出,该输出是至少部分地基于将计算集群
的后续性能度量作为输入提供给机器学习模型来获得的;以及至少部分地基于指示计算集群中的预测的性能改变的输出来对工作者节点的集合执行第二调整。10.如权利要求9所述的计算设备,其中调...

【专利技术属性】
技术研发人员:S
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1