监测大型云计算系统的健康状态技术方案

技术编号:38914389 阅读:41 留言:0更新日期:2023-09-25 09:29
公开了一种用于监测计算系统的健康状态的方法、计算机程序产品和系统。所述方法包括一个或多个处理器在计算系统的多个工作节点的每一个中部署相应的监测预测代理。该方法还包括通过相应监测预测代理对于多个工作节点中的每一个,通过将相应工作节点的性能度量数据值的时间相关函数与上阈值和下阈值进行比较,来确定单个二进制健康状态值。所述方法还包括从所述多个工作节点中的每一个接收所述二进制健康状态值以及相应的身份信息。该方法还包括通过向计数布隆过滤器的散列函数馈送所接收的相应身份信息来生成指示计算系统的健康状态的数据集。健康状态的数据集。健康状态的数据集。

【技术实现步骤摘要】
【国外来华专利技术】监测大型云计算系统的健康状态

技术介绍

[0001]本专利技术总体上涉及计算机系统分析领域,并且更具体地涉及监测计算系统的健康状态。
[0002]监测IT(信息技术)基础设施部件一直具有独立的IT纪律。借助它的帮助,可以有效地、远程地和连续地管理企业以及云计算环境的IT景观的组件。此外,可能较早地检测到潜在瓶颈,以便防止IT基础设施的各个组件的意外停机时间。
[0003]监测即服务(MaaS)是作为服务(XaaS)的任何事物下的许多云计算传递模型之一。监测即服务是促进在云计算环境内部署用于不同服务和应用的监测功能的框架。MaaS的最常见应用是IT组件的在线状态监测,其连续地跟踪应用、网络、系统、示例或可部署在云计算环境内的任何元件的某些状态。一对产品当前上市,随时间且在不同方面下从IT组件收集大量状态数据。通常,这些状态数据在中心位置被收集并在多个不同方面下被分析。在这样的复杂状态跟踪系统中涉及的开销以及所需的数据分析伴随数据的复杂性可变得显著,并且(a)对于观察到的基础设施部件和(b)对于从大量收集的数据中提取一些含义所需的中央分析服务而言存在附加负担。
[0004]并且这出于至少一个良好原因:云计算系统中的中断通常具有直接客户影响:通常,服务基于事件在短时间段(秒或分钟)内不可用。事件可以是任何事件,例如网络中断和相邻服务(例如,数据库、消息传送系统等)的不可用性。

技术实现思路

[0005]本专利技术的方面公开一种用于监测计算系统的健康状态的方法、计算机程序产品和系统。所述方法包括一个或多个处理器在计算系统的多个工作节点的每个中部署相应的监测预测代理。所述方法还包括一个或多个处理器通过相应的监测预测代理为多个工作节点中的每一个确定单个二进制健康状态值。确定相应的单个二进制健康状态值的方法还包括一个或多个处理器将相应的工作节点的性能度量数据值的时间相关函数与预定义的可配置上阈值和可配置下阈值进行比较。所述方法还包括一个或多个处理器从所述多个工作节点中的每一个接收所述二进制健康状态值以及相应的身份信息。所述方法还包括一个或多个处理器通过将所接收的多个工作节点中的每一个的身份信息馈送到计数布隆过滤器的散列函数来生成指示计算系统的健康状态的数据集。
附图说明
[0006]应注意,参考不同的主题描述本专利技术的实施方式。具体地,参照方法类型权利要求描述一些实施例,而参照装置类型权利要求描述其他实施例。然而,本领域的技术人员将从以上和以下描述中得出,否则除非另外指出,除了属于一种类型的主题的特征的任何组合之外,涉及不同主题的特征之间(具体地,方法类型权利要求的特征与装置类型权利要求的特征之间)的任何组合也被认为是在本文档内公开的。
[0007]以上定义的方面和本专利技术的另外的方面从下面将要描述的实施例的示例中是显
而易见的,并且参考实施例的示例来解释,但是本专利技术不限于此。将仅通过示例并参考以下附图描述本专利技术的优选实施例。
[0008]图1示出了根据本专利技术实施例的用于监测包括多个工作节点的计算系统的健康状态的创造性计算机实现的方法的实施例的框图。
[0009]图2示出了根据本专利技术的实施例的具有支持所提出的概念的部件的架构的实施例的框图。
[0010]图3描绘了根据本专利技术的实施例的计数布隆过滤器的实施例的框图。
[0011]图4描绘了根据本专利技术的实施例的监测预测代理的功能的方面的实施例。
[0012]图5描绘了根据本专利技术的实施例的总体方法的实施例的更接近实现的版本的流程图。
[0013]图6描绘根据本专利技术的实施例的所提议的概念的预测方面的更接近实现的实施例的流程图。
[0014]图7描绘了根据本专利技术的实施例的创造性计算基础设施监测系统的实施例的框图。
[0015]图8描绘了根据本专利技术的实施例的包括图7的计算基础设施监测系统的至少部分的计算系统的实施例。
[0016]图9描绘了根据本专利技术的实施例的云计算基础设施的实施例。
具体实施方式
[0017]在本说明书的上下文中,可以使用以下惯例、术语和/或表达。
[0018]术语“健康状态”或健康状态值可表示数字指示值,其表示复杂系统(如工作节点或计算系统或多个计算系统的多个工作节点)运行良好。在各种实施方式中,术语“健康状况”或健康状况值可表示“故障在前”或“所有系统平稳运行”的状态。
[0019]术语“计算系统”可表示硬件计算系统、其多个、集群、云计算中心和/或一个或多个虚拟机或计算容器(例如,Docker容器)。计算系统还可以是网络或存储系统或相当的系统。而且,根据本专利技术的各个实施例,其他外围单元可以被描述为在所提出的概念的上下文中的计算系统。
[0020]术语“工作节点”可表示虚拟或物理计算系统或其一部分。工作节点可适于执行程序代码。因此,虚拟机或无状态计算容器也可表示为工作节点。工作节点可部署在大型云计算中心中,诸如在10,000或100,000或甚至更大的范围内。
[0021]术语“监测预测代理”可表示具有确定工作节点的二进制健康状态值的能力的工作节点内的函数。在示例性实施方式中,“监测预测代理”可表示工作节点的内存使用。
[0022]术语“单个二进制健康状况值”可表示逻辑“0”或逻辑“1”。在示例性实施方式中,逻辑“0”可表示“未检测到问题”,并且逻辑“1”可表示相应工作节点中“可能存在潜在问题”。
[0023]例如,术语“时间相关函数”在本文中可表示使用例如可消耗存储器的给定设定点和实际确定的存储器使用量的PID(比例

积分

微分)过滤器,由此还可反映短期历史存储器消耗值。因此,内存消耗也可以通过工作节点的其他资源的一个示例来实现。
[0024]术语”性能度量数据值”可表示真实数字数据值,并且能够表示具有更多计算过程
的计算系统的特定资源消耗。一个示例可以是消耗的存储器相比于可用总存储器的百分比。其他性能度量数据值可以涉及网络使用量或处理器使用量或计算机功率使用量。
[0025]术语“上阈值”可以表示数值(例如,百分比值),该数值可以在初始化时间上传到监测预测代理,性能度量数据的值可以与该数值进行比较。因此,两个百分比值可以相互比较。如果性能度量数据值可超过上阈值,那么可生成逻辑“1”作为相应工作节点的二进制健康状态值。如果与上阈值相比较,术语“下阈值”可表示相应的阈值。
[0026]术语“健康管理代理”可表示中央控制器或系统,其在CBF(计数布隆过滤器)的位置中控制本专利技术的各个方面,用于确定多个工作节点的健康状态。通常,但不是必须地,健康监测代理可远程部署到工作节点,并且也可以是MaaS解决方案的一部分。
[0027]例如,术语“身份信息”可表示地址标签和对应的网络(例如,工作节点)。然而,网络地址的部分也可以用作身份信息。例如,虚拟机部分的完整地址、相关硬件系统地址、集群地址或区域地址。
[0028]术语“散列函数”可表示可用于将任意大小的数据(例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现方法,包括:由一个或多个计算机处理器将相应的监测预测代理部署在计算系统的多个工作节点中的每一个中;由一个或多个计算机处理器通过相应的监测预测代理为多个工作节点中的每一个确定单个二进制健康状态值,其中确定相应的单个二进制健康状态值还包括:由一个或多个计算机处理器将所述相应的工作节点的性能度量数据值的时间相关函数与预定义的可配置上阈值和可配置下阈值进行比较;由一个或多个计算机处理器从所述多个工作节点中的每一个接收所述二进制健康状态值以及相应的身份信息;以及由一个或多个计算机处理器通过将所接收的所述多个工作节点中的每一个的身份信息馈送到计数布隆过滤器的散列函数来生成指示所述计算系统的健康状态的数据集。2.根据权利要求1所述的方法,其中,所述性能度量数据值对应于所述相应的工作节点的存储器使用量。3.根据权利要求2所述的方法,其中,确定所述单个二进制健康状态值还包括:由一个或多个处理器使用PID(比例

积分

微分)过滤器作为所述监测预测代理的一部分来确定所预测的存储器使用量。4.根据权利要求1所述的方法:其中,所述数据集被存储为预定义长度的阵列,其中,所述身份信息的一部分被用作所述散列函数的输入,其中,所述散列函数的输出值是用于寻址所述阵列中的数据字段的索引值,并且其中,响应于确定所述相应的单个二进制健康状态值是逻辑“1”,增加所述数据集的所寻址的数据字段中每一个的相应值。5.根据权利要求4所述的方法,其中,所述阵列中的所述数据字段的值的总和表示所述计算系统的健康状态。6.根据权利要求1所述的方法,还包括:由一个或多个处理器通过将所述健康状态值的数据集的时间序列存储在持久性存储装置中来生成计算系统加载历史数据。7.根据权利要求6所述的方法,还包括:由一个或多个处理器基于特定未来时间点的所述计算系统负载历史数据来确定例外的计算系统负载值。8.根据权利要求7所述的方法,还包括:响应于确定所述例外的计算系统负载值超过预定义的计算系统负载值,由一个或多个处理器发起推荐的校正基础设施或工作负载管理动作。9.根据权利要求1所述的方法,其中,工作节点选自由物理计算节点、多个物理节点、虚拟机、多个虚拟机、计算容器、多个计算容器、计算进程和多个计算进程组成的组。10.根据权利要求1所述的方法,还包括:由一个或多个处理器在所述监测预测代理的启动期间接收所述可配置上阈值和所述可配置下阈值。11.一种计算机程序产品,包括:
一个或多个计算机可读存储介质和存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令包括:将相应的监测预测代理部署在计算系统的多个工作节点中的每一个中的程序指令;通过相应的监测预测代理为多个工作节点中的每一个确定单个二进制健康状态值的程序指令,其中确定相应的单个二进制健康状态值的程序指令还包括:将所述相应的工作节点的性能度量数据值的时间相关函数与预定义的可配置上阈值和可配置下阈值进行比较的程序...

【专利技术属性】
技术研发人员:S
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1