管理集群中的应用制造技术

技术编号:37351575 阅读:7 留言:0更新日期:2023-04-27 07:03
描述了用于管理集群中的应用的办法。在一示例中,第一代理可以在被安装在集群内的第一计算节点内的第一可编程网络适配卡上执行。第一代理可以隔离在第一计算节点上执行的应用。此后,应用可以由第二计算节点管理。应用可以由第二计算节点管理。应用可以由第二计算节点管理。

【技术实现步骤摘要】
管理集群中的应用

技术介绍

[0001]集群允许被称为节点的不同计算设备一起操作以充当统一的计算资源。这些类型的架构以具有用于处理各种工作负载的多个计算节点或服务器的数据中心为特征。计算节点能够在不加载计算节点的核心处理单元的情况下实现各种计算功能,诸如I/O分组处理或工作负载管理。另外,计算节点还可监视和管理故障或错误,以确保计算节点在较长时段内的持续操作或可用性。
附图说明
[0002]现在通过示例并参考附图来描述根据本主题的示例的系统和/或方法,其中:
[0003]图1图示了根据示例的用于管理集群中的应用的系统;
[0004]图2图示了根据示例的实现集群的计算环境;
[0005]图3图示了根据示例的用于管理集群中的应用的评估系统;
[0006]图4图示了根据示例的用于管理集群中的应用的方法;
[0007]图5

6图示了用于管理集群中的应用的示例方法;以及
[0008]图7图示了根据示例的实现用于管理集群中的应用的非暂态计算机可读介质的系统环境。
具体实施方式
[0009]在基于集群的架构系统中,一组计算节点可被逻辑地分组在一起以形成计算集群。计算工作负载可分布在可以彼此通信的计算节点之间。计算节点可以是物理服务器或者可以是依次实现单个服务器、一个或多个应用、多个虚拟机或其不同组合的系统。
[0010]集群内的计算节点可以被配置为处理其可以从另一计算设备接收到的请求并且向请求方计算设备提供服务。计算节点提供的服务可以包括提供对数据的访问、实现各种操作或其组合。例如,计算节点可以接收来自客户端设备的请求,处理该请求,并相应地向客户端设备提供响应。为了处理请求,计算节点可以访问存储系统,并检索和处理数据以提供响应。计算节点还可以包括可以访问存储系统的不同应用(或者在计算节点本身上实现或者在运行在计算节点上的虚拟环境中实现)。
[0011]除了为从其他计算设备接收到的请求提供服务之外,计算节点还可以实现与管理其中托管的应用的生命周期有关的功能。这些功能包括诸如启动应用和监视其操作以评估应用(或计算节点)是否正以高性能方式运行等功能。可以监视应用以确保与应用或计算节点的停机时间状态相反的连续操作或正常运行时间状态持续较长时段。集群的这种状态被称为高可用性。
[0012]启用高可用性涉及监视、评估和最小化停机时间的实例以确保连续可用性。如果计算节点不再可用,例如不再能够为请求提供服务,则可以执行故障转移操作,在此期间,在故障节点上执行的应用可被移动到其他计算节点。在错误发生的这些实例中,确保高可用性涉及找到另一计算节点(例如,在故障计算节点所在的集群内),对后续请求的服务可
被转移到该另一计算节点上。
[0013]可用于确保高可用性的各种功能可由给定计算节点的操作系统实现。在一些情形中,用于确保高可用性的机制在不同计算节点的硬件级别上可能不可用。此外,计算节点和存储系统可以在不同的配置中使用,以解决不同的业务考虑。用于实现高可用性的机制,如果在操作系统级别实现,则可能不考虑可以在给定计算节点内实现的应用。例如,应用可以被实现为在计算节点的操作系统上运行,或者可以在虚拟化环境中实现。当使用高可用性机制时,应用可被实现的方式中的这种变化可能会带来挑战。由此,可在平台级别(即,在计算节点处)实现的用于提供高可用性的解决方案不可用。
[0014]不管使用这种办法的方式如何,用于达成高可用性的办法可能会加载计算节点的计算资源,这可能会影响计算节点对请求的服务。最近的发展已导致计算节点安装了可编程网络适配器卡(其也被称为智能网络接口卡)。这种可编程网络适配卡不仅提供接口以实现基于集群的计算环境内的计算节点之间的通信,而且还为诸如存储管理和安全功能等的功能提供处理能力。值得注意的是,这种功能可以独立于操作系统而在计算节点的级别实现。
[0015]描述了用于管理基于集群的计算环境中的应用的办法。在一个示例中,集群可以在包括多个计算节点的数据中心内被实现。在一示例中,计算节点可以是实现多个应用的服务器。在另一示例中,计算节点可以是实现多个虚拟机实例的服务器,该多个虚拟机实例进一步实现各自的应用。计算节点可以是集群内的节点之一。集群可以被认为是一组计算节点,每个计算节点可以彼此独立地操作和运行。由此产生的集群可以被认为是用于执行计算操作的统一计算资源。集群内的每个计算节点可以耦接到存储系统,以对存储在存储系统中的数据进行访问和执行读写操作。可以监视集群的操作以评估故障的发生并采取补救措施以确保高可用性。
[0016]在给定集群内的第一计算节点和第二计算节点的示例上下文中描述了评估故障发生的方式。在一示例中,第一计算节点可以包括第一可编程网络适配卡(称为第一网卡)。以类似的方式,第二计算节点包括第二网卡。这种可编程网络适配卡的示例包括可被安装在集群的计算节点内的智能网络接口卡(或智能NIC)。如将要讨论的,使用第一网卡和第二网卡评估故障的发生(这进而可以提供高可用性)达成了许多技术优势。例如,利用第一网卡和第二网卡可以卸载计算节点的计算资源,例如处理器。另外,计算节点级别的第一网卡和第二网卡对故障发生的评估与操作系统无关。这种办法也不会受到在计算节点上部署应用的方式的影响。
[0017]第一网卡和第二网卡两者都可以包括处理资源,该处理资源可以用于从相应的第一计算节点和第二计算节点的本地处理器卸载某些处理功能。在一示例中,第一网卡和第二网卡可以分别包括第一代理和第二代理。如将进一步描述的,具有网卡的代理将实现管理集群中的应用,并由此确保高可用性。
[0018]在一示例中,集群可以包括可以与第一计算节点和第二计算节点通信的中央评估系统。在一示例中,中央评估系统可以从第一代理和第二代理接收与第一计算节点和第二计算节点的操作有关的信息消息。信息消息可以与第一计算节点和第二计算节点的某些操作或功能方面有关。例如,该信息可以与第一计算节点和第二计算节点的健康信息有关,或者可以包括与可以在第一计算节点和第二计算节点上执行的应用有关的信息。
[0019]从第一网卡和第二网卡的相应代理接收到的信息消息可以被处理以确定第一计算节点和第二计算节点的任一者中是否已发生故障。例如,基于对信息消息内的数据的处理,中央评估系统可以查明第一计算节点(或第一计算节点上的应用之一)正在经历故障,而第二计算节点正以高性能方式操作。该确定可以基于可被预定义的多个条件。例如,该确定可以基于消息频率的改变、消息中所包括的某些信息、或任何消息的缺失。
[0020]一旦确定第一计算节点正在经历故障,则可以通知第二计算节点的第二网卡内的第二代理。此后,第二网卡内的第二代理可以使应用移动到第二计算节点(例如,执行故障转移)。在一示例中,第一代理可以最初将第一计算节点内的应用与存储系统隔离,其中一旦被隔离,则应用可以被初始化以在第二计算节点上执行。可以注意到,通过使用与第一网卡相关联的资源来监视各个计算节点的应用和操作,提供了高可用性而不会给集群内的计算节点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种系统,包括:至少一个处理器;以及机器可读存储介质,所述机器可读存储介质包括能够由所述处理器执行以进行以下操作的指令:从在集群内的第一计算节点内安装的第一可编程网络适配卡上执行的第一代理,接收与在所述第一计算节点上执行的应用相关的信息消息;基于接收到的所述信息消息,使所述第一代理将所述应用隔离以避免其访问存储元件,其中所述存储元件与所述第一计算节点通信;以及向在第二可编程网络适配卡上执行的第二代理传送指令以管理所述应用。2.根据权利要求1所述的系统,其中,所述第一代理用于基于第一组控制策略监视所述应用,其中所述控制策略识别要由所述第一代理监视的所述应用。3.根据权利要求1所述的系统,其中,为了使所述第一代理将所述应用隔离,能够由所述至少一个处理器执行的所述指令用于:监视从所述第一代理接收到的所述信息消息的周期性;以及基于确定所述信息消息的所述周期性大于预定义阈值,使所述第一代理将所述应用隔离。4.根据权利要求1所述的系统,其中,为了使所述第一代理将所述应用隔离,能够由所述至少一个处理器执行的所述指令用于:处理从所述信息消息获得的信息以获得与所述应用有关的操作参数;以及基于所述操作参数与预定义的值的比较,将所述应用隔离。5.根据权利要求1所述的系统,其中,为了管理所述应用,能够由所述至少一个处理器执行的所述指令用于:获得所述应用的配置信息,其中所述配置信息定义所述应用要访问所述集群内的存储系统、服务和设备中的一者所基于的参数。6.根据权利要求5所述的系统,其中,为了管理所述应用,能够由所述至少一个处理器执行的所述指令用于导致所述应用在所述集群内的第二计算节点上的执行,其中所述第二计算节点安装有所述第二可编程网络适配卡。7.根据权利要求6所述的系统,其中,所述第二计算节点基于由在所述第二计算节点内的所述第二可编程网络适配卡上执行的所述第二代理传送的信息消息而被识别。8.根据权利要求6所述的系统,其中,所述第二计算节点基于用于处理所述应用的计算资源而被识别。9.一种方法,包括:通过在第一可编程网络适配卡上执行的第一代理,将指示所述第一可编程网络适配卡的身份和属性的第一标识消息传送到在第二可编程网络适配卡上执行的第二代理,其中所述第一可编程网络适配卡被安装在第一计算节点上;从所述第二代理接收指示所述第二可编程网络适配卡的身份和属性的第二标识消息,其中所述第二可编程网络适配卡被安装在第二计算节点上;以及基于所述第一标识消息和所述第二标识消息,指定所述第二代理作为所述第一代理和所述第二代理的协调代理,其中所述第二代理用于将在所述第一计算节点和所述第二计算
节点上执行的应用的信息传送到中央评估系统。10.根据权利要求9所述的方法,其中,所述第一计算节点和所述第二计算节点是集群的一部分。11.根据权利要求9所述的方法...

【专利技术属性】
技术研发人员:B
申请(专利权)人:慧与发展有限责任合伙企业
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1