一种集群系统中监控服务运行状态的方法、装置和系统制造方法及图纸

技术编号:13773083 阅读:62 留言:0更新日期:2016-09-29 22:05
本发明专利技术实施例公开了一种在集群系统中监控服务的运行状态的方法。所述方法包括:第一服务器向第二服务器发送第一监控报文,该第一监控报文用于请求第二服务器上第一服务的运行状态,第一服务器和第二服务器是集群系统内任意两个用于对外提供服务的服务器;第一服务器接收第二服务器针对第一监控报文返回的第一应答报文,第一应答报文中携带有第一服务在第二服务器上的运行状态信息;若第一服务在第二服务器上的运行状态信息表示运行状态异常,第一服务器发送恢复提示信息,该恢复提示信息用于提示对所述第二服务器上的所述第一服务进行恢复。此外,本发明专利技术实施例还公开了一种在集群系统中监控服务的运行状态的装置和系统。

【技术实现步骤摘要】

本专利技术涉及通信
,特别是涉及一种在集群系统中监控服务的运行状态的方法、装置和系统。
技术介绍
在集群系统中,多个服务器可以集中起来并发地进行相同的一个或多个服务。由于相同的服务被分担到多个服务器上执行,集群系统对服务的承载能力有了极大的提升服务,因此,集群系统的性能足以与大型机性能相媲美,并且,集群系统相对于大型机来说成本更为低廉。因此,集群系统目前被广泛地使用。在集群系统中,每个服务器上都运行有一个或多个服务。若某服务器上的某服务运行异常,集群系统对该服务的正常运行也会受到影响,从而集群系统就不能保证继续稳定地对外提供该服务。因此,集群系统需要对每个服务器提供的每个服务进行运行状态的监控。通过监控服务的运行状态,集群系统可以对任意一个服务器上运行状态异常的服务进行恢复,从而保持集群系统持续稳定地对外提供服务。在现有技术中,集群系统除了包括用于对外提供服务的服务器,还包括用于对系统内服务器监控服务运行状态的监控设备。该监控设备独立于其他服务器,不用于对外提供服务。通过独立的监控设备对集群系统内各服务器运行的服务进行监控,该监控设备能够发现集群系统内任意一个服务器上出现的异常并进行恢复,从而保证集群系统正常地对外提供服务。但是,该监控设备是集群系统内单独部署的一个硬件设备,在集群系统中新部署一个硬件设备需要集群系统消耗额外的软硬件资源,可见,集群系统为了监控服务的运行状态需要消耗额外的软硬件资源。
技术实现思路
本申请所要解决的技术问题是,提供一种在集群系统中监控服务的运行
状态的方法、装置和系统,以使得集群系统内的服务运行状态不仅能够持续稳定地被监控,而且避免了集群系统为监控服务运行状态而消耗额外的软硬件资源,从而不仅提高了监控的稳定性、可靠性而且也节约了系统资源。第一方面,提供了一种在集群系统中监控服务的运行状态的方法。该方法包括:第一服务器向第二服务器发送第一监控报文,所述第一监控报文用于请求所述第二服务器上第一服务的运行状态,所述第一服务器和所述第二服务器是所述集群系统内任意两个用于对外提供服务的服务器;所述第一服务器接收所述第二服务器针对所述第一监控报文返回的第一应答报文,所述第一应答报文中携带有所述第一服务在所述第二服务器上的运行状态信息;若所述第一服务在所述第二服务器上的运行状态信息表示运行状态异常,所述第一服务器发送恢复提示信息,所述恢复提示信息用于提示对所述第二服务器上的所述第一服务进行恢复。可选的,所述恢复提示信息为用于向所述第二服务器发送的操作指令,所述操作指令用于触发所述第二服务器执行针对所述第一服务的异常处理操作,所述异常处理操作用于使所述第一服务在所述第二服务器上恢复正常的运行状态。可选的,所述异常处理操作为在所述第二服务器上重启所述第一服务,或,所述异常处理操作为所述第二服务器从所述集群系统的数据库中更新数据到内存。可选的,所述恢复提示信息为用于向短信平台发送的短信告警通知,所述短信告警通知用于触发所述短信平台向预先指定的用户发送告警短信,所述告警短信用于提示所述第二服务器上的所述第一服务处于异常的运行状态。可选的,所述第一服务器向第二服务器发送监控报文,具体为:所述第一服务器按照预先设定的监听周期,以轮询的方式向所述第二服务器发送所述第一监控报文。可选的,所述第一服务器中安装有第一程序和第二程序,所述第一程序
和所述第二程序可复用所述第一服务器本身的通讯功能;所述第一服务器向第二服务器发送第一监控报文,具体为:所述第一服务器通过所述第一程序向所述第二服务器发送所述第一监控报文;所述第一服务器接收所述第二服务器针对所述监控报文返回的第一应答报文,具体为:所述第一服务器通过所述第二程序接收所述第二服务器针对所述监控报文返回的所述第二应答报文。可选的,还包括:所述第一服务器接收所述第二服务器发送的第二监控报文,所述第二监控报文用于请求所述第一服务器上第二服务的运行状态;所述第一服务器基于所述第二服务在所述第一服务器上的运行状态信息生成第二应答报文,并针对所述第二监控报文向所述第二服务器返回所述第二应答报文。可选的,所述第一服务器上保存有第一数据表,所述第一数据表用于记录所述第一服务器上各服务当前的运行状态信息;所述第一服务器基于所述第二服务在所述第一服务器上的运行状态信息生成第二应答报文,具体为:所述第一服务器基于所述第一数据表当前记录的运行状态信息生成所述第二应答报文。可选的,所述若所述第一服务的运行状态信息表示运行状态异常,所述第一服务器发送恢复提示信息,包括:若所述第一服务在所述第二服务器上的运行状态信息表示运行状态异常,所述第一服务器在所述集群系统的数据库的第二数据表中记录异常服务信息,所述异常服务信息包括被监控节点标识、服务类型标识和监控节点标识,所述被监控节点标识为所述第二服务器的标识,所述服务类型标识为所述第一服务的标识,所述监控节点标识为所述第一服务器的标识;所述第一服务器查询所述第二数据表,并在所述异常服务信息成功记录到所述第二数据表的情况下查询到所述异常服务信息;所述第一服务器按照所述异常服务信息的指示,发送所述恢复提示信息。可选的,在所述第一服务器发送所述恢复提示信息之后,还包括:在所述第一服务在所述第二服务器上恢复正常的运行状态之后,所述第
一服务器将所述第二数据表中的所述异常服务信息删除。第一方面,提供了一种在集群系统中监控服务的运行状态的装置。所述装置配置于第一服务器,包括:第一发送单元,用于向第二服务器发送第一监控报文,所述第一监控报文用于请求所述第二服务器上第一服务的运行状态,所述第一服务器和所述第二服务器是所述集群系统内任意两个用于对外提供服务的服务器;第一接收单元,用于接收所述第二服务器针对所述第一监控报文返回的第一应答报文,所述第一应答报文中携带有所述第一服务在所述第二服务器上的运行状态信息;第二发送单元,用于若所述第一服务在所述第二服务器上的运行状态信息表示运行状态异常,所述第一服务器发送恢复提示信息,所述恢复提示信息用于提示对所述第二服务器上的所述目标服务进行恢复。可选的,所述装置还包括:第二接收单元,用于接收所述第二服务器发送的第二监控报文,所述第二监控报文用于请求所述第一服务器上第二服务的运行状态;生成单元,用于基于所述第二服务在所述第一服务器上的运行状态信息生成第二应答报文;返回单元,用于针对所述第二监控报文向所述第二服务器返回所述第二应答报文。第三方面,提供了一种在集群系统中监控服务的运行状态的系统。该系统包括第一服务器和第二服务器,所述第一服务器配置有前述任意一种实施方式的装置。根据本申请提供的实施方式,对于集群系统中的多个用于对外提供服务的服务器,可以采用一个服务器监控另一服务器上服务的运行状态,具体地,假设第一服务器和第二服务器是集群系统内任意两个用于对外提供服务的服务器,第一服务器可以向第二服务器发送第一监控报文,以使得第二服务器返回携带有第一服务在第二服务器上的运行状态信息的第一应答报文,第一服务器就可以根据该运行状态信息确定第一服务在第二服务器上是否处于异常的运行状态,并可以在确定处于异常的情况下发送恢复提示信息,以提示
对第二服务器上的第一服务进行恢复。由此本文档来自技高网
...

【技术保护点】
一种在集群系统中监控服务的运行状态的方法,其特征在于,所述方法包括:第一服务器向第二服务器发送第一监控报文,所述第一监控报文用于请求所述第二服务器上第一服务的运行状态,所述第一服务器和所述第二服务器是所述集群系统内任意两个用于对外提供服务的服务器;所述第一服务器接收所述第二服务器针对所述第一监控报文返回的第一应答报文,所述第一应答报文中携带有所述第一服务在所述第二服务器上的运行状态信息;若所述第一服务在所述第二服务器上的运行状态信息表示运行状态异常,所述第一服务器发送恢复提示信息,所述恢复提示信息用于提示对所述第二服务器上的所述第一服务进行恢复。

【技术特征摘要】
1.一种在集群系统中监控服务的运行状态的方法,其特征在于,所述方法包括:第一服务器向第二服务器发送第一监控报文,所述第一监控报文用于请求所述第二服务器上第一服务的运行状态,所述第一服务器和所述第二服务器是所述集群系统内任意两个用于对外提供服务的服务器;所述第一服务器接收所述第二服务器针对所述第一监控报文返回的第一应答报文,所述第一应答报文中携带有所述第一服务在所述第二服务器上的运行状态信息;若所述第一服务在所述第二服务器上的运行状态信息表示运行状态异常,所述第一服务器发送恢复提示信息,所述恢复提示信息用于提示对所述第二服务器上的所述第一服务进行恢复。2.根据权利要求1所述的方法,其特征在于,所述恢复提示信息为用于向所述第二服务器发送的操作指令,所述操作指令用于触发所述第二服务器执行针对所述第一服务的异常处理操作,所述异常处理操作用于使所述第一服务在所述第二服务器上恢复正常的运行状态。3.根据权利要求2所述的方法,其特征在于,所述异常处理操作为在所述第二服务器上重启所述第一服务,或,所述异常处理操作为所述第二服务器从所述集群系统的数据库中更新数据到内存。4.根据权利要求1所述的方法,其特征在于,所述恢复提示信息为用于向短信平台发送的短信告警通知,所述短信告警通知用于触发所述短信平台向预先指定的用户发送告警短信,所述告警短信用于提示所述第二服务器上的所述第一服务处于异常的运行状态。5.根据权利要求1所述的方法,其特征在于,所述第一服务器向第二服务器发送监控报文,具体为:所述第一服务器按照预先设定的监听周期,以轮询的方式向所述第二服务器发送所述第一监控报文。6.根据权利要求1所述的方法,其特征在于,所述第一服务器中安装有第一程序和第二程序,所述第一程序和所述第二程序可复用所述第一服务器
\t本身的通讯功能;所述第一服务器向第二服务器发送第一监控报文,具体为:所述第一服务器通过所述第一程序向所述第二服务器发送所述第一监控报文;所述第一服务器接收所述第二服务器针对所述监控报文返回的第一应答报文,具体为:所述第一服务器通过所述第二程序接收所述第二服务器针对所述监控报文返回的所述第二应答报文。7.根据权利要求1所述的方法,其特征在于,还包括:所述第一服务器接收所述第二服务器发送的第二监控报文,所述第二监控报文用于请求所述第一服务器上第二服务的运行状态;所述第一服务器基于所述第二服务在所述第一服务器上的运行状态信息生成第二应答报文,并针对所述第二监控报文向所述第二服务器返回所述第二应答报文。8.根据权利要求7所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:孙振华丁医陈铭罗水华崔磊
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1