一种主机系统状态的检测方法和装置制造方法及图纸

技术编号:8325759 阅读:213 留言:0更新日期:2013-02-14 08:08
本发明专利技术提供了一种主机系统状态的检测方法和装置,方法包括:a、监控平台预先建立与目标主机间的安全外壳(SSH)隧道;b、监控平台检测SSH隧道连接是否断开;c、如果SSH隧道连接断开,则监控平台触发SSH隧道重建;当重建失败时,如果失败的原因为安全外壳守护进程异常,则重新步骤c,否则判定目标主机死机;d、如果SSH隧道连接没有断开,或SSH隧道连接断开后,监控平台触发SSH隧道重建成功,则监控平台通过向目标主机发送保持激活keep?alive命令,确定目标主机是否处于系统无响应状态,并在成功接收到keep?alive命令的响应信息后,重新执行步骤b。本发明专利技术能实时地对系统无响应情况进行准确监控。

【技术实现步骤摘要】

本专利技术涉及操作系统监控技术,特别是涉及用于检测主机系统状态的方法和装置。
技术介绍
在通常的系统监控中,系统的监控平台对主机系统的状态监控是一个最基础的核心监控指标,属于监控体系中非常重要的部分。如何在第一时间最快发现主机死机,更进一步,如何在第一时间发现主机系统异常是系统监控的重要组成部分。目前业界主要采用的主机系统监控方法,从监控方式来说,可以分为Ping主动式监控方式和Agent代理式被动式监控方式。具体来说,Ping主动式监控方式主要是采用标准Internet控制报文协议(ICMP)Ping的方法,定期向目标主机发送ICMP数据包,如果目标主机正常响应返回ICMP数据包,则判定主机Alive。这是最常用的对于主机是否死机的标准。Agent代理式被动式监控方式目前主要采用在目标主机上安装Agent代理程序,定期向监控管理服务器返回被监控主机的信息,即Ke印Alive信息。监控管理服务器通过收到目标主机的Keep Alive信息来了解主机是否死机。这种方法一般用在大型的厂商开发的监控软件上面。目前上述两种监控方法被绝大多数的监控平台采用,在实际应用中,特别是电信级系统中,上述监控方法暴露出了比较明显的缺点,具体如下I、两种监控方法均采用定期检查的方式,Ping主动式监控是由监控管理服务器定期向目标主机发送信息;Agent代理式被动式监控方法则采用目标主机定期向监控管理器发送信息的方式。而定期检查的方式必然存在一定的检查周期,另外,考虑监控管理服务器的负载压力,被监控的服务器数量越多,其检查周期将越长,因此,检查周期在一般的系统上面必须是分钟级的。如此,将无法及时地监控到主机的死机。2、对于PING主动式监控方式而言,该方式只是通过检查到目标主机网络是否断开来判断主机是否死机,而实际应用中,会存在网络通畅,但是主机系统异常的情况,这样,采用PING主动式监控方式,将无法判断主机系统是否异常。而在实际的主机系统监控中,主机系统无响应的判断也是十分重要的一个监控项,主机系统无响应的情况下,上层业务系统大多无法正常对外提供服务。3、对于Agent代理式被动式监控方法而言,需要在被监控主机上安装Agent代理程序,虽然从理论上来说,这种方式可以把系统状态返回给监控管理服务器,但是从实际的应用效果来看,在主机的网络通信功能正常但系统无响应的情况下,大多是系统资源消耗的时候,此时在目标主机上的Agent也无法对外发送信息,因为Agent本身也需要消耗系统资源对外提供服务。因此Agent代理式被动监控方法也无法实现对系统无响应进行及时监控。由此可见,上述现有的主机监控方法均存在监控的迟滞性以及无法对主机系统无响应情况进行监控的问题。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种主机系统状态的检测方法和装置,能实现对系统无响应情况的准确监控,且具有实时性。为了达到上述目的,本专利技术提出的技术方案为一种主机系统状态的检测方法,该方法包括以下步骤a、监控平台预先建立与目标主机之间的安全外壳SSH隧道;b、所述监控平台检测所述SSH隧道连接是否断开; C、如果所述SSH隧道连接断开,则监控平台触发SSH隧道重建;当所述重建失败时,如果所述失败的原因为安全外壳守护进程异常,则重新执行本步骤,否则判定所述目标主机死机;d、如果所述SSH隧道连接没有断开,或所述SSH隧道连接断开后,监控平台触发所述SSH隧道重建成功,则所述监控平台通过向所述目标主机发送保持激活keep alive命令,确定所述目标主机是否处于系统无响应状态,并在成功接收到所述keep alive命令的响应信息后,重新执行步骤b。一种主机系统状态的检测装置,该装置设于系统的监控平台中,包括安全外壳SSH隧道建立模块,用于建立与目标主机之间的安全外壳SSH隧道,并将建立结果通知给第一检测模块;第一检测模块,用于检测所述SSH隧道连接是否断开,在检测到所述SSH隧道连接断开时,触发SSH隧道建立模块重新建立所述SSH隧道,在所述SSH隧道重新建立成功时,触发第二检测模块执行,在所述SSH隧道重新建立失败时,根据SSH隧道建立模块的所述通知,判断所述SSH隧道建立失败的原因是否为安全外壳守护进程异常,如果是,则触发SSH隧道建立模块重新建立所述SSH隧道,否则,判定所述目标主机死机;在检测到所述SSH隧道正常连接时,触发第二检测模块执行;第二检测模块,用于通过向所述目标主机发送ke印alive命令,确定所述目标主机是否处于系统无响应状态,并在成功接收到所述keep alive命令的响应信息后,触发第一检测模块检测所述SSH隧道连接是否断开。综上所述,本专利技术提出的主机系统状态的检测方法和装置,通过建立监控平台到目标主机的安全外壳(SSH)隧道,并实时检测该SSH隧道的状态以及是否可以在该SSH隧道上成功发送KeepAlive命令,可以实时地对主机系统无响应情况进行准确监控。附图说明图I为本专利技术实施例一的方法流程示意图;图2为本专利技术实施例二的装置结构示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本专利技术作进一步地详细描述。本专利技术的核心思想在于,建立检测装置与主机系统之间的安全外壳(SSH)隧道,通过实时检测该SSH隧道的状态以及是否可以在该SSH隧道上成功发送Ke印Alive命令,来判断主机系统是否死机,从而可以及时准确的对主机系统的状态进行监控。图I为本专利技术实施例一的方法流程示意图,如图I所示,该方法包括以下步骤步骤101、监控平台预先建立与目标主机之间的安全外壳SSH隧道。本步骤,用于建立监控平台与目标主机间的SSH隧道,以便在后续过程中通过实时检测该SSH隧道的状态即可可主机是否死机,而不需要等待主机死机时Agent所发送的监控信息,从而可以确保及时、准确地检测到目标主机死机的状态。具体地,建立SSH隧道方法可采用现有技术实现,在此不再赘述。步骤102、所述监控平台检测所述SSH隧道连接是否断开,如果是,则执行步骤103,否则执行步骤106。这里,如果SSH隧道连接断开则可能存在SSH隧道本身的维护异常所致的情况,因此,需要进一步执行步骤103通过重建SSH隧道根据重建结果来确认;如果SSH隧道连接正常,则说明目标主机与监控平台之间的通路是正常的,但是,还可能存在主机系统死机的情况,因此,这里需要进一步执行步骤104通过发送keep alive命令,进一步进行判断。步骤103、所述监控平台触发所述SSH隧道的重建过程,如果所述SSH隧道重建成功,则执行步骤106 ;否则,执行步骤104。这里,如果所述SSH隧道重建成功,则说明该SSH隧道可能被人为取消,目标主机可以正常,因此,这里建立成功后,将执行步骤106通过发送ke印alive命令,进一步判断该目标主机的系统是否正常。步骤104、判断所述SSH隧道建立失败的原因是否为安全外壳守护进程异常,如果是,则重新执行步骤103,否则,执行步骤105。这里,当重建SSH隧道返回的结果指示所述SSH隧道建立失败的原因为安全外壳守护进程异常(如SSHD服务端被停止、SSH key被删除等)所致时,需要重新触发建立SSH隧道的过程,在实际应用中,可设置一时间间隔,在本文档来自技高网
...

【技术保护点】
一种主机系统状态的检测方法,其特征在于,该方法包括以下步骤:a、监控平台预先建立与目标主机之间的安全外壳SSH隧道;b、所述监控平台检测所述SSH隧道连接是否断开;c、如果所述SSH隧道连接断开,则监控平台触发SSH隧道重建;当所述重建失败时,如果所述失败的原因为安全外壳守护进程异常,则重新执行本步骤,否则判定所述目标主机死机;d、如果所述SSH隧道连接没有断开,或所述SSH隧道连接断开后,监控平台触发所述SSH隧道重建成功,则所述监控平台通过向所述目标主机发送保持激活keep?alive命令,确定所述目标主机是否处于系统无响应状态,并在成功接收到所述keep?alive命令的响应信息后,重新执行步骤b。

【技术特征摘要】
1.一种主机系统状态的检测方法,其特征在于,该方法包括以下步骤 a、监控平台预先建立与目标主机之间的安全外壳SSH隧道; b、所述监控平台检测所述SSH隧道连接是否断开; C、如果所述SSH隧道连接断开,则监控平台触发SSH隧道重建;当所述重建失败时,如果所述失败的原因为安全外壳守护进程异常,则重新执行本步骤,否则判定所述目标主机死机; d、如果所述SSH隧道连接没有断开,或所述SSH隧道连接断开后,监控平台触发所述SSH隧道重建成功,则所述监控平台通过向所述目标主机发送保持激活keep al ive命令,确定所述目标主机是否处于系统无响应状态,并在成功接收到所述keep alive命令的响应信息后,重新执行步骤b。2.根据权利要求I所述的方法,其特征在于,步骤d中确定所述目标主机是否处于系统无响应状态为 如果所述监控平台接收所述keep alive命令的响应信息超时,则判断所述超时原因是否为安全外壳守护进程异常,如果是,则执行步骤C,否则,判定所述目标主机处于系统无响应状态。3.根据权利要求I所述的方法,其特征在于,所述方法进一步包括所述监控平台成功接收到所述keep alive命令的响应信息后,确定本次发送所述keepalive命令后接收到相应的响应信息所需要的时间tn,并确定所述tn与上一次发送所述keep alive命令后接收到相应的响应信息所需要的时间tn_i之间的差值Atn,计算所述目标主机所属网段上的各目标主机当前的Atn的平均值Δ ,如果所述Atn满足Δ/ >+α ,则判断所述目标主机存在无法响应的趋势,其中,Atlri和Λ tn_2分别为前两次得到的所述差值,a为预设的调整系数,a > O。4.一种主机系统状态的检测装置,该装置设于系统的监控平台中,其特征在于,该装置包括 安全外壳SSH隧道建立模块,用于建立与目标主机之间的安全外壳SSH隧道,并将建立结果通知给第一检测模块; 第一检测模块,用于检测...

【专利技术属性】
技术研发人员:王晓征陈航戴伟胡宏波
申请(专利权)人:中国移动通信集团浙江有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1