【技术实现步骤摘要】
节点故障监测方法、装置、系统、电子设备及存储介质
[0001]本专利技术涉及计算机
,尤其涉及一种节点故障监测方法、装置、系统、电子设备及存储介质。
技术介绍
[0002]分布式集群系统是由多个节点服务器构成的集群,各个节点都运行着处理程序,当一个或几个节点的网络状态处于故障状态,则会影响整个分布式集群系统的性能。因此,如何高效精准地监测出故障节点是目前业界亟待解决的重要课题。
[0003]相关技术中,通常通过PING(Packet Internet Groper,因特网包探索器)或者心跳监测的方式,点对点判断其他节点是否在预设时长内向本节点发送响应信息来判断其他网络节点是否为异常节点,而在网络亚健康的状态下,由于网络连接状态不稳定,因此存在网络异常的节点中的CTDB(Cluster Trivial Database,集群琐碎数据库),若通过PING或心跳监测其他节点传输的响应信息丢失,会误认为其他节点存在故障,使得节点故障检测精度低,进而影响集群系统的稳定性和可靠性。
技术实现思路
[0004]本专利技术提供一种节点故障监测方法、装置、系统、电子设备及存储介质,用以解决现有技术中节点故障检测精度低,进而影响集群的稳定性和可靠性的缺陷,实现提高节点故障检测精度,由此提高集群系统的稳定性和可靠性。
[0005]本专利技术提供一种节点故障监测方法,应用于分布式集群系统中的第一节点,包括:向所述分布式集群系统中的第二节点发送第一心跳报文;接收所述第二节点返回的第二心跳报文,根据所述第二 ...
【技术保护点】
【技术特征摘要】
1.一种节点故障监测方法,其特征在于,应用于分布式集群系统中的第一节点,包括:向所述分布式集群系统中的第二节点发送第一心跳报文;接收所述第二节点返回的第二心跳报文,根据所述第二心跳报文,获取与所述第二节点之间的当前心跳超时次数,以及所述第二节点的当前网络连通状态表;所述第二心跳报文为所述第一心跳报文的响应报文;根据所述当前心跳超时次数和所述当前网络连通状态表,获取所述第二节点的故障监测结果。2.根据权利要求1所述的节点故障监测方法,其特征在于,所述根据所述当前心跳超时次数和所述当前网络连通状态表,获取所述第二节点的故障监测结果,包括:将所述当前心跳超时次数与次数阈值进行比较,得到第一比较结果;在根据所述第一比较结果,确定所述当前心跳超时次数大于所述次数阈值的情况下,根据所述当前网络连通状态表,判断所述分布式集群系统中是否存在至少一个第三节点与所述第二节点之间的网络连通状态为正常状态;根据判断结果,获取所述第二节点的故障监测结果;其中,所述第三节点为所述分布式集群系统中除所述第一节点和所述第二节点之外的网络节点。3.根据权利要求2所述的节点故障监测方法,其特征在于,所述根据判断结果,获取所述第二节点的故障监测结果,包括:在根据所述判断结果,确定所述分布式集群系统中不存在至少一个所述第三节点与所述第二节点之间的网络连通状态为正常状态的情况下,确定所述第二节点的故障监测结果为故障状态。4.根据权利要求2所述的节点故障监测方法,其特征在于,所述根据判断结果,获取所述第二节点的故障监测结果,包括:在根据所述判断结果,确定所述分布式集群系统中存在至少一个所述第三节点与所述第二节点之间的网络连通状态为正常状态的情况下,获取所述第二节点对应的可参考节点的数量;根据所述可参考节点的数量,获取所述第二节点的故障监测结果;其中,所述可参考节点用于在预设周期内为更新得到所述第二节点的当前网络连通状态表提供响应报文。5.根据权利要求4所述的节点故障监测方法,其特征在于,所述根据所述可参考节点的数量,获取所述第二节点的故障监测结果,包括:将所述可参考节点的数量与数量阈值进行比较,得到第二比较结果;在根据所述第二比较结果,确定所述可参考节点的数量大于所述数量阈值的情况下,确定所述第二节点的故障监测结果为正常状态。6.根据权利要求5所述的节点故障监测方法,其特征在于,所述方法还包括:在根据所述第二比较结果,确定所述可参考节点的数量大于所述数量阈值的情况下,触发隔离动作;其中,所述隔离动作用于将所述第一节点与所述分布式集群系统中除所述第一节点之外的其他网络节点进行隔离,或者将所述第一节点的网口与所述其他网络节点的网口进行
隔离。7.根据权利要求5所述的节点故障监测方法,其特征在于,所述方法还包括:在根据所述第二比较结果,确定所述可参考节点的数量小于或等于所述数量阈值的情况下,确定所述第二节点的故障监测结果为故障状态。8.根据权利要求1
‑
7任一项所述的节点故障监测方法,其特征在于,所述方法还包括:在确定所述第二节点的故障监测结果为故障状态的情况下,在所述分布式集群系统中获取第四节点;所述第四节点为故障监测结果为正常状态,且与所述第二节点具有相同的服务功能的网络节点;将所述第二节点的待处理任务迁移至所述第四节点;在所述第二节点的故障监测结果由故障状态切换为正常状态的情况下,将所述待处理任务恢复至所述第二节点。9.根据权利要求1
‑
7任一项所述的节点故障监测方法,其特征在于,所述根据所述第二心跳报文,获取与所述第二节点之间的当前心跳超时次数,以及所述第二节点的当前网络连通状态表,包括...
【专利技术属性】
技术研发人员:张烨,贺计文,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。