一种集群巡检方法、装置及系统制造方法及图纸

技术编号:30324124 阅读:34 留言:0更新日期:2021-10-09 23:58
本申请公开了一种集群巡检方法、装置及系统,方法包括:根据接收到的巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果;将巡检项信息中的节点巡检项信息发送至各节点,由各节点根据节点巡检项信息对自身进行巡检,并由各节点对节点间的交互进行检测;接收各节点的节点巡检结果,对各节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与可修复异常巡检信息对应的修复命令至相应节点,由相应节点根据修复命令进行修复;接收相应节点的修复结果,根据相关结果生成巡检报告。本申请公开的技术方案,实现对集群较为全面的检测,并实现对异常节点的自动修复,且生成巡检报告,以便于用户根据巡检报告获取集群巡检的结果。群巡检的结果。群巡检的结果。

【技术实现步骤摘要】
一种集群巡检方法、装置及系统


[0001]本申请涉及集群巡检
,更具体地说,涉及一种集群巡检方法、装置及系统。

技术介绍

[0002]随着互联网用户的增多,分布式集群中的节点数量越来越多,大规模集群以及超大规模集群越来越常见。大规模集群中分布着大量的服务以及存储节点,如何能快速且准确地获取集群、节点的状态,或是对异常状态的节点进行恢复性操作就显得尤为重要。
[0003]目前,现有分布式集群健康检测方式主要是依靠心跳机制或第三方检测机制来进行检测,但是,心跳机制主要用来检测节点间的通信健康状态,第三方检测机制仅对一部分服务进行检测,由此可知,这两种检测方式并不能实现对集群以及单个节点内部健康状态的检测,且无法实现对异常状态节点的恢复。
[0004]综上所述,如何实现对集群较为全面的检测,并对异常节点进行自动修复,是目前本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]有鉴于此,本申请的目的是提供一种集群巡检方法、装置及系统,用于实现对集群较为全面的检测,并对异常节点进行自动修复
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集群巡检方法,其特征在于,包括:接收巡检项信息,根据所述巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果;将所述巡检项信息中的节点巡检项信息发送至各所述节点,由各所述节点根据所述节点巡检项信息对自身进行巡检,并由各所述节点对节点间的交互进行检测;接收各所述节点的节点巡检结果,对各所述节点的节点巡检结果进行分析,确定可修复异常巡检信息,并发送与所述可修复异常巡检信息对应的修复命令至相应节点,由相应节点根据所述修复命令进行修复;接收相应节点的修复结果,根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告。2.根据权利要求1所述的集群巡检方法,其特征在于,在接收巡检项信息之后,还包括:对各所述节点进行巡检组划分,并在各所述巡检组中确定组节点;相应地,将所述巡检项信息中的节点巡检项信息发送至各所述节点,由各所述节点对节点间的交互进行检测,包括:将所述巡检项信息中的节点巡检项信息发送至各所述组节点,由各所述组节点将所述节点巡检项信息发送至所述巡检组内其余各节点,并由各所述组节点对所述巡检组内其余各节点与所述组节点间的交互进行检测,且由所述组节点对其余所述组节点间的交互进行检测。3.根据权利要求2所述的集群巡检方法,其特征在于,在各所述巡检组中确定组节点之后,还包括:接收所述组节点发送的所述节点自身修复结果;其中,所述组节点获取节点自身修复结果的过程为:所述组节点接收所述巡检组内其余各节点的节点巡检结果,由所述组节点对所述巡检组内各节点的节点巡检结果进行分析,确定节点自身可修复异常巡检信息,并给出节点修复命令,且将所述节点修复命令发送至对应的目标节点,由所述目标节点根据所述节点修复命令进行修复,并由所述目标节点发送节点自身修复结果至所述组节点;相应地,根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告,包括:根据所述集群巡检结果、所述节点巡检结果、所述修复结果及所述节点自身修复结果,生成巡检报告。4.根据权利要求3所述的集群巡检方法,其特征在于,在各所述巡检组中确定组节点之后,还包括:若确定所述组节点出现异常,则在异常组节点所在巡检组内确定新的组节点。5.根据权利要求1所述的集群巡检方法,其特征在于,在根据所述巡检项信息中的集群巡检项信息对集群进行巡检,得到集群巡检结果之后,还包括:根据集群历史巡检修复报告对所述集群巡检结果进行分析,得到集群分析结果;所述集群分析结果包括异常集群巡检结果的影响范围、集群修复建议、集群发展趋势;在对各所述节点的节点巡检结果进行分析,确定可修复异常巡检信息时,还包括:根据所述集群历史巡检修复报告对各所述节点的节点巡检结果进行分析,确定异常节点巡检结果的影响范围、节点修复建议、节点发展趋势;
相应地,根据所述集群巡检结果、所述节点巡检结果、所述修复结果,生成巡检报告,包括:根据所述集群巡检结果、所述集群分析结果、所述节点巡检结果、所述修复结果、异常节点巡检结果的影响范围、节点修复建议、节点发展趋势,生...

【专利技术属性】
技术研发人员:韩宾
申请(专利权)人:济南浪潮数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1