The embodiment of the present invention provides a cluster physical machine fault classification processing method, a device and a virtual machine recovery method and system. Including the physical machine fault classification processing method to obtain fault information: physical machine list from the physical machine fault information storage center; if in the failure of the physical machine information list to detect physical machine fault caused by cyber attacks, the security protection center to trigger the attack outside the cluster; if the failure of the the physical machine list of information detected by hardware fault physical machine can not repair itself, is sent to the physical machine fault close physical machine fault instruction; virtual machine and virtual interface migration through the fault physical machine to the cluster system in other health physical machine. The embodiment of the application through the scene of a variety of physical machine fault, fine fault quickly and accurately identify, and to classify the repair process so as to realize the physical machine fault fast and reliable, to ensure the rapid recovery of the service on the virtual machine.
【技术实现步骤摘要】
物理机故障分类处理方法、装置和虚拟机恢复方法、系统
本申请涉及通信
,特别是涉及一种应用于虚拟化集群系统的物理机故障分类处理方法、装置及虚拟机恢复方法、系统。
技术介绍
随着计算机技术的迅猛发展,人们开始越来越多的关注如何降低能耗和提高资源利用率,云计算模式应运而生。云计算将所有的计算机抽象成特定的计算资源,然后将这些计算资源提供给用户,而不是像传统那样直接提供一台或多台计算机。云计算模式最大的好处就是用户可以根据自己的需要来申请资源,避免不必要的资源浪费,提高资源利用率。在云计算环境中,虚拟化集群技术是关键技术之一。虚拟化集群将多台虚拟化服务器组成为一个有机的整体,从而获得很高的计算速度,提升虚拟化系统整体的计算能力。虚拟化集群对多台服务器进行统一管理,通过虚拟化技术将物理资源抽象为存储、计算、网络等各种资源组成大的资源池,通过按需申请资源的方式提供虚拟机给用户。随着虚拟化集群规模的逐渐扩大,由于集群内物理机软硬件问题导致物理机故障的概率也逐渐增大。物理机故障会直接影响其上所运行的虚拟机服务。为了保证虚拟机业务的正常运行,需要及时发现其所在的物理机故障并迅 ...
【技术保护点】
一种集群物理机故障分类处理方法,其特征在于,包括:从物理机故障信息存储中心获取物理机故障信息列表;若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障,则触发所述集群外部的安全攻击防护中心处理;若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障,则向故障物理机发送关闭故障物理机的指令;及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。
【技术特征摘要】
1.一种集群物理机故障分类处理方法,其特征在于,包括:从物理机故障信息存储中心获取物理机故障信息列表;若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障,则触发所述集群外部的安全攻击防护中心处理;若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障,则向故障物理机发送关闭故障物理机的指令;及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。2.如权利要求1所述的方法,其特征在于,所述方法还包括:若在所述物理机故障信息列表中检测到物理机网络完全不通且网络不通持续时间达到预设时间;判断网络不通的物理机数量是否超过预设数量,如果是则通知运营维修人员人工修复;否则通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内到其他健康物理机上。3.如权利要求1所述的方法,其特征在于,所述方法还包括:若在所述物理机故障信息列表中检测到物理机网络不通但网络不通持续时间未达到预设时间后网络又恢复正常,且确定物理机网络不通是物理机重启所导致的,则判断当前的物理机是否健康,如果健康则通过虚拟化接口重启所述物理机上的虚拟机,如果不健康则通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群内其他健康物理机上。4.如权利要求1所述的方法,其特征在于,所述方法还包括:若在所述物理机故障信息列表中检测到物理机网络不稳定且网络不稳定持续时间达到预设时间,则向故障物理机发送指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机;及通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。5.如权利要求1所述的方法,其特征在于,所述若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障,则向故障物理机发送关闭故障物理机的指令的步骤包括:向故障物理机发送关闭故障物理机的指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机。6.如权利要求1所述的方法,其特征在于,通过以下方式确定所述健康物理机:在所述物理机故障信息列表中匹配所述集群内的所有物理机;将没有匹配成功的物理机确定为健康物理机。7.如权利要求1所述的方法,其特征在于,所述物理机故障信息列表包括:由所述集群外部的物理机故障探测模块从故障物理机处探测到并上报给所述物理机故障信息存储中心的物理机故障信息,及由所述集群外部的物理机故障收集模块从故障物理机处收集到并上报给所述物理机故障信息存储中心的物理机故障信息。8.一种集群物理机故障分类处理装置,其特征在于,包括:获取模块,用于从物理机故障信息存储中心获取物理机故障信息列表;第一处理模块,用于若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障,则触发所述集群外部的安全攻击防护中心处理;第二处理模块,进一步包括:关闭处理单元,用于若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障,则向故障物理机发送关闭故障物理机的指令;迁移处理单元,用于通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。9.如权利要求8所述的装置,其特征在于,所述装置还包括第三处理模块,所述第三处理模块包括:通知处理单元,用于若在所述物理机故障信息列表中检测到物理机网络完全不通且网络不通持续时间达到预设时间,并且网络不通的物理机数量超过一台,则通知运营维修人员人工修复;迁移处理单元,用于若在所述物理机故障信息列表中检测到物理机网络完全不通且网络不通持续时间达到预设时间,并且网络不通的物理机数量未超过预设数量,则通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内到其他健康物理机上。10.如权利要求8所述的装置,其特征在于,所述装置还包括第四处理模块,所述第四处理模块包括:重启处理单元,用于若在所述物理机故障信息列表中检测到物理机网络不通但网络不通持续时间未达到预设时间后网络又恢复正常,且确定物理机网络不通是物理机重启所导致的,则在确定当前的物理机是健康的情况下,通过虚拟化接口重启所述物理机上的虚拟机;迁移处理单元,用于若在所述物理机故障信息列表中检测到物理机网络不通但网络不通持续时间未达到预设时间后网络又恢复正常,且确定物理机网络不通是物理机重启所导致的,则在确定当前的物理机是不健康的情况下,通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群内其他健康物理机上。11.如权利要求8所述的装置,其特征在于,所述装置还包括第五处理模块,所述第五处理模块包括:关机处理单元,用于若在所述物理机故障信息列表中检测到物理机网络不稳定且网络不稳定持续时间达到预设时间,则向故障物理机发送指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机;迁移处理单元,用于通过虚拟化接口迁移所述故障物理机上的虚拟机到所述集群系统内其他健康物理机上。12.如权利要求8-11任一项所述的装置,其特征在于,所述关闭处理单元,用于若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障,则向故障物理机发送关闭故障物理机的指令以指示所述故障物理机自主关闭故障物理机或通过所述物理机上的带外管理模块关闭故障物理机。13.如权利要求8-11任一项所述的装置,其特征在于,所述装置还包括:确定模块,用于在所述物理机故障信息列表中匹配所述集群内的所有物理机,将没有匹配成功的物理机确定为健康物理机。14.如权利要求8所述的装置,其特征在于,所述物理机故障信息列表包括:由所述集群外部的物理机故障探测模块从故障物理机处探测到并上报给所述物理机故障信息存储中心的物理机故障信息,及由所述集群外部的物理机故障收集模块从故障物理机处收集到并上报给所述物理机故障信息存储中心的物理机故障信息。15.一种虚拟机恢复方法,其特征在于,应用于虚拟化集群系统,所述方法包括:虚拟化集群系统内的物理机自主检测自身的故障动态;若自主检测到物理机自身能容错修复的软硬件故障,通过容错方式修复;若自主检测到物理机自身能重启修复的软硬件故障,通过重启物理机方式修复;从物理机故障信息存储中心获取物理机故障信息列表;若在所述物理机故障信息列表中检测到因遭受网络攻击而导致物理机故障,则触发所述集群外部的安全攻击防护中心处理;若在所述物理机故障信息列表中检测到因物理机自身不能修复的软硬件故障,则向故障物理机发送关闭故障物理机的指令;及通过虚拟化接口迁移所述故障物理机上的虚拟...
【专利技术属性】
技术研发人员:张文,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。