一种虚拟化环境中故障恢复的方法技术

技术编号:8078792 阅读:194 留言:0更新日期:2012-12-13 21:30
本发明专利技术公开了一种虚拟化环境中故障恢复的方法,包括步骤:调度服务器监控物理服务器的性能数据,以判断虚拟机是否发生故障,若发生故障,则调度服务器在故障物理服务器上选取待恢复虚拟机,并根据物理服务器的状态选取合适的物理接管服务器恢复虚拟机,调度服务器探测故障物理服务器的网络状况,若网络可用,则调度服务器向故障物理服务器和物理接管服务器发送做好迁移准备的指令,故障物理服务器将待恢复虚拟机实时迁移至物理接管服务器。本发明专利技术使虚拟化环境中的上层服务具有容错与容灾能力,提升了服务质量和基础架构利用率,降低物理基础架构成本,提升IT员工工作效率,并具有更好的安全和隔离性,以及良好的容灾和容错特性。

【技术实现步骤摘要】

本专利技术属于计算机
,更具体地,涉及。
技术介绍
传统灾难恢复计划需要许多手动、复杂的步骤来分配恢复资源、执行裸机恢复、执行数据恢复,并验证系统是否为使用做好了准备。搭建一套容灾备份系统无论是在金钱、还是在人力、技术投入上,都是一个耗资巨大、效果十分不明显的工程。容灾备份系统一旦建成,需要专人定期维护、检查、演练,以保证紧急时刻,系统可以正常启用。同时,容灾备份系统软硬件的选用,也要足以支撑起系统投入使用时的业务容量。对企业来说,搭建这样一个系统无疑是一笔巨大的支出。 随着x86服务器及台式机部署数量的日益增长,新的运行风险和IT基础架构的挑战也开始出现,现有的故障恢复的方法存在如下问题I、基础架构的低利用率;2、会导致物理基础架构成本不断增加;3、会导致IT管理成本不断增加;4、缺乏故障恢复及灾难保护,导致台式机管理的安全性差。
技术实现思路
针对现有技术的缺陷,本专利技术的目的在于提供,其使虚拟化环境中的上层服务具有容错与容灾能力,提升了服务质量和基础架构利用率,降低物理基础架构成本,提升IT员工工作效率,并具有更好的安全和隔离性,以及良好的容灾和容错特性。为实现上述目的,本专利技术提供了,包括以下步骤(I)调度服务器监控物理服务器的性能数据,以判断虚拟机是否发生故障;若发生故障,则进入步骤(2),否则过程结束;(2)调度服务器在故障物理服务器上选取待恢复虚拟机,并根据物理服务器的状态选取合适的物理接管服务器恢复虚拟机;(3)调度服务器探测故障物理服务器的网络状况,若网络可用则进入步骤(4),否则进入步骤(6);(4)调度服务器向故障物理服务器和物理接管服务器发送做好迁移准备的指令;(5)故障物理服务器将待恢复虚拟机实时迁移至物理接管服务器,过程结束;(6)调度服务器在网络文件系统的检查点库中获取待恢复虚拟机的检查点索引文件,读取并解析文件,获得虚拟机运行时的虚拟CPU个数、内存占用量和检查点文件的路径,并发送给物理接管服务器;(7)物理接管服务器从网络文件系统中读取检查点文件,并恢复虚拟机。步骤(I)具体为调度服务器广播收集物理服务器信息,根据收集的信息构建物理服务器状态表,为每个物理服务器设置定时器。物理服务器定期提取运行时的性能参数以及运行的虚拟机列表,编码写入心跳包中,将心跳包传输至调度服务器。调度服务器接收心跳包,解析心跳包内容,更新物理服务器状态表。性能参数包括CPU总利用率、内存利用率、网络带宽占用率,虚拟机列表包括虚拟机名称,UUID,IP地址,虚拟CPU个数,内存占用量,网络上行速率,网络下行速率。步骤(2)具体为调度服务器获取待恢复虚拟机的虚拟CPU个数,内存占用量,网络带宽的资源需求,查找物理服务器状态表,筛选符合虚拟机资源需求的候选物理服务器,预匹配虚拟机与候选物理服务器,计算恢复后物理服务器CPU、内存和带宽的资源占用率,选取占用率最接近的物理服务器为最终的接管物理服务器。保证虚拟机恢复后物理服务器不出现某一资源短缺的情况,同时保证整体负载均衡。步骤(2)包括以下子步骤 (2-1)调度服务器判断故障类型;(2-2)调度服务器根据故障类型选取待恢复虚拟机;(2-3)调度服务器判断是否可筛选物理服务器作为候选物理接管服务器,若可筛选则进入子步骤(2-4),否则过程结束;(2-4)调度服务器根据运行的虚拟机数量判断是否可以从候选物理接管服务器中选取一台物理接管服务器,若可以,则过程结束,否则进入子步骤(2-5);(2-5)调度服务器根据故障类型,从候选物理接管服务器选取一台物理接管服务器。故障类型包括CPU故障和内存故障。且CPU故障的优先级高于内存故障。在步骤(2-2)中,当CPU故障时,选取CPU绝对占用率最高的虚拟机,其中CPU绝对占用率=虚拟机CPU占用率X虚拟CPU个数/物理服务器CPU核数,当内存故障时,选取内存占用量最高的虚拟机。步骤(2-3)具体为接管服务器遍历物理服务器状态表,筛选非故障且非锁定的空闲物理服务器作为候选物理接管服务器,非故障指物理服务器当前没有被监控到发生故障,非锁定指物理服务器当前并没有在进行迁移,空闲物理服务器指虚拟机恢复后的CPU和内存占用率均低于70%。步骤(2-4)具体为调度服务器首先从候选物理接管节点中选取运行虚拟机最少的物理服务器,若该节点运行的虚拟机少于等于3个,则确定该物理服务器为物理接管服务器。步骤(2-5)具体为当CPU故障时,选取CPU利用率最低的候选物理服务器,当内存故障时,选取内存占用率最低的候选物理服务器。通过本专利技术所构思的以上技术方案,与现有技术相比,本专利技术具有以下的有益效果I、容错性与容灾性良好本专利技术使用虚拟化环境中的步骤(5)实时迁移技术,在故障/灾难发生时及时的将承载上层服务的虚拟机迁移至安全稳定的物理服务器上,该过程对上层服务透明;使用虚拟化环境中的步骤(7)检查点技术,定时对虚拟机进行备份,防止故障/灾难发生后造成不可恢复的后果。提高了虚拟化环境中上层服务的容错和容灾的能力。2、快速备份与恢复本专利技术针对虚拟化环境中的检查点制作过程进行了优化。步骤(7)通过对虚拟机的内存进行压缩和动态调整,大大提升了检查点文件备份和恢复的时间,同时减少了检查点文件占用的磁盘空间。提高了检查点恢复的性能。3、高可用性本专利技术针对不同的灾难种类采取不同的恢复策略。步骤(3)针对网络通畅的故障,采用实时迁移技术快速将故障影响的虚拟机迁移至安全可靠的物理服务器上,进行故障转移,保证故障发生时服务不中断;针对网络中断的故障,第一时间选择安全可靠的物理服务器,从检查点文件中恢复虚拟机至稳定的运行状态,保证故障发生后的服务快速恢复。4、低成本本专利技术采用虚拟化技术,对硬件设备没有特殊的要求,不需要额外添加价格昂贵的容灾恢复硬件。只要是支持虚拟化的硬件设备,即可使用本方法进行故障恢复,降低了设备成本。 附图说明图I是本专利技术虚拟化环境中故障恢复的方法的流程图。图2是本专利技术方法中步骤(2)的细化流程图。图3是检查点索引文件结构图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图I所示,本专利技术虚拟化环境中故障恢复的方法包括以下步骤(I)调度服务器(Dispatch Server,简称DS)监控物理服务器(Physical Machine,简称PM)的性能数据,以判断虚拟机(Virtual Machine,简称VM)是否发生故障;若发生故障,则进入步骤(2),否则过程结束;具体而言,调度服务器广播收集物理服务器信息,根据收集的信息构建物理服务器状态表,为每个物理服务器设置定时器。物理服务器定期提取运行时的性能参数(CPU总利用率、内存利用率、网络带宽占用率)以及运行的虚拟机列表(虚拟机名称,UUID,IP地址,虚拟CPU个数,内存占用量,网络上行速率,网络下行速率),编码写入心跳包中,将心跳包传输至调度服务器。调度服务器接收心跳包,解析心跳包内容,更新物理服务器状态表。(2)调度服务器在故障物理服务器上选取待恢复虚拟机,并根据物理服务器的状态选取合适的物理接管服务器恢复虚拟机;具体而言,调度服务器获取待本文档来自技高网...

【技术保护点】
一种虚拟化环境中故障恢复的方法,其特征在于,包括以下步骤:(1)调度服务器监控物理服务器的性能数据,以判断虚拟机是否发生故障;若发生故障,则进入步骤(2),否则过程结束;(2)调度服务器在故障物理服务器上选取待恢复虚拟机,并根据物理服务器的状态选取合适的物理接管服务器恢复虚拟机;(3)调度服务器探测故障物理服务器的网络状况,若网络可用则进入步骤(4),否则进入步骤(6);(4)调度服务器向故障物理服务器和物理接管服务器发送做好迁移准备的指令;(5)故障物理服务器将待恢复虚拟机实时迁移至物理接管服务器,过程结束;(6)调度服务器在网络文件系统的检查点库中获取待恢复虚拟机的检查点索引文件,读取并解析文件,获得虚拟机运行时的虚拟CPU个数、内存占用量和检查点文件的路径,并发送给物理接管服务器;(7)物理接管服务器从网络文件系统中读取检查点文件,并恢复虚拟机。

【技术特征摘要】

【专利技术属性】
技术研发人员:金海廖小飞陆枫潘浩
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1