分布式环境下虚拟机异常恢复方法技术

技术编号:12396787 阅读:68 留言:0更新日期:2015-11-26 03:04
本发明专利技术提出了分布式环境下虚拟机异常恢复方法,所述方法包括:在虚拟机驻留于其上的每个物理机上运行独立的计算组件,并且所述计算组件周期性地向状态数据库报告相应的物理机的当前运行状态;高可用控制器周期性地轮询所述状态数据库以检查在所述高可用控制器的控制下的物理机集群中的所有物理机的运行状态;如果所述物理机集群中仅一台物理机的运行状态异常,则执行后续的异常处理操作以确保该运行状态异常的物理机上的虚拟机继续正常运行。本发明专利技术所公开的分布式环境下虚拟机异常恢复方法能够准确地判断和高效地处理分布式环境下的物理机故障。

【技术实现步骤摘要】

本专利技术涉及虚拟机异常恢复方法,更具体地,涉及。
技术介绍
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,分布式环境下的虚拟机(虚拟机是指通过软件模拟的方式运行于物理机上面、具有完整硬件系统功能的、运行在一个完全隔离环境中的计算机系统)高可用技术(即在物理机A出现宕机等问题后,运行在物理机A上的虚拟机在不需要人工参与的情况下就能够在物理机B上启动起来以确保虚拟机的持续运转的技术)变得越来越重要。在现有的技术方案中,通常以下列方式实现分布式环境下的虚拟机高可用性:将由多个物理机组成的逻辑集群定义为一个高可用单元,由此,此逻辑集群中的任意物理机出现宕机或问题时,运行在该物理机上的全部虚拟机都会在同一逻辑集群中其他物理机上启动起来,此外,控制节点以心跳方式或定期Ping物理机的方式检测物理机的状态,即当控制节点不能探测到某台物理机后就认为这台物理机出现了问题。然而,现有的技术方案存在如下问题:(1)由于当虚拟机被分配到一个高可用集群后,不论这个虚拟机上运行的业务是否重要,该虚拟机均被默认具有高可用性。故这样的设计不能保证运行重要业务的虚拟机优先启动,并且也会对资源造成一定浪费和冗余;(2)由于仅对物理机的状态进行检测,故检测方式单一和片面,由此可能造成误判(例如如果某台物理机禁用了 Ping功能,则有可能把运行正常的物理机上的虚拟机迁移到别的物理机上);(3)由于对物理机状态的探测仅从控制节点发起,故对物理机状态的判断不够全面和准确。因此,存在如下需求:提供能够准确地判断和高效地处理分布式环境下的物理机故障的虚拟机异常恢复方法
技术实现思路
为了解决上述现有技术方案所存在的问题,本专利技术提出了能够准确地判断和高效地处理分布式环境下的物理机故障的虚拟机异常恢复方法。本专利技术的目的是通过以下技术方案实现的: 一种,所述包括下列步骤: (Al)在虚拟机驻留于其上的每个物理机上运行独立的计算组件,并且所述计算组件周期性地向状态数据库报告相应的物理机的当前运行状态; (A2)高可用控制器周期性地轮询所述状态数据库以检查在所述高可用控制器的控制下的物理机集群中的所有物理机的运行状态;(A3)如果所述物理机集群中的所有物理机的运行状态均正常,则结束本次检查过程,如果所述物理机集群中的多台物理机的运行状态均异常,则结束本次检查过程并且通过日志的方式发出报警,而如果所述物理机集群中仅一台物理机的运行状态异常,则执行后续的异常处理操作以确保该运行状态异常的物理机上的虚拟机继续正常运行。在上面所公开的方案中,优选地,所述异常处理操作包括:所述高可用控制器探测该运行状态异常的物理机针对管理网络的可连通性,其中,所述探测以下列两种方式进行:(l)ping该物理机;(2 )监测该物理机的22号端口。在上面所公开的方案中,优选地,所述异常处理操作进一步包括:如果以任何一种方式探测发现该运行状态异常的物理机针对管理网络是可连通的,则异常处理操作结束,而如果以两种方式探测发现该运行状态异常的物理机针对管理网络均是不可连通的,则探测运行于该运行状态异常的物理机上的所有有效虚拟机针对业务网络的可连通性,并且如果任何一个有效虚拟机针对业务网络是可连通的,则异常处理操作结束,而如果所有有效虚拟机针对业务网络均是不可连通的,则执行二次投票操作以最终确认该运行状态异常的物理机是否发生故障。在上面所公开的方案中,优选地,所述二次投票操作包括:(I)所述高可用控制器从所述物理机集群中随机选择除该运行状态异常的物理机之外的若干台物理机;(2)所述高可用控制器指示每个所选择出的物理机分别通过Ping该运行状态异常的物理机以及监测该运行状态异常的物理机的22号端口来探测该运行状态异常的物理机针对管理网络和/或业务网络的可连通性;(3)如果所选择出的物理机中的任何一台物理机发现该运行状态异常的物理机针对管理网络或业务网络是可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机未发生故障”,而如果所有所选择出的物理机均发现该运行状态异常的物理机针对管理网络和业务网络均是不可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机发生故障”,随之执行虚拟机迁移操作。在上面所公开的方案中,优选地,所述虚拟机迁移操作包括:(I)所述高可用控制器经由智能平台管理接口(IPMI)向该运行状态异常的物理机发送关机指令以使所述运行状态异常的物理机处于关机状态,从而销毁驻留在其内存中的虚拟机;(2)所述高可用控制器向调度控制器发送迁移调度指令;(3)在接收到所述迁移调度指令后,所述调度控制器选择所述物理机集群中有空闲资源的物理机,并随之逐个向所选择出的有空闲资源的物理机发送迁移指令,以将在该运行状态异常的物理机上运行的所有有效虚拟机迁移到所选择出的有空闲资源的物理机上,其中,分配给不同的有空闲资源的物理机的待迁移的虚拟机是彼此不同的;(4)经由共享存储装置,所述有空闲资源的物理机上运行的计算组件将分配给本物理机的待迁移虚拟机迁移至本物理机。在上面所公开的方案中,优选地,用户能够配置各个虚拟机的高可用性标志,并且所述高可用控制器在执行虚拟机迁移操作之前判断在该运行状态异常的物理机上运行的所有有效虚拟机的高可用性标志,并且仅对其高可用性标志的值为“启用”的虚拟机执行后续的虚拟机迁移操作。在上面所公开的方案中,优选地,用户能够配置各个虚拟机的高可用性优先级,并且所述高可用控制器根据每个待迁移虚拟机的高可用性优先级的高低依次迁移各个待迁移虚拟机。本专利技术所公开的具有以下优点:(1)能够确保运行重要业务的虚拟机优先被启动和恢复,并且节省资源;(2)由于网络检测方式多样和全面,由此显著地减少了误判的可能性;(3)由于对物理机状态的探测不但能够控制节点发起而且也能够从随机选取的其他物理机发起,故可以更全面和准确的判断物理机的状O【附图说明】结合附图,本专利技术的技术特征以及优点将会被本领域技术人员更好地理解,其中: 图1是根据本专利技术的实施例的的流程图。【具体实施方式】图1是根据本专利技术的实施例的的流程图。如图1所示,本专利技术所公开的包括下列步骤:(Al)在虚拟机驻留于其上的每个物理机上运行独立的计算组件,并且所述计算组件周期性地(例如每隔I分钟)向状态数据库报告相应的物理机的当前运行状态;(A2)高可用控制器周期性地(例如每隔2秒)轮询所述状态数据库以检查在所述高可用控制器的控制下的物理机集群中的所有物理机的运行状态;(A3)如果所述物理机集群中的所有物理机的运行状态均正常,则结束本次检查过程,如果所述物理机集群中的多台物理机的运行状态均异常,则结束本次检查过程并且通过日志的方式发出报警,而如果所述物理机集群中仅一台物理机的运行状态异常(例如某台物理机未在I分钟内报告自己的运行状态),则执行后续的异常处理操作以确保该运行状态异常的物理机上的虚拟机继续正常运行。优选地,在本专利技术所公开的中,所述异常处理操作包括:所述高可用控制器探测该运行状态异常的物理机针对管理网络的可连通性,其中,所述探测以下列两种方式进行:(I) ping该物理机;(2)监测该物理机的22号端口。优选地,在本专利技术所公开的中,所述异常处理操作进一步包本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN105095001.html" title="分布式环境下虚拟机异常恢复方法原文来自X技术">分布式环境下虚拟机异常恢复方法</a>

【技术保护点】
一种分布式环境下虚拟机异常恢复方法,所述分布式环境下虚拟机异常恢复方法包括下列步骤:(A1)在虚拟机驻留于其上的每个物理机上运行独立的计算组件,并且所述计算组件周期性地向状态数据库报告相应的物理机的当前运行状态;(A2)高可用控制器周期性地轮询所述状态数据库以检查在所述高可用控制器的控制下的物理机集群中的所有物理机的运行状态;(A3)如果所述物理机集群中的所有物理机的运行状态均正常,则结束本次检查过程,如果所述物理机集群中的多台物理机的运行状态均异常,则结束本次检查过程并且通过日志的方式发出报警,而如果所述物理机集群中仅一台物理机的运行状态异常,则执行后续的异常处理操作以确保该运行状态异常的物理机上的虚拟机继续正常运行。

【技术特征摘要】

【专利技术属性】
技术研发人员:柴洪峰鲁志军祖立军严逸兴
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1