【技术实现步骤摘要】
计算节点及其失效检测方法与云端数据处理系统
本专利技术涉及一种云端数据处理方法及系统,且特别涉及一种计算节点及其失效检测方法与云端数据处理系统。
技术介绍
当云端数据中心上的计算节点遭受无法预知的环境因素或不可抗拒的外力影响时,原本运行其上的虚拟机可能无法提供正常的应用服务,进而将损害虚拟机合法用户的操作权利。为了使运行在失效计算节点上的虚拟机得以正常运作,须将受影响的虚拟机由失效计算节点上转移至其他正常运作的计算节点上。以高可用群组(HighAvailability(HA)cluster)为例,其由1个或多个工作节点(activenodes)搭配0个或多个备用节点(standbynodes)所组成,群组成员个数至少为2。高可用群组的运作可用于多个物理主机(Physicalmachines,PM)之中:当一具有运行虚拟机(Virtualmachines,VM)工作任务的物理主机失效时,高可用群组可支持虚拟机转移,意即将失效物理主机中的虚拟机,转移至其他物理主机中运作。然而,在高可用群组的运作中,物理主机的错误 ...
【技术保护点】
1.一种计算节点失效检测方法,适用于包括多个计算节点及至少一管理节点的云端数据处理系统,该方法包括下列步骤:/n前述多个计算节点的各个计算节点自我检查所提供服务的运作状态及资源使用状态,并将检查结果回报所述管理节点;/n所述计算节点根据所述检查结果动态调整下次回报的间隔时间,并将所述间隔时间告知所述管理节点;以及/n所述管理节点根据所述间隔时间检视所述检查结果的回报状况,以判断所述计算节点是否失效。/n
【技术特征摘要】
20180814 TW 1071283641.一种计算节点失效检测方法,适用于包括多个计算节点及至少一管理节点的云端数据处理系统,该方法包括下列步骤:
前述多个计算节点的各个计算节点自我检查所提供服务的运作状态及资源使用状态,并将检查结果回报所述管理节点;
所述计算节点根据所述检查结果动态调整下次回报的间隔时间,并将所述间隔时间告知所述管理节点;以及
所述管理节点根据所述间隔时间检视所述检查结果的回报状况,以判断所述计算节点是否失效。
2.如权利要求1所述的方法,其中所述计算节点根据所述检查结果动态调整下次回报的间隔时间的步骤包括:
判断所述计算节点的多个资源中的至少一个资源的使用量或使用率是否超过使用阈值;以及
若所述资源的使用量或使用率超过所述使用阈值,缩短所述间隔时间。
3.如权利要求1所述的方法,其中所述管理节点根据所述间隔时间检视所述检查结果的回报状况,以判断所述计算节点是否失效的步骤包括:
在以所述间隔时间定义的回报时间检视是否接收到所述检查结果;
若未接收到所述检查结果,累计错误次数;以及
重复上述检视步骤,并在所累计的所述错误次数大于错误阈值时,判断所述计算节点失效。
4.如权利要求1所述的方法,其中所述管理节点包括虚拟机管理节点,而所述管理节点根据所述间隔时间检视所述检查结果的回报状况,以判断所述计算节点是否失效的步骤包括:
所述虚拟机管理节点在以所述间隔时间定义的回报时间检视是否接收到所述检查结果,并在未接收到所述检查结果时,累计错误次数;
所述虚拟机管理节点检视数据库中由所述计算节点对于其所提供的所述服务的运作状态的更新,并在所述数据库未更新的次数超过预设次数时,累计所述错误次数;
所述虚拟机管理节点藉由心跳服务(Heart-beatservice)检视与所述计算节点的心跳连线的状态,并在所述心跳连线中断时,累计所述错误次数;以及
重复上述检视步骤,并在所累计的所述错误次数大于错误阈值时,判断所述计算节点失效。
5.如权利要求1所述的方法,其中所述管理节点包括虚拟机管理节点及数据中心管理节点,而所述管理节点根据所述间隔时间检视所述检查结果的回报状况,以判断所述计算节点是否失效的步骤包括:
所述虚拟机管理节点在以所述间隔时间定义的回报时间检视所述检查结果的接收是否正常,以获得第一状态;
所述虚拟机管理节点检视数据库中由所述计算节点对于其所提供的所述服务的运作状态的更新是否正常,以获得第二状态;
所述虚拟机管理节点藉由心跳服务检视与所述计算节点的心跳连线是否正常,以获得第三状态;
所述数据中心管理节点在以所述间隔时间定义的回报时间检视所述检查结果的接收是否正常,以获得第四状态;
所述数据中心管理节点连线至所述计算节点检视所述计算节点的所述服务的运作状态是否正常,以获得第五状态,其中
当所述第一、第二、第四及第五状态为异常、所述第三状态为正常且确认计算服务落入重启循环时,累计错误次数,
当所述第一、第二、第三及第四状态为异常时,累计所述错误次数,以及
当所述第一、第二、第三及第五状态为异常、所述第四状态为正常且计算服务重启不成功时,或当所述第一、第二及第四状态为异常、所述第三状态为正常且计算服务重启不成功时,累计所述错误次数;以及
重复上述检视步骤,并在所累计的所述错误次数大于错误阈值时,判断所述计算节点失效。
6.如权利要求1所述的方法,还包括:
所述管理节点根据所述检查结果中的所述资源使用状态,将运行在所述计算节点上的至少一虚拟机的资源使用量或使用率与预先定义的虚拟机资源规格进行比对,以判断所述资源使用量或使用率是否超过预设值或预设比例;以及
若所述资源使用量或使用率超过所述预设值或预设比例,或是所述资源使用量或使用率超过所述预设值或预设比例的次数超过预设次数,将所述资源使用量或使用率对应的所述虚拟机列入黑名单,其中列入所述黑名单的所述虚拟机被禁止转移至其他计算节点。
7.如权利要求1所述的方法,其中在判断所述计算节点是否失效的步骤之后,所述方法还包括:
若判断所述计算节点失效,将运行在所述计算节点上的至少一虚拟机平行转移至其他计算节点。
8.如权利要求7所述的方法,其中将运行在所述计算节点上的所述虚拟机平行转移至其他计算节点的步骤包括:
选择所述其他计算节点中具有较多可用资源的多个计算节点,依序分配可满足其资源需求且具有较高利益成本的多个虚拟机,其中所述利益成本为所述选择的计算节点满足各所述虚拟机可保障的利益与运行该虚拟机所消耗的资源成本的比值。
9.一种云端数据处理系统,包括:
多个计算节点,各所述计算节点包括自我检查器,自我检查所提供服务的运作状态及资源使用状态以回报检查结果,并根据所述检查结果动态调整回报所述检查结果的间隔时间;以及
至少一管理节点,所述管理节点包括接收由各所述计算节点回报的所述检查结果以及告知的所述间隔时间,并根据所述间隔时间检视对应的所述计算节点回报所述检查结果的回报状...
【专利技术属性】
技术研发人员:黄俊杰,王子嘉,
申请(专利权)人:财团法人工业技术研究院,
类型:发明
国别省市:中国台湾;71
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。