本发明专利技术提供一种节点管理方法及装置,上述方法包括以下步骤:获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。上述技术方案中,当节点处于停止响应状态时,不对其进行重启,而是对节点的目标文件访问路径进行删除并进行资源清理,在节点处于活跃状态时,重新获取目标文件访问路径,降低了对其它节点的影响,提高了集群文件系统的高可用性,进而提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。
A method and device for node management
The present invention provides a method and device for node management, the method comprises the following steps: obtaining a stop response state of the node storage node; the target file access path to delete and resource cleaning; if the node is in the active state, to obtain the target file access path. The technical scheme, when the node is in response to stop state, not to restart, but to the target node file access path to delete and clean up resources, in the node is in the active state, to obtain the target file access path, reducing the impact on other nodes, to improve the high availability of cluster file system then, to improve the reliability of the virtualization platform, the stability of the virtualization platform can have better in bad in the network environment.
【技术实现步骤摘要】
一种节点管理方法及装置
本专利技术涉及云计算
,尤其涉及一种节点管理方法及装置。
技术介绍
虚拟化是构建云计算基础架构的关键技术之一,而集群文件系统则在虚拟化中扮演者关键角色,集群文件系统为虚拟化平台提供了海量存储,提供了虚拟机并行访问的能力。集群文件系统的稳定性直接影响了虚拟化平台的可靠性,相较于本地文件系统如ext3,ext4,xfs等,集群文件系统提供了锁保护、集群心跳等功能,具有更高的复杂度,但是在实际应用环境中,多节点之间的网络状态波动、节点掉电等诸多因素都会直接影响集群文件系统的HA(HighAvailable,高可用性)。第二代Oracle集群文件系统OCFS2提供了集群管理功能,能够在心跳断开,导致脑裂head-split(当集群中活动的节点由于某种原因停止响应后,其它节点认为它已死而进行资源争夺,从而导致共享磁盘文件损坏的现象)或存储掉线后,根据仲裁策略及时完成对故障节点的处理,从而减少对集群中其他节点的影响;然而,OCFS2只提供了系统panic复位、重启两种处理方式,上述处理方式严重影响了虚拟化平台上运行的虚拟机等业务,大大降低了虚拟化平台的可靠性与稳定性。因此,迫切需要提供一种节点管理方案来解决上述技术问题。
技术实现思路
本专利技术提供一种节点管理方法及装置,以解决上述问题。本专利技术实施例提供一种节点管理方法,包括以下步骤:获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。本专利技术实施例还提供一种节点管理装置,包括处理器,适于实现各指令;存储设备,适于存储多条指令,所述指令适于由所述处理器加载并执行;获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。本专利技术实施例提供的技术方案:获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。上述技术方案中,当节点处于停止响应状态时,不对其进行重启,而是对节点的目标文件访问路径进行删除并进行资源清理,在节点处于活跃状态时,重新获取目标文件访问路径,降低了对其它节点的影响,提高了集群文件系统的高可用性,进而提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1所示为本专利技术实施例1的节点管理方法流程图;图2所示为本专利技术实施例2的节点管理装置结构图。具体实施方式下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本专利技术能够避免节点重启,并在故障修复时自动完成节点上线恢复运行,提高了虚拟化平台的可靠性。首先,使得处于停止响应状态的节点不重启而只是心跳离线,从而避免对其它节点带来影响;其次,在用户空间会有监控程序对上述事件进行监控,一旦发生上述事件会强制卸载挂载的文件目录(删除文件访问路径)并完成资源清理,如锁资源等,为后续恢复做准备;再次,监控程序会及时完成故障上报,并时刻监控网络和/或磁盘状态看是否故障恢复,也留给用户进行故障排查的机会;最后,当监控程序发现故障恢复时,会重新完成节点上线及文件目录挂载(重新获取文件访问路径)等工作,使得上述事件影响最小化。上述方案提高了OCFS2集群文件系统的高可用性,从而大大提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。具体而言,Head-split,脑裂:当集群中活动的节点由于某种原因停止响应后,其它节点认为它已死而进行资源争夺,从而导致共享磁盘文件损坏的现象;Fence机制即“IO屏障”机制:为了防止脑裂而对“故障”节点“屏蔽”的操作。1、修改fence策略,使得fence发生时,故障节点(处于停止响应状态的节点)不重启而只是心跳离线,从而避免对其它节点带来影响;这需要修改OCFS2的内核模块源码,在configfs中,为fence_method增加新的选项userdefined;同时在ocfs2的fence行为中,使得fence发生时:1)令处于停止响应状态的节点的心跳处于离线状态;2)对所述节点挂载的文件目录cluster进行卸载(删除文件访问路径)并进行锁资源;3)在通过configfs中新增的fence_status属性来告知用户空间fence事件发生;4)同时还设置一个delayedwork可防止用户空间监控程序不进行fence处理时,强制系统重启。2、在用户空间会有监控程序对fence事件进行监控,一旦发生fence事件会强制卸载挂载目录并完成资源清理,如锁资源等,为后续恢复做准备,具体步骤如下:1)监控程序会时刻查看configfs中的fencestatus选项,一旦发生fence会回复一个ack,告知内核模块用户空间程序将会对fence事件进行处理;2)对当前已挂载的ocfs2文件系统进行卸载操作;3)对ocfs2残留资源进行清理;4)将fence事件进行上报。其中,步骤2)和步骤3)可以同时执行,在此不用于限定本实施例的保护范围。3、监控程序进行故障上报,并时刻监控网络和/或磁盘状态看是否故障恢复,当监控程序发现故障恢复时,会重新完成节点上线及文件系统挂载等工作,具体包括:1)监控程序对网络和/或磁盘状态进行持续监控;2)当发现状态恢复时,会尝试对节点进行online操作,并完成文件系统挂载;3)当节点状态改变后,及时上报。上述方案通过对ocfs2的fence机制进行优化,能够避免fence时节点重启,并在故障修复时自动完成节点上线恢复运行,提高了ocfs2集群文件系统的高可用性,从而大大提高了虚拟化平台的可靠性,使得虚拟化平台能够在恶劣的网络环境中具有更好的稳定性。图1所示为本专利技术实施例1的节点管理方法流程图,包括以下步骤:步骤101:获取处于停止响应状态的节点;进一步地,导致节点处于停止响应状态的原因包括:磁盘故障、网络故障。进一步地,获取处于停止响应状态的节点并使所述节点的心跳处于离线状态。步骤102:对所述节点存储的目标文件访问路径进行删除并进行资源清理;进一步地,所述资源清理方式包括:锁资源。步骤103:若所述节点处于活跃状态,则重新获取所述目标文件访问路径。进一步地,若磁盘故障恢复或网络故障恢复,则所述节点处于活跃状态。优选地,所述磁盘位于所述节点中。图2所示为本专利技术实施例2的节点管理装置结构图,包括处理器,适于实现各指令;存储设备,适于存储多条指令,所述指令适于由所述处理器加载并执行;获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。进一步地,导致节点处于停止响应状态的原因包括:磁盘故障、网络故障。进一步地,获取处于停止响应状态的节点并使所述节点的心跳处于离线状态。进一步地,所述资源清理方式包括:锁资源。进一步地,若磁盘故障恢复或网络本文档来自技高网...

【技术保护点】
一种节点管理方法,其特征在于,包括以下步骤:获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。
【技术特征摘要】
1.一种节点管理方法,其特征在于,包括以下步骤:获取处于停止响应状态的节点;对所述节点存储的目标文件访问路径进行删除并进行资源清理;若所述节点处于活跃状态,则重新获取所述目标文件访问路径。2.根据权利要求1所述的节点管理方法,其特征在于,导致节点处于停止响应状态的原因包括:磁盘故障、网络故障。3.根据权利要求1所述的节点管理方法,其特征在于,获取处于停止响应状态的节点并使所述节点的心跳处于离线状态。4.根据权利要求1所述的节点管理方法,其特征在于,所述资源清理方式包括:锁资源。5.根据权利要求1所述的节点管理方法,其特征在于,若磁盘故障恢复或网络故障恢复,则所述节点处于活跃状态。6.根据权利要求2或5所述的节点管理方法,其特征在于,所述磁盘位于所述节点中。7.一种节点管理装置,其特征在于,包括处理...
【专利技术属性】
技术研发人员:李宏伟,
申请(专利权)人:郑州云海信息技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。