一种基于网络的双机环境下节点自动切换的方法技术

技术编号:14812372 阅读:62 留言:0更新日期:2017-03-15 03:30
本发明专利技术公开了一种基于网络的双机环境下节点自动切换的方法,属于一种节点自动切换的方法,本发明专利技术解决如何避免单点元数据服务器宕机导致整个Lustre文件系统的不可用的问题。采用的技术方案为:管理节点、备用管理节点、登陆节点均通过以太网交换机联机到mdt节点和ost节点,存储服务器通过以太网交换机分别连接到管理节点、备用管理节点、登陆节点、mdt节点和ost节点;(1)、在所有mds节点和oss节点部署heartbeat服务;(2)、根据集群实际环境修改ha.cf文件代码;(3)、开启heartbeat服务,查看是否所有IO节点均运行了该服务;(4)、手动将MDS节点的以太网口down掉,观察切换过程;(5)、确认剩余恢复时间,待time_remaining计时完毕后,确认Lustre分区仍旧正常。

【技术实现步骤摘要】

本专利技术涉及一种节点自动切换的方法,具体地说是一种基于网络的双机环境下节点自动切换的方法
技术介绍
当下HPC高性能计算领域,数据量的飞速增长和计算作业对I/O带宽的要求日益增加,NFS文件系统已经不能满足网络文件系统的需求。Lustre作为一款开源的并行文件系统,其强大的扩展性能已经广泛应用于高性能计算集群环境中。但随着Lustre文件系统对容量和带宽能够满足计算I/O带宽需求的同时,Lustre服务器的压力也逐渐增大,尤其是元数据服务器(MDS)。作为存储Lustre元数据的节点,压力越大,故障率也越高。高可用性对于集群的重要性不言而喻,不但维护集群硬件架构的稳定,减少故障的发生,而且能确保文件系统的稳定。一旦集群文件系统发生故障,对于集群是灾难性的,带来生产环境的中断甚至数据的丢失,风险不言而喻。
技术实现思路
本专利技术的技术任务是提供一种基于网络的双机环境下节点自动切换的方法,来解决如何避免单点元数据服务器宕机导致整个Lustre文件系统的不可用的问题。本专利技术的技术任务是按以下方式实现的,一种基于网络的双机环境下节点自动切换的方法,所涉及到的硬件包括存储服务器、InfiniBand交换机、以太网交换机、管理节点、备用管理节点、登陆节点、mds节点和oss节点,管理节点、备用管理节点、登陆节点均通过以太网交换机联机到mdt节点和ost节点,存储服务器通过以太网交换机分别连接到管理节点、备用管理节点、登陆节点、mdt节点和ost节点;所述方法包括如下步骤:(1)、在所有mds节点和oss节点部署heartbeat服务;(2)、根据集群实际环境修改ha.cf文件代码;(3)、开启heartbeat服务,查看是否所有IO节点均运行了该服务;(4)、不卸载Lustre分区,手动将MDS节点的以太网口down掉,观察切换过程;(5)、确认剩余恢复时间,待time_remaining计时完毕后,确认Lustre分区仍旧正常。mds节点包括MDS01节点和MDS02节点,MDS01节点为mdt主节点,MDS02节点为mdt备用节点。oss节点包括OSS01节点、OSS02节点、OSS03节点和OSS04节点;OSS01节点、OSS02节点、OSS03节点和OSS04节点均为ost挂载节点。OSS01节点挂载ost00和ost01;OSS02节点挂载ost02和ost03;OSS03节点挂载ost04和ost05;OSS04节点挂载ost06,ost07。本专利技术的一种基于网络的双机环境下节点自动切换的方法具有以下优点:1、通过该方法实时监控网络心跳,双机环境下当主节点由于故障失效时,心跳机制自动将主节点故障信号告知备用节点,备用节点自动接管主节点的服务或存储空间的挂载。通过编写脚本并部署到如Lustre文件系统中的MDS节点以及OSS节点,将这两种节点的服务冗余化,实现mdt的不间断工作,保证Lustre文件系统的正常工作;2、该部署方式基于脚本部署,通过安装相关服务在指定目录下,定时检测网络环境,而自身仅占用少量系统资源。且通过对脚本的修改,可应用于多种不同HA环境,多种集群环境;3、该应用部署后,不影响存储及文件系统性能,占用存储服务器资源小,在MDS活动节点切换后,mdt自动恢复可用性,无需手动操作;当OSS单点失效后,互为冗余的另一OSS自动接管失效的ost,自动挂载,并检查可用性。待检查完成,恢复原ost的读写。附图说明下面结合附图对本专利技术进一步说明。附图1为一种基于网络的双机环境下节点自动切换的方法的硬件结构框图。具体实施方式参照说明书附图和具体实施例对本专利技术的一种基于网络的双机环境下节点自动切换的方法作以下详细地说明。实施例1:本专利技术的一种基于网络的双机环境下节点自动切换的方法,所涉及到的硬件包括存储服务器、InfiniBand交换机、以太网交换机、管理节点、备用管理节点、登陆节点、mds节点和oss节点,管理节点、备用管理节点、登陆节点均通过以太网交换机联机到mdt节点和ost节点,存储服务器通过以太网交换机分别连接到管理节点、备用管理节点、登陆节点、mdt节点和ost节点;所述方法包括如下步骤:(1)、在所有mds节点和oss节点部署heartbeat服务;(2)、根据集群实际环境修改ha.cf文件代码;(3)、开启heartbeat服务,查看是否所有IO节点均运行了该服务;(4)、不卸载Lustre分区,手动将MDS节点的以太网口down掉,观察切换过程;(5)、确认剩余恢复时间,待time_remaining计时完毕后,确认Lustre分区仍旧正常。mds节点包括MDS01节点和MDS02节点,MDS01节点为mdt主节点,MDS02节点为mdt备用节点。oss节点包括OSS01节点、OSS02节点、OSS03节点和OSS04节点;OSS01节点、OSS02节点、OSS03节点和OSS04节点均为ost挂载节点。OSS01节点挂载ost00和ost01;OSS02节点挂载ost02和ost03;OSS03节点挂载ost04和ost05;OSS04节点挂载ost06,ost07。步骤(2)中,ha.cf文件代码为:keepalive2deadtime30initdead120#definedifferentudpportfordifferentpairs#udpport694bcasteth0use_logdofflogfile/var/log/ha-logauto_failbackoff##youmustchangehere#nodemds01mds02ping11.11.11.111.11.11.2respawnhacluster/usr/lib64/heartbeat/ipfail#addstonith#stonith_hostmd2external/rackpdu#stonithexternal/rackpdu/etc/ha.d/rackpdu.conf。步骤(4)中,观察切换过程为查看MDS节点或OSS节点的:/proc/fs/lustre/mdt/lustre-MDT0000/recovery_status和/proc/fs/lustre/obdfilter/lustre-OST0000/recovery_status。通过上面具体实施方式,所述
的技术人员可容易的实现本专利技术。但是应当理解,本专利技术并不限于上述具体实施方式。在公开的实施方式的基础上,所述
的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。除说明书所述的技术特征外本文档来自技高网
...

【技术保护点】
一种基于网络的双机环境下节点自动切换的方法,其特征在于所涉及到的硬件包括存储服务器、InfiniBand交换机、以太网交换机、管理节点、备用管理节点、登陆节点、mds节点和oss节点,管理节点、备用管理节点、登陆节点均通过以太网交换机联机到mdt节点和ost节点,存储服务器通过以太网交换机分别连接到管理节点、备用管理节点、登陆节点、mdt节点和ost节点;所述方法包括如下步骤:(1)、在所有mds节点和oss节点部署heartbeat服务;(2)、根据集群实际环境修改ha.cf文件代码;(3)、开启heartbeat服务,查看是否所有IO节点均运行了该服务;(4)、手动将MDS节点的以太网口down掉,观察切换过程;(5)、确认剩余恢复时间,待time_remaining计时完毕后,确认Lustre分区仍旧正常。

【技术特征摘要】
1.一种基于网络的双机环境下节点自动切换的方法,其特征在于所涉及到的硬件包括存储服务器、InfiniBand交换机、以太网交换机、管理节点、备用管理节点、登陆节点、mds节点和oss节点,管理节点、备用管理节点、登陆节点均通过以太网交换机联机到mdt节点和ost节点,存储服务器通过以太网交换机分别连接到管理节点、备用管理节点、登陆节点、mdt节点和ost节点;所述方法包括如下步骤:
(1)、在所有mds节点和oss节点部署heartbeat服务;
(2)、根据集群实际环境修改ha.cf文件代码;
(3)、开启heartbeat服务,查看是否所有IO节点均运行了该服务;
(4)、手动将MDS节点的以太网口down掉,观察切换过程;
(5)、确认剩余恢复时间,待time_remaining计时完毕后,确...

【专利技术属性】
技术研发人员:宋辰
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1