一种高可用集群的心跳检测方法、存储介质和计算节点技术

技术编号：30637847 阅读：23 留言：0更新日期：2021-11-04 00:26

本发明专利技术公开了一种高可用集群的心跳检测方法、存储介质和计算节点。该心跳检测方法，由集群的计算节点执行，该方法包括网络心跳步骤：按照第一预设时间间隔定时通过心跳网络向其他计算节点发送心跳信息，若超过预设时长t1未接收到计算节点A的心跳信息，则认为计算节点A发生故障；存储心跳步骤：按照第二预设时间间隔定时往心跳盘写入自身的心跳信息并读取其他计算节点写入的心跳信息，若超过预设时长t2未读取到计算节点A新写入的心跳信息，则认为计算节点A发生故障。该心跳检测方法能及时检测到计算节点无法访问存储设备。检测到计算节点无法访问存储设备。检测到计算节点无法访问存储设备。

全部详细技术资料下载

【技术实现步骤摘要】
一种高可用集群的心跳检测方法、存储介质和计算节点

[0001]本专利技术涉及高可用集群
，尤其涉及一种高可用集群的心跳检测方法、存储介质和计算节点。

技术介绍

[0002]Pacemaker是 Linux环境中使用最为广泛的开源集群资源管理器。Pacemaker仅是集群资源管理器，并不提供集群心跳信息，因此需要基于Corosync（集群信息引擎）来实现心跳检测机制，利用Corosync提供的消息和集群成员管理功能，来实现节点和资源级别的故障检测和资源恢复，从而最大程度保证集群服务的高可用性。因此，业内常用Pacemaker+Corosync来构建高可用集群，运行时通过Corosync的心跳检测机制来检测集群计算节点是否还在提供服务，若检测计算节点发生故障，pacemaker就会把故障计算节点上的资源转移到其他正常计算节点上，如此则实现了高可用集群的自动管理。
[0003]Corosync的心跳检测机制具体为：每个计算节点定时通过心跳网络向其他节点组播心跳包，以告知其他计算节点本节点是健康的。如果计算节点超过预设个数的心跳周期没有接收到某个计算节点的心跳包的话，就通知集群该计算节点异常以对其进行隔离。这种心跳检测机制存在缺陷，在某些情况下不能及时检测出计算节点的存储故障，例如，计算节点A主机正常但无法访问存储设备，此时计算节点A与其他计算节点之间的心跳网络仍是连通的，其他计算节点仍能接收到计算节点A的心跳包，集群就会以为计算节点A是正常的，但计算节点A实际上已经发生了故障（无法访问存储设备）。
专...

【技术保护点】

【技术特征摘要】
1.一种高可用集群的心跳检测方法，由集群的计算节点执行，该方法包括网络心跳步骤：按照第一预设时间间隔定时通过心跳网络向其他计算节点发送心跳信息，若超过预设时长t1未接收到计算节点A的心跳信息，则认为计算节点A发生故障，其特征是：以集群中的共享盘作为心跳盘，该方法包括存储心跳步骤：按照第二预设时间间隔定时往心跳盘写入自身的心跳信息并读取其他计算节点写入的心跳信息，若超过预设时长t2未读取到计算节点A新写入的心跳信息，则认为计算节点A发生故障。2.如权利要求1所述的高可用集群的心跳检测方法，其特征是：所述心跳盘划分为分别对应多个计算节点的多个存储块，每个计算节点只往自身对应的存储块写入心跳信息。3.如权利要求1所述的高可用集群的心跳检测方法，其特征是：所述第二预设时间间隔是2秒/次。4.如权利要求1所述的高可用集群的心跳检测方法，其特征是：所述的往心跳盘写入自身的心跳信息具体是往心跳盘写入当前的时间戳。5....

【专利技术属性】
技术研发人员：程少锋，刘建平，朱敏健，
申请(专利权)人：云宏信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人