System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法技术方案_技高网
当前位置: 首页 > 专利查询>之江实验室专利>正文

星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法技术方案

技术编号:42202322 阅读:14 留言:0更新日期:2024-07-30 18:48
本发明专利技术公开了一种星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法,包括:在文件系统部署管理服务模块,在星载计算节点部署控制服务模块;星载计算节点需要下电,应用迁移前触发数据迁移机制,自动迁移数据至指定存储区,将应用迁移至其他星载计算节点,确保应用迁移后在新环境下持续访问数据,保持业务连续性和数据高可用性;星载计算节点重新上电后,文件系统逐步恢复运行,通过数据回迁机制将数据还原至原文件系统目录,实现应用数据与文件系统的无隙对接。本发明专利技术通过自动化、智能化数据处理策略有效应对星载计算节点下电带来的挑战,增强了天基计算中数据的可用性和可靠性,为复杂情境下的星载应用提供了稳定运行基础。

【技术实现步骤摘要】

本专利技术涉及数据存储与管理,尤其涉及一种星载计算节点下电cubefs文件系统异常场景下的数据自愈方法。


技术介绍

1、在卫星通信、数据中心等分布式环境中,cubefs等高性能分布式文件系统常被用于存储和管理大量应用数据。然而,由于卫星设备的特殊性,如能耗管理需求、环境因素等,需要对星载计算节点执行下电操作,进而影响文件系统的正常运行。当cubefs分布式文件系统星载计算节点数量低于维持文件系统服务所需阈值时,文件系统可能无法提供服务,导致关键应用迁移后相关数据无法访问,严重影响业务运行。因此,亟需一种能够在星载计算节点下电场景下,确保数据安全迁移、应用顺利切换,并在cubefs分布式文件系统恢复后实现数据回迁的自愈方法。


技术实现思路

1、本专利技术的目的在于针对现有技术的不足,提供一种星载计算节点下电cubefs文件系统异常场景下的数据自愈方法。

2、本专利技术的目的是通过以下技术方案来实现的:本专利技术实施例第一方面提供了一种星载计算节点下电cubefs文件系统异常场景下的数据自愈方法,包括以下步骤:

3、(1)在cubefs文件系统上部署用于管理整个数据迁移过程的管理服务模块,在星载计算节点上部署用于监管设备状态和控制星载计算节点状态的控制服务模块;

4、(2)当星载计算节点出于能耗及太空辐射因素考虑需要下电时,判断星载计算节点上运行的应用是否需要迁移至其他星载计算节点,若该星载计算节点上运行的应用需要迁移至其他星载计算节点,则直接跳至步骤(3);否则,该星载计算节点上运行的应用迁移至其他星载计算节点后直接下电;

5、(3)假设应用所在星载计算节点下电后,依据当前在线星载计算节点数量判断文件系统是否能够正常工作,若文件系统能够正常工作,则应用迁移前无需触发数据迁移机制,直接将应用迁移至其他星载计算节点后,再对应用所在星载计算节点执行下电操作;否则,触发数据迁移机制,通过管理服务模块控制数据迁移机制的整个数据迁移过程,数据迁移完成后,将应用迁移至其他星载计算节点,再对应用所在星载计算节点执行下电操作;

6、(4)星载计算节点重新上电后,依据当前在线星载计算节点数量判断文件系统是否能够正常工作,若文件系统能够正常工作,则集群星载计算节点恢复并重建cubefs文件系统,并触发数据回迁机制,通过管理服务模块控制数据回迁机制的整个数据迁移过程,以将应用数据还原至cubefs文件系统;否则,直接结束,不进行数据回迁。

7、进一步地,所述管理服务模块包括cubefs集群管理控制器、第一数据采集控制器、数据迁移控制器、第一数据校验控制器和第一设备管理控制器;其中,所述cubefs集群管理控制器用于通过cubefs文件系统开放的api接口获取cubefs集群中的星载计算节点状态,并下发指令管理cubefs集群;所述第一数据采集控制器用于通过控制服务模块上报的元数据信息,对星载计算节点运行的应用关联元数据信息进行采集;所述数据迁移控制器用于结合第一数据采集控制器采集的元数据信息,在接收到星载计算节点下电或设备上电指令后,对数据迁移机制进行决策控制;所述第一数据校验控制器用于接收文件校验请求,对比迁移数据的完整性,以对数据完整性进行校验;所述第一设备管理控制器用于向星载计算节点发起电源状态请求,以控制设备上电或下电;

8、所述控制服务模块包括第二数据采集控制器、第二设备管理控制器、第二数据校验控制器、数据上传控制器和数据下载控制器;其中,所述第二数据采集控制器用于采集包含本地运行应用、挂载文件系统、星载计算节点健康状态在内的元数据信息并将其上报给管理服务模块的第一数据采集控制器;所述第二设备管理控制器用于接收管理服务模块控制星载计算节点电源状态请求,执行设备上电或下电;所述第二数据校验控制器用于接收文件数据块校验请求,对比数据完整性,校验数据文件是否修改;所述数据上传控制器用于上传指定的数据块,并以增量上传,修改cubefs文件系统中对应的文件内容;所述数据下载控制器用于下载cubefs文件系统中指定的文件,以全量下载形式下载文件内容到指定的星载计算节点存储区域。

9、进一步地,所述判断星载计算节点上运行的应用是否需要迁移至其他星载计算节点,通过如下方法判断:

10、通过管理服务模块的cubefs集群管理控制器获取集群信息,依据集群信息获取集群中所有星载计算节点总数量以及在线星载计算节点数量;若当前在线星载计算节点数量小于集群中所有星载计算节点总数量的二分之一,则判断星载计算节点上运行的应用需要迁移至其他星载计算节点;若当前在线星载计算节点数量大于等于集群中所有星载计算节点总数量的二分之一,则判断星载计算节点上运行的应用无需迁移至其他星载计算节点;

11、所述依据当前在线星载计算节点数量判断文件系统是否能够正常工作,通过如下方法判断:

12、先假设应用所在星载计算节点下电后,通过管理服务模块的cubefs集群管理控制器获取集群信息,依据集群信息获取集群中所有星载计算节点总数量以及在线星载计算节点数量;再判断下电后的在线星载计算节点数量是否小于集群中所有星载计算节点总数量的二分之一,若下电后的在线星载计算节点数量小于集群中所有星载计算节点总数量的二分之一,则文件系统无法正常工作;否则,文件系统能够正常工作。

13、进一步地,所述触发数据迁移机制,通过管理服务模块控制数据迁移机制的整个数据迁移过程,待迁移数据迁移完成后,将应用迁移至其他星载计算节点,再对应用所在星载计算节点执行下电操作,具体包括如下步骤:

14、(3.1)由部署在星载计算节点上的控制服务模块通过心跳机制上报应用、与应用关联的文件系统的元数据信息给管理服务模块,管理服务模块结合应用、与应用关联的文件系统的元数据信息确定待迁移数据;

15、(3.2)由管理服务模块控制数据迁移机制将cubefs文件系统内与应用相关的待迁移数据以增量或全量迁移方式自动迁移至预设的目标星载计算节点目录所对应的存储区域;

16、(3.3)判断待迁移数据是否迁移完成,若待迁移数据迁移完成,则直接跳至步骤(3.4);否则,直接跳至步骤(3.5);

17、(3.4)通过控制服务模块的第二数据校验控制器对待迁移数据进行数据完整性校验,再判断数据完整性校验是否成功,若数据完整性校验成功,则直接跳至步骤(3.6);否则,直接跳至步骤(3.5);

18、(3.5)触发重试机制,即返回步骤(3.2)重新迁移待迁移数据,以将所有待迁移数据全部迁移至预设的目标星载计算节点目录所对应的存储区域;再判断是否重试成功,若重试成功,则直接跳至步骤(3.6);若重试失败,则触发告警机制,进行人工处理;

19、(3.6)将应用迁移至预设的目标星载计算节点;

20、(3.7)重复步骤(3.1)-步骤(3.6),直至待下电星载计算节点上运行的所有应用均迁移至其他星载计算节点,再对该待下电星载计算节点进行安全下电操作本文档来自技高网...

【技术保护点】

1.一种星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法,其特征在于,所述管理服务模块包括Cubefs集群管理控制器、第一数据采集控制器、数据迁移控制器、第一数据校验控制器和第一设备管理控制器;其中,所述Cubefs集群管理控制器用于通过Cubefs文件系统开放的API接口获取Cubefs集群中的星载计算节点状态,并下发指令管理Cubefs集群;所述第一数据采集控制器用于通过控制服务模块上报的元数据信息,对星载计算节点运行的应用关联元数据信息进行采集;所述数据迁移控制器用于结合第一数据采集控制器采集的元数据信息,在接收到星载计算节点下电或设备上电指令后,对数据迁移机制进行决策控制;所述第一数据校验控制器用于接收文件校验请求,对比迁移数据的完整性,以对数据完整性进行校验;所述第一设备管理控制器用于向星载计算节点发起电源状态请求,以控制设备上电或下电;

3.根据权利要求1所述的星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法,其特征在于,所述判断星载计算节点上运行的应用是否需要迁移至其他星载计算节点,通过如下方法判断:

4.根据权利要求1所述的星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法,其特征在于,所述触发数据迁移机制,通过管理服务模块控制数据迁移机制的整个数据迁移过程,待迁移数据迁移完成后,将应用迁移至其他星载计算节点,再对应用所在星载计算节点执行下电操作,具体包括如下步骤:

5.根据权利要求4所述的星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法,其特征在于,所述判断数据完整性校验是否成功,通过如下方法判断:

6.根据权利要求1所述的星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法,其特征在于,所述集群星载计算节点恢复并重建Cubefs文件系统,并触发数据回迁机制,通过管理服务模块控制数据回迁机制的整个数据迁移过程,以将应用数据还原至Cubefs文件系统,具体包括如下子步骤:

7.根据权利要求6所述的星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法,其特征在于,所述通过管理服务模块控制数据回迁机制将目标星载计算节点目录中临时存储的应用数据精确回迁至对应的原Cubefs文件系统目录中,具体包括:

8.根据权利要求1所述的星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法,其特征在于,所述数据迁移机制和数据回迁机制均支持异步或并发执行。

9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现权利要求1-8中任一项所述的星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的星载计算节点下电Cubefs文件系统异常场景下的数据自愈方法。

...

【技术特征摘要】

1.一种星载计算节点下电cubefs文件系统异常场景下的数据自愈方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的星载计算节点下电cubefs文件系统异常场景下的数据自愈方法,其特征在于,所述管理服务模块包括cubefs集群管理控制器、第一数据采集控制器、数据迁移控制器、第一数据校验控制器和第一设备管理控制器;其中,所述cubefs集群管理控制器用于通过cubefs文件系统开放的api接口获取cubefs集群中的星载计算节点状态,并下发指令管理cubefs集群;所述第一数据采集控制器用于通过控制服务模块上报的元数据信息,对星载计算节点运行的应用关联元数据信息进行采集;所述数据迁移控制器用于结合第一数据采集控制器采集的元数据信息,在接收到星载计算节点下电或设备上电指令后,对数据迁移机制进行决策控制;所述第一数据校验控制器用于接收文件校验请求,对比迁移数据的完整性,以对数据完整性进行校验;所述第一设备管理控制器用于向星载计算节点发起电源状态请求,以控制设备上电或下电;

3.根据权利要求1所述的星载计算节点下电cubefs文件系统异常场景下的数据自愈方法,其特征在于,所述判断星载计算节点上运行的应用是否需要迁移至其他星载计算节点,通过如下方法判断:

4.根据权利要求1所述的星载计算节点下电cubefs文件系统异常场景下的数据自愈方法,其特征在于,所述触发数据迁移机制,通过管理服务模块控制数据迁移机制的整个数据迁移过程,待迁移数据迁移完成后,将应用迁移至其他星载计算节点,再对应用所在星载计算节...

【专利技术属性】
技术研发人员:郑浩房林翰汪婷张辉李超
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1