一种基于X码的分布式存储系统容错方法及系统技术方案

技术编号:33659534 阅读:13 留言:0更新日期:2022-06-02 20:40
本发明专利技术涉及一种基于X码的分布式存储系统容错方法及系统,包括将分布式存储数据转换为阵列式的待编码数据并使用纠删码X码对待编码数据进行编码,通过在分布式存储系统内应用纠删码X码作为编码策略,以异或运算替代有限域乘法运算,使计算复杂度显著下降,同时减小了频繁地修改和删除数据时必须同步更新的校验数据范围和计算成本,使修复失效节点需要的帮助数据(修复带宽)尽可能低,同时不需要额外增加存储成本,修复带宽和容错能力与现有技术的Hitchhiker码、RS码基本一致。从整体上,有效降低了修复更新所需的时间成本和计算成本。低了修复更新所需的时间成本和计算成本。低了修复更新所需的时间成本和计算成本。

【技术实现步骤摘要】
一种基于X码的分布式存储系统容错方法及系统


[0001]本专利技术涉及大数据处理
,尤其涉及一种基于X码的分布式存储系统容错方法及系统。

技术介绍

[0002]面对海量数据存储,目前大多采用集中式存储和分布式存储。堆叠的集中式存储需要专用磁盘阵列,采用磁盘冗余阵列(RAID)技术,常用纠删码中的阵列码来降低存储开销,导致其必须采用性能强劲的专用磁盘,虽然存储效率高效,但价格非常昂贵面对海量的数据,不能满足需求。基于纠删码的分布式存储可作为海量数据存储的解决方案,采用成熟的网络技术,将处于各个地区的设备连接在一起,利用分布式存储系统,使得设备之间存储的数据具有一致性、安全性和共享性,常用的分布式存储系统有:HDFS,Azure、GFS等。其存储策略除了三副本技术以外,还有纠删码技术,如RS码、LRC和Hitchhiker码。具有MDS性质的RS码是大数据存储中常用的纠删码,其参数取值任意,然而其高昂的修复成本(k倍)和基于有限域运算的计算成本,是目前应用中的主要瓶颈。LRC是以存储资源换带宽资源的一种折中的方法,它保证在能容忍的可靠性下,新增了局部校验节点,小范围数据的丢失只需下载r倍的数据(r<k),因而有效的降低了修复带宽。Hitchhiker码是将原有的RS码分成了两个子条带,每一个条带均采用RS编码,其唯一的不同点在于其将前一个子条带的系统数据存放在后一个子条带的校验节点上,从而在保证MDS性质下降低了数据节点的修复带宽。
[0003]传统的三副本策略虽能保证数据的可用性,但是其又引入了高修复代价的问题,面对海量的数据,仍然显得无能为力。目前分布式存储系统中的纠删码可以解决大部分的冷数据备份问题,对于温数据和热数据而言,需要编码算法的进一步突破。现有技术不适用于温、热数据的原因包括:频繁的修改、删除需要同步的更新采用编码后的冗余节点的数据,增加了额外的计算量和更新带宽;节点丢失后进行修复需要k倍的数据,带来了倍数级的修复成本。

技术实现思路

[0004]为解决现有技术的不足,本专利技术提出一种基于X码的分布式存储系统容错方法及系统,通过在分布式存储系统内应用纠删码X码作为编码策略,以异或运算替代有限域乘法运算,使计算复杂度显著下降,同时减小了频繁地修改和删除数据时必须同步更新的校验数据范围和计算成本,使修复失效节点需要的帮助数据(修复带宽)尽可能低,同时不需要额外增加存储成本,修复带宽和容错能力与现有技术的Hitchhiker码、RS码基本一致。从整体上,有效降低了修复更新所需的时间成本和计算成本。
[0005]为实现以上目的,本专利技术所采用的技术方案包括:
[0006]一种基于X码的分布式存储系统容错方法,其特征在于,包括:
[0007]S1、获取分布式存储数据,将分布式存储数据转换为阵列式的待编码数据,该待编码数据即对应为系统节点数据;
[0008]S2、按照X码编码算法对待编码数据进行编码,获得对应的校验码,该校验码即对应为校验节点数据;
[0009]S3、将校验码与待编码数据组合为编码数据,将编码数据依照分布式存储架构进行分布式存储;
[0010]S4、当需要对失效节点的数据进行恢复时,按照X码解码算法对编码数据(即对应帮助节点的数据)进行解码,获得所需的恢复数据。
[0011]进一步地,所述步骤S1包括:
[0012]对分布式存储数据依照预设节点长度进行逻辑分割,所得各分割系统节点以阵列式组合为待编码数据。
[0013]进一步地,所述步骤S2包括:
[0014]分别对各分割系统节点按照X码编码算法进行编码,获得对应各分割系统节点的校验码。
[0015]进一步地,所述步骤S3包括:
[0016]分别组合各分割系统节点的校验码,并将分割系统节点和校验码依照其原有阵列式组合为编码数据进行分布式存储。
[0017]进一步地,所述X码编码算法包括:
[0018]对分割系统节点中的各码元依照式1计算对应X码的奇码元和偶码元;
[0019][0020]其中,对应分割系统节点中标记为C
i,j
的码元,C
n

2,i
为对应X码的奇码元,C
n

1,i
为对应X码的偶码元。
[0021]进一步地,所述步骤S4包括:
[0022]判断需要恢复数据所在的分割系统节点;
[0023]使用该分割系统节点对应的校验码进行解码恢复缺失数据。
[0024]本专利技术还涉及一种基于X码的分布式存储系统容错系统,其特征在于,包括:
[0025]数据预处理模块,用于将分布式存储数据转换为阵列式的待编码数据;
[0026]编码模块,用于按照X码编码算法对待编码数据进行编码,获得对应的校验码;
[0027]分布式保存模块,用于将编码数据依照分布式存储架构进行分布式存储;
[0028]解码模块,用于按照X码解码算法对编码数据进行解码,获得所需的恢复数据。
[0029]本专利技术还涉及一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
[0030]本专利技术还涉及一种电子设备,其特征在于,包括处理器和存储器;
[0031]所述存储器,用于存储分割系统节点和编码数据;
[0032]所述处理器,用于通过调用分割系统节点和编码数据,执行上述的方法。
[0033]本专利技术的有益效果为:
[0034]采用本专利技术所述基于X码的分布式存储系统容错方法及系统,通过在分布式存储系统内应用纠删码X码作为编码策略,以异或运算替代有限域乘法运算,使计算复杂度显著
下降,减小了频繁地修改和删除数据时必须的同步更新的校验数据范围和计算成本,使修复失效节点需要的帮助数据(修复带宽)尽可能低,同时不需要额外增加存储成本,修复带宽和容错能力与现有技术的Hitchhiker码、RS码基本一致。从整体上,有效降低了修复更新所需的时间成本和计算成本。
附图说明
[0035]图1为本专利技术基于X码的分布式存储系统容错方法流程示意图。
[0036]图2为本专利技术基于X码的分布式存储系统容错系统结构示意图。
具体实施方式
[0037]为了更清楚的理解本专利技术的内容,将结合附图和实施例详细说明。
[0038]X码是具有MDS性质的阵列码,其具有最优更新复杂度,采用高计算效率的异或算法,运用于集中式存储RAID5/6中,未在分布式存储中运用。然而分布式存储系统中的纠删码策略因其高更新复杂度和高修复代价,主要用于冷数据备份,而热数据和温数据的备份仍然选用三副本策略。因此将X码运用到分布式存储中,可改变目前的现状。达到有效备份温数据和冷数据的目的。
[0039]目前X码仅用于集中式的存储环境,未用于分布式存储环境。归其主要原因为两种存储系统的差异性,所以X码不能直接用于分布式存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于X码的分布式存储系统容错方法,其特征在于,包括:S1、获取分布式存储数据,将分布式存储数据转换为阵列式的待编码数据;S2、按照X码编码算法对待编码数据进行编码,获得对应的校验码;S3、将校验码与待编码数据组合为编码数据,将编码数据依照分布式存储架构进行分布式存储;S4、当需要对失效节点的数据进行恢复时,按照X码解码算法对编码数据进行解码,获得所需的恢复数据。2.如权利要求1所述的方法,其特征在于,所述步骤S1包括:对分布式存储数据依照预设节点长度进行逻辑分割,所得各分割系统节点以阵列式组合为待编码数据。3.如权利要求2所述的方法,其特征在于,所述步骤S2包括:分别对各分割系统节点按照X码编码算法进行编码,获得对应各分割系统节点的校验码。4.如权利要求3所述的方法,其特征在于,所述步骤S3包括:分别组合各分割系统节点的校验码,并将分割系统节点和校验码依照其原有阵列式组合为编码数据进行分布式存储。5.如权利要求3所述的方法,其特征在于,所述X码编码算法包括:对分割系统节点中的各码元依照式1计算对应X码的奇码元和偶码元;其中,对应分割系统节点中标记为C
i,j

【专利技术属性】
技术研发人员:胡金平
申请(专利权)人:中信银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1