【技术实现步骤摘要】
【国外来华专利技术】分布式存储系统的数据编码、解码及修复方法
本专利技术涉及网络编码领域,具体涉及一种分布式存储系统的数据编码、解码及修复方法。
技术介绍
分布式存储系统,如HDFS、WindowsAzure、GFS等,采用多副本或纠删码等数据冗余策略以实现系统高可用性及高可靠性。多副本策略具有较高的读取效率,但其主要缺点是高存储冗余,如3副本,存储冗余高达200%。高存储冗余带来高存储成本,在大规模存储集群中变得不可用。Reed-Solomon(RS)纠删码,通过对原始数据进行编码生成编码数据(总量一般远小于原始数据)作为存储冗余,与多副本相比,大大降低存储成本。如RS(10,4)编码,将原始文件段切分为10数据块,编码生成额外4编码块,仅有40%的存储冗余。但由于在写入数据时采用RS纠删码的方式需要编码过程且读取数据时需要从更多的节点读取数据,其执行存取操作的效率低于多副本策略,因此不适用于需要频繁存取的数据存储,适合存储规模较大、访问频率较低的温数据或冷数据存储。另一方面,RS编码为最大距离可分割(MaximumDistanceSeparable,MDS)编码,在同等可靠性下具有最高的存储效率。如RS(10,4)存储冗余为40%,支持最多4个存储节点失效,而3副本模式,存储冗余为200%,支持最多2节点失效。RS编码由于数据冗余度低于多副本策略,其对存储空间的利用效率更高,故具有较高的存储效率,但是需要较高的修复带宽,如RS(10,4)编码,一个存储节点上的数据块故障时,需要从其它10在线节点读取并传输共10个编码块以修复一个数据 ...
【技术保护点】
一种分布式存储系统的编码方法,其特征在于包括:/n初始化步骤,用于进行编码参数设置,包括获取原始数据块数k,全局编码块数m,修复度r,代数运算域GF空间设置w,即运算域
【技术特征摘要】
【国外来华专利技术】一种分布式存储系统的编码方法,其特征在于包括:
初始化步骤,用于进行编码参数设置,包括获取原始数据块数k,全局编码块数m,修复度r,代数运算域GF空间设置w,即运算域
编码步骤,将每一个文件段划分为k数据块,对k所述原始数据块调用RS(k,m+1)编码,生成m全局编码块;对k数据块,依次取r数据块为一组进行异或运算,共生成
局部编码块;对m全局编码块,依次取r编码块进行异或运算,生成
局部编码块。
根据权利要求1所述的方法,其特征在于,编码后数据总块数为
最后一个数据块分组不足r时,取实际剩余数据块进行异或运算;最后一个编码块分组不足r时,取实际剩余编码块进行异或运算。
根据权利要求1所述的方法,其特征在于,所述方法调用RS(k,m+1)编码为系统码,即前k数据块保持不变,m+1RS全局编码块中第一个编码块为隐含全局编码块,其由所有数据块异或运算或前
局部编码块异或运算得到。
一种分布式存储系统的数据解码方法,用于读取分布式存储系统中存储的数据,其特征在于,所述分布式存储系统采用如权利要求1所述的编码方法,所述解码方法包括:
获取存储节点状态,读取编码后各数据块及编码块所存储的n存储节点状态,获得在线块索引列表和故障块索引列表;
根据所述存储节点状态,获取可解码状态;
根据不同的可解码状态,确定解码需要读取的数据位置以确定解码索引列表;
根据所述解码索引列表,读取解码所需数据块或编码块;
根据可解码状态、解码块索引及其已读取的对应块数据,解码文件段。
根据权利要求4所述的方法,其特征在于,所述可解码状态包括无需解码、可局部解码、可仅RS解码、可局部及RS联合解码、不可解码。
根据权利要求4所述的方法,其特征在于,所述可解码状态获取过程为,
当单节点故障时,若故障节点为数据节点,则可解码状态为可局部解码,否则无需解码;
当故障节点不为一个时,依次进行如下判断:若k数据块所在存储节点都在线,返回无需解码状态;若每个局部编码分组中有且仅有一个数据块故障且局部编码块在线时,返回可局部解码状态;当k数据块及m全局编码块中有不少于k个在线时,返回可仅RS解码状态;当局部编码块可通过局部解码恢复,从而隐含全局编码块可恢复,或通过局部解码可恢复数据块或全局编码块数目达k时,剩余故障数据块可通过RS解码获得,返回可局部及RS联合解码状态;以上条件不满足时,返回不可解码状态。
根据权利要求6所述的方法,其特征在于,
当返回无需解码状态时,利用k在线数据块直接拼接成原始文件段;
当返回单节点/多节点可局部解码状态时,对于每个故障数据块,获取数目为r的在线局部分组块,对所述局部分组块进行异或运算解码出故障数据块;
当返回可仅RS解码状态时,利用k输入数据块和/或全局编码块,调用RS解码算法解码获得包括故障数据块在内的所有数据块;
当返回可局部及RS联合解码状态时,采用局部解码依次修复数据块、前
局部编码块、隐含全局编码块、其它RS全局编码块,当前k+m数据块和全局编码块及...
【专利技术属性】
技术研发人员:郝斌,朱健,
申请(专利权)人:深圳花儿数据技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。