一种数据处理方法及系统技术方案

技术编号:35743588 阅读:40 留言:0更新日期:2022-11-26 18:47
本发明专利技术提供了一种数据处理方法及系统,该方法应用于由至少两个节点所组成的分布式存储系统,包括:确定响应数据处理请求的原文件按照预设切分规则所形成的多个数据块;根据预配置的配置信息将多个数据块依次存储至由节点所部署的缓存单元及校验存储单元;执行数据处理请求所对应的数据处理操作,并将数据处理操作所产生的差异数据按照配置信息依次存储至缓存单元及校验存储单元;其中,至少两个节点所部署的缓存单元形成分布式缓存存储层,至少两个节点所部署的校验存储单元形成分布式校验存储层。通过本发明专利技术,实现了数据处理时性能以及空间利用率同时兼顾的目的,同时,还解决了数据快照等操作实现复杂且效率低的问题。决了数据快照等操作实现复杂且效率低的问题。决了数据快照等操作实现复杂且效率低的问题。

【技术实现步骤摘要】
一种数据处理方法及系统


[0001]本专利技术涉及信息存储
,尤其涉及一种数据处理方法及系统。

技术介绍

[0002]分布式存储系统是由不同于传统集中式存储架构所构成的存储系统,能够将多个节点上的存储介质组合成一个或者多个逻辑的大存储池,然后对外提供块、文件和对象存储服务,并且能够提供多种高级存储特性,例如快照、克隆、多副本、纠删码以及精简卷。
[0003]SSD和HDD是两种不同的硬盘,其中,SSD是固态硬盘,具有性能高、容量小以及价格贵的特点,HDD是机械硬盘,具有容量大、价格便宜以及性能较低(尤其是随机读写性能很低)的特点。基于此,多数分布式存储系统在设计时会综合利用SSD和HDD的特点,使得存储系统能够在保证大容量存储的同时,提供性能上的保障。
[0004]分布式存储系统为了保证数据的可用性,避免硬盘或者节点故障导致数据不可用,一般会采用多副本和纠删码技术以保护硬盘数据。多副本是指多个数据副本。实现方法是将数据拷贝多份完全一样的副本,分别存放在多个不同的节点上,当某个节点发生故障时,其他节点上仍然存放有数据,以保证数据不会丢失,从而数据存储的目的。纠删码(Erasure Code,简称EC)是指一种纠正数据丢失的校验码。实现方法是将数据以及校验码(即,可以推算出数据的校验码)分别存放至不同节点,当某个节点出现故障导致该节点存放的数据出现丢失时,则可以通过其他节点所存放的数据以及校验码,将丢失的数据反推出来,从而实现数据存储的目的。
[0005]基于前述多副本和纠删码两种硬盘数据保护技术,多副本具有冗余度高、读写性能高以及占用存储空间多的特点,纠删码则需要额外的计算,同时数据修改性能差(当出现写入数据的时由此涉及数据校验,从而可能会产生写惩罚),但是空间占用相对较少的特点。
[0006]然而,现有技术中使用纠删码的方式来保证数据冗余却不能解决小文件写入带来的性能急剧下降的问题,而使用多副本的方式又会出现存储空间利用率低的问题,从而存在无法保证性能以及空间利用率同时兼顾的缺陷。另外,现有的SSD缓存技术(例如,Bcache这种在内核级的block层缓存),存储系统的快照、克隆特性不能充分地利用SSD缓存的特性,从而导致缓存快照、克隆等操作的实现存在复杂且效率低的缺陷。
[0007]有鉴于此,有必要对现有技术中的存储技术予以改进,以解决上述问题。

技术实现思路

[0008]本专利技术的目的在于解决现有技术中使用纠删码的方式来保证数据冗余所存在的因小文件写入所导致的各个节点的存储性能急剧下降,而使用多副本方式又会导致节点的存储空间浪费的问题。
[0009]为实现上述目的,本专利技术提供了一种数据处理方法,应用于由至少两个节点所组成的分布式存储系统,包括:
[0010]确定响应数据处理请求的原文件按照预设切分规则所形成的多个数据块;
[0011]根据预配置的配置信息将所述多个数据块依次存储至由节点所部署的缓存单元及校验存储单元;
[0012]执行数据处理请求所对应的数据处理操作,并将数据处理操作所产生的差异数据按照所述配置信息依次存储至缓存单元及校验存储单元;
[0013]其中,至少两个节点所部署的缓存单元形成分布式缓存存储层,至少两个节点所部署的校验存储单元形成分布式校验存储层。
[0014]作为本专利技术的进一步改进,所述数据处理请求为数据写入请求;
[0015]所述数据写入请求包括:
[0016]判断是否确定响应数据写入请求所对应的数据块及数据块所存储的缓存单元及校验存储单元;
[0017]若是,则执行数据写入请求所对应的数据写入操作,并将数据写入请求所对应的数据存储至所述数据写请求所对应的数据块及数据块所存储的缓存单元及校验存储单元;
[0018]若否,则执行数据写入请求所对应的数据写入操作,并选取任意节点以将数据写入请求所对应的数据根据预配置的配置信息依次存储至任意节点所部署的缓存单元及校验存储单元。
[0019]作为本专利技术的进一步改进,所述数据处理请求为数据读取请求;
[0020]所述数据读取请求包括:
[0021]确定响应数据读取请求所对应的节点,并判断数据读取请求所对应的数据是否存储至确定的节点所部署的缓存单元;
[0022]若是,则通过确定的节点所部署的缓存单元执行数据读取请求所对应的数据读取操作;
[0023]若否,则通过确定的节点所部署的校验存储单元执行数据读取请求所对应的数据读取操作。
[0024]作为本专利技术的进一步改进,所述数据处理请求为数据快照创建请求;
[0025]所述数据快照创建请求包括:
[0026]响应数据快照请求执行数据快照请求所对应的数据快照创建操作,对原文件的多个数据块进行数据快照创建操作,并根据预配置的配置信息依次存储至由节点所部署的缓存单元及校验存储单元。
[0027]作为本专利技术的进一步改进,所述预配置的配置信息包括:
[0028]缓存存储层所对应的存储规则与全量数据副本个数,以及校验存储层所对应的存储规则、数据块分片个数以及校验块个数。
[0029]作为本专利技术的进一步改进,所述缓存存储层所对应的存储规则包括:
[0030]确定原文件所形成的多个数据块基于缓存存储层所对应的全量数据副本个数执行副本创建操作所形成的副本数据块;
[0031]将所述副本数据块依次存储至缓存存储层所包含的不同缓存单元,并保证同一缓存单元不存在相同的副本数据块。
[0032]作为本专利技术的进一步改进,所述校验存储层所对应的存储规则包括:
[0033]确定原文件所形成的多个数据块基于校验存储层所对应的数据块分片个数以及
校验块个数执行纠删码创建操作所形成的数据块分片以及校验块;
[0034]将所述数据块分片以及校验块依次存储至校验存储层所包含的不同校验存储单元。
[0035]作为本专利技术的进一步改进,所述将所述副本数据块依次存储至缓存存储层所包含的不同缓存单元,还包括:
[0036]判断副本数据块总数是否为缓存单元总数的整倍数;
[0037]若是,则将副本数据块平均存储至缓存存储层所包含的不同缓存单元;
[0038]若否,则选取一缓存单元为缓存起始单元依次将副本数据块存储至缓存存储层所包含的不同缓存单元。
[0039]作为本专利技术的进一步改进,所述将所述数据块分片以及校验块依次存储至校验存储层所包含的不同校验存储单元,还包括:
[0040]确定数据块分片的总数与校验块的总数所形成的待分配数据块的总数,并判断所述待分配总数是否为校验存储层总数的整倍数;
[0041]若是,则将待分配数据块平均存储至不同校验存储单元;
[0042]若否,则选取一校验存储单元为校验起始单元依次将待分配数据块存储至不同校验存储单元。
[0043]作为本专利技术的进一步改进,同一节点部署一个缓存单元以及若干校验存储单元,至少两个节点所部署的至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,应用于由至少两个节点所组成的分布式存储系统,其特征在于,包括:确定响应数据处理请求的原文件按照预设切分规则所形成的多个数据块;根据预配置的配置信息将所述多个数据块依次存储至由节点所部署的缓存单元及校验存储单元;执行数据处理请求所对应的数据处理操作,并将数据处理操作所产生的差异数据按照所述配置信息依次存储至缓存单元及校验存储单元;其中,至少两个节点所部署的缓存单元形成分布式缓存存储层,至少两个节点所部署的校验存储单元形成分布式校验存储层。2.根据权利要求1所述的数据处理方法,其特征在于,所述数据处理请求为数据写入请求;所述数据写入请求包括:判断是否确定响应数据写入请求所对应的数据块及数据块所存储的缓存单元及校验存储单元;若是,则执行数据写入请求所对应的数据写入操作,并将数据写入请求所对应的数据存储至所述数据写请求所对应的数据块及数据块所存储的缓存单元及校验存储单元;若否,则执行数据写入请求所对应的数据写入操作,并选取任意节点以将数据写入请求所对应的数据根据预配置的配置信息依次存储至任意节点所部署的缓存单元及校验存储单元。3.根据权利要求1所述的数据处理方法,其特征在于,所述数据处理请求为数据读取请求;所述数据读取请求包括:确定响应数据读取请求所对应的节点,并判断数据读取请求所对应的数据是否存储至确定的节点所部署的缓存单元;若是,则通过确定的节点所部署的缓存单元执行数据读取请求所对应的数据读取操作;若否,则通过确定的节点所部署的校验存储单元执行数据读取请求所对应的数据读取操作。4.根据权利要求1所述的数据处理方法,其特征在于,所述数据处理请求为数据快照创建请求;所述数据快照创建请求包括:响应数据快照请求执行数据快照请求所对应的数据快照创建操作,对原文件的多个数据块进行数据快照创建操作,并根据预配置的配置信息依次存储至由节点所部署的缓存单元及校验存储单元。5.根据权利要求1至4中任一项所述的数据处理方法,其特征在于,所述预配置的配置信息包括:缓存存储层所对应的存储规则与全量数据副本个数,以及校验存储层所对应的存储规则、数据块分片个数以及校验块个数。6.根据权利要求5所述的数据处理方法,其特征在于,所述缓存存储层所对应的存储规
则包括:确定原文件所形成的多个数据块基于缓存存储层所对应的全量数据副本个数执行副本创建操作所形成的副本数据块;将所述副本数据块依次存储至缓存存储层所包含的不同缓存单元,并保证同一缓存单元不存在相同的副本数据块。7....

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:江苏安超云软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1