纠删码数据处理方法、装置及系统、存储介质、处理器制造方法及图纸

技术编号:34863614 阅读:17 留言:0更新日期:2022-09-08 08:07
本发明专利技术公开了一种纠删码数据处理方法、装置及系统、存储介质、处理器,涉及云计算领域。其中,该方法包括:将目标文件发送给目标处理装置进行第一纠删计算,其中,目标处理装置设置在分布式文件系统的客户端,用于按照预设的纠删算法进行纠删计算;接收目标处理装置对目标文件进行第一纠删计算得到的第一纠删码数据,其中,第一纠删码数据包括至少一个原始数据块以及至少一个校验数据块;确定目标文件在分布式文件系统中存储位置的位置信息;根据位置信息将第一纠删码数据存储到分布式文件系统中。本发明专利技术解决了相关技术中分布式系统通过纠删码的运算时,会占用较大的系统资源,给系统造成较大负担的的技术问题。统造成较大负担的的技术问题。统造成较大负担的的技术问题。

【技术实现步骤摘要】
纠删码数据处理方法、装置及系统、存储介质、处理器


[0001]本专利技术涉及云计算领域,具体而言,涉及一种纠删码数据处理方法、装置及系统、存储介质、处理器。

技术介绍

[0002]目前分布式文件系统(CEPH),通过纠删码(Erasure Coding,EC)实现数据的存储和读取。纠删码是一种编码容错技术,最早是在通信行业解决部分数据在传输中的损耗问题。其基本原理就是把传输的信号分段,加入一定的校验信号再让各段间发生相互关联,即使在传输过程中丢失部分信号,接收端仍然能通过算法将完整的信息计算出来。在数据存储中,纠删码将数据分割成片段,把冗余数据块扩展和编码,并将其存储在不同的位置,比如磁盘、存储节点或者其他地理位置。
[0003]图1是根据现有技术的一种分布式文件系统架构的示意图,如图1所示为现有技术中CEPH架构,CEPH包括存储集群(CEPH集群)和多个服务器,服务器中包括用户操作系统,用户操作系统包括CEPHclient,也即是分布式文件系统的客户端,CEPH存储集群包括CEPH监视器(Monitor)和多个OSD存储设备(Object Storage Device),OSD用于存储数据的存储单元。CEPH需要配置Object Size(数据块大小)的值,也就是每个Object数据块大小的最大值,一般情况下会设置为2M到4M。当一个数据文件(file文件)存进CEPH中时,会根据Object Size将file文件进行切分。若file文件的大小不足Object Size,则直接按原大小映射到一个Object数据块中;若file文件的大小大于Object Size,则file文件会被切分为若干个完整大小的Object数据块,和一个不完整大小的Object数据块。根据纠删码的参数设置(K,M;K为数据块个数,M为校验数据块),确定OSD set(数据存储位置的位置信息)的个数为K+M个,其中有一个主OSD,纠删码编码与解码的运算过程都是在主OSD做的。一个Object通过Crush算法找到主OSD,客户端完全写Object数据块到主OSD上。主OSD执行纠删码算法对Object进行计算,得到K个数据块和M个校验数据块。
[0004]图2是根据现有技术的分布式文件系统纠删码写数据的流程图,图3是根据现有技术的分布式文件系统纠删码读数据的流程图,目前CEPH纠删码读写流程如图2和图3所示,客户端通过CEPH监视器(Monitor)获取集群Map信息,根据crush算法找到主OSD,并将Object数据块写入。主OSD执行纠删码算法对Object数据块进行计算,得到K个数据块和M个校验数据块,并将K个数据块和M个校验数据块写入多个从OSD中。多个从OSD接收分块数据,在写入后每一个从OSD给主OSD发送一个Ack,确认已经写入。主OSD在接收到所有从OSD都已经写入的确认后,向客户端发送一个Ack,表示此Object数据块已经写入完毕。在读文件时,主OSD会收集相应从OSD上的数据块,然后在主OSD恢复出原Object数据块,发给客户端。主OSD会优先收集数据块进行拼接重建出原Object数据块,校验数据块用于恢复出丢失的数据块。纠删码能够降低冗余数据的开销,整体上能提高存储设备的可用空间,但是纠删码计算一个数据块时需要读出大量数据并通过网络传输。并且纠删码数据恢复时还会给系统带来巨大的负担。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种纠删码数据处理方法、装置及系统、存储介质、处理器,以至少解决相关技术中分布式系统通过纠删码的运算时,会占用较大的系统资源,给系统造成较大负担的的技术问题。
[0007]根据本专利技术实施例的一个方面,提供了一种纠删码数据处理方法,该方法包括:将目标文件发送给目标处理装置进行第一纠删计算,其中,所述目标处理装置设置在所述分布式文件系统的客户端,用于按照预设的纠删算法进行纠删计算;接收所述目标处理装置对所述目标文件进行第一纠删计算得到的第一纠删码数据,其中,所述第一纠删码数据包括至少一个原始数据块以及至少一个校验数据块;确定所述目标文件在分布式文件系统中存储位置的位置信息;根据所述位置信息将所述第一纠删码数据存储到所述分布式文件系统中。
[0008]进一步地,确定所述目标文件在所述分布式文件系统中存储位置的位置信息包括:通过分布式文件系统的存储集群的监视器,获取所述存储集群的第一集群拓扑结构,其中,所述存储集群包括多个存储设备以及所述监视器;根据数据分布算法,通过所述第一集群拓扑结构确定所述第一纠删码数据的存储位置的位置信息。
[0009]进一步地,根据所述位置信息将所述第一纠删码数据存储到所述分布式文件系统中包括:将所述第一纠删码数据的原始数据块或校验数据块,随机存储到所述位置信息对应的多个存储设备中,其中,所述位置信息所述原始数据块或所述校验数据块与存储设备的映射关系,多个存储设备分布在所述存储集群中;在接收到所述多个存储设备存储完成的完成消息的情况下,确定所述第一纠删码数据存储到所述分布式文件系统中。
[0010]进一步地,根据所述位置信息将所述第一纠删码数据存储到所述分布式文件系统中之后,所述方法还包括:根据所述分布式文件系统中存储的第一纠删码数据,更新所述集群拓扑结构。
[0011]进一步地,根据所述位置信息将所述第一纠删码数据存储到所述分布式文件系统中之后,所述方法还包括:响应所述目标文件的读请求,根据所述位置信息读取存储的第一纠删码数据,得到第二纠删码数据,其中,所述第二纠删码数据为所述第一纠删码数据的全部数据或部分数据;将所述第二纠删码数据发送给所述目标处理装置进行第二纠删计算;接收所述目标处理装置对所述第二纠删码数据进行第二纠删计算得到的目标文件。
[0012]进一步地,响应所述目标文件的读请求,根据所述位置信息读取存储的第一纠删码数据,得到第二纠删码数据包括:响应所述读请求,通过分布式文件系统的存储集群的监视器,获取所述存储集群的第二集群拓扑结构;根据所述数据分布算法,通过所述第二集群拓扑结构确定目标文件的第一纠删码数据存储位置的位置信息;根据所述位置信息读取所述第一纠删码数据得到第二纠删码数据。
[0013]根据本专利技术实施例的另一方面,还提供了一种纠删码数据处理装置,该装置包括:第一发送单元,用于将目标文件发送给目标处理装置进行第一纠删计算,其中,所述目标处理装置设置在所述分布式文件系统的客户端,用于按照预设的纠删算法进行纠删计算;第一接收单元,用于接收所述目标处理装置对所述目标文件进行第一纠删计算得到的第一纠
删码数据,其中,所述第一纠删码数据包括至少一个原始数据块以及至少一个校验数据块;确定单元,用于确定所述目标文件在分布式文件系统中存储位置的位置信息;存储单元,用于根据所述位置信息将所述第一纠删码数据存储到所述分布式文件系统中。
[0014]进一步地,读取单元,用于响应所述目标文件的读请求,根据所述位置信息读取存储的第一纠删码数据,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种纠删码数据处理方法,其特征在于,包括:将目标文件发送给目标处理装置进行第一纠删计算,其中,所述目标处理装置设置在分布式文件系统的客户端,用于按照预设的纠删算法进行纠删计算;接收所述目标处理装置对所述目标文件进行第一纠删计算得到的第一纠删码数据,其中,所述第一纠删码数据包括至少一个原始数据块以及至少一个校验数据块;确定所述目标文件在分布式文件系统中存储位置的位置信息;根据所述位置信息将所述第一纠删码数据存储到所述分布式文件系统中。2.根据权利要求1所述的方法,其特征在于,确定所述目标文件在所述分布式文件系统中存储位置的位置信息包括:通过分布式文件系统的存储集群的监视器,获取所述存储集群的第一集群拓扑结构,其中,所述存储集群包括多个存储设备以及所述监视器;根据数据分布算法,通过所述第一集群拓扑结构确定所述第一纠删码数据的存储位置的位置信息。3.根据权利要求2所述的方法,其特征在于,根据所述位置信息将所述第一纠删码数据存储到所述分布式文件系统中包括:将所述第一纠删码数据的原始数据块或校验数据块,随机存储到所述位置信息对应的多个存储设备中,其中,所述位置信息包括所述原始数据块或所述校验数据块与存储设备的映射关系,所述多个存储设备分布在所述存储集群中;在接收到所述多个存储设备存储完成的完成消息的情况下,确定所述第一纠删码数据存储到所述分布式文件系统中。4.根据权利要求3所述的方法,其特征在于,根据所述位置信息将所述第一纠删码数据存储到所述分布式文件系统中之后,所述方法还包括:根据所述分布式文件系统中存储的第一纠删码数据,更新所述集群拓扑结构。5.根据权利要求1至4中任一项所述的方法,其特征在于,根据所述位置信息将所述第一纠删码数据存储到所述分布式文件系统中之后,所述方法还包括:响应所述目标文件的读请求,根据所述位置信息读取存储的第一纠删码数据,得到第二纠删码数据,其中,所述第二纠删码数据为所述第一纠删码数据的全部数据或部分数据;将所述第二纠删码数据发送给所述目标处理装置进行第二纠删计算;接收所述目标处理装置对所述第二纠删码数据进行第二纠删计算得到的目标文件。6.根据权利要求5所述的方法,其特征在于,响应所述目标文件的读请求,根据所述位置信息读取存储的第一纠删码数据,得到第二纠删码数据包括:响应所述读请求,通过分布式文件系统的存储集群的监视器,获取所述存储集群的第二集群拓扑结构;根据数据分布算法,通过所述第二集群拓扑结构确定所述目标文件的第一纠删码数据存储位置的位置信息;根据所述位置信息读取所述第一纠删码...

【专利技术属性】
技术研发人员:余学山杨飘飘霍江游满欣
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1