The invention discloses an erasure code archiving method based on SPARK flow calculation, which belongs to the field of computer storage. This invention selects the data blocks to be archived from the nodes of the cluster, constructs multiple RDD under the SPARK framework, and files the erasure code with RDD as the basic unit. The node of the data block in the RDD is responsible for the calculation task of the intermediate check block in the erasure code, and uses the pipeline form to send the middle from the first node to the rear node. The checkout block is checked, and the intermediate check block is updated by the middle check block and the computing power of the rear node, until the end node uses the intermediate check block to generate the final checkout block, and sends it to the checkpoint node of the cluster. The method uses Map/Reduce model to file erasure code under the SPARK large data processing framework. The archiving process is realized by pipelining, and the coding process is dispersed to multiple nodes, and the archiving performance is greatly improved.
【技术实现步骤摘要】
一种基于SPARK流式计算的纠删码归档方法
本专利技术属于计算机储存领域,更具体地,涉及一种基于SPARK流式计算的纠删码归档方法。
技术介绍
随着大数据、信息存储的发展,内存容量日益增大,新存储介质新技术不断更新,而应用程序处理数据量也大大增加,这对内存的的数据容错率、存储安全性和空间利用率提出了更高的要求。分布式存储集群中的数据,通常采用三副本冗余机制存储,并配合节点恢复策略使其能在失效后快速修复;相较于三副本冗余机制,纠删码具有更高的存储效率和可按需定制的容错能力。ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎,由伯克利大学推出的全新的统一数据处理框架,创新性的提出了RDD概念,一种新的抽象的弹性分布式数据集,可以实现在并行计算的各个阶段进行有效的数据分享。目前,在Hadoop集群中研究较多的归档方案是在磁盘上进行的,而随着集群中内存的扩大,且越来越多的应用程序扩展到集群的内存中去计算,因此磁盘上的归档方案远不能满足需求。当前集群中内存的归档方案就是将内存中的冷数据的冗余副本转换为纠删码存储,归档性能还有很大提升空间。
技术实现思路
针对现 ...
【技术保护点】
1.一种基于SPARK流式计算的纠删码归档方法,其特征在于,所述方法为:从集群的节点中选取要归档的数据分块在SPARK框架下组建多个RDD,以RDD为基本单元进行纠删码归档,RDD中数据分块所在节点承担各自纠删码中间校验分块的计算任务,并采用流水线形式,从首节点开始向后置节点下发中间校验分块,利用后置节点的中间校验分块和计算能力更新下发的中间校验分块,直到尾节点利用下发的中间校验分块生成最终校验分块,并发送给集群的校验节点。
【技术特征摘要】
1.一种基于SPARK流式计算的纠删码归档方法,其特征在于,所述方法为:从集群的节点中选取要归档的数据分块在SPARK框架下组建多个RDD,以RDD为基本单元进行纠删码归档,RDD中数据分块所在节点承担各自纠删码中间校验分块的计算任务,并采用流水线形式,从首节点开始向后置节点下发中间校验分块,利用后置节点的中间校验分块和计算能力更新下发的中间校验分块,直到尾节点利用下发的中间校验分块生成最终校验分块,并发送给集群的校验节点。2.根据权利要求1所述的一种基于SPARK流式计算的纠删码归档方法,其特征在于,所述方法具体包括以下步骤:(1)从集群的节点中选取要归档的数据分块组建多个RDD,归档采用(k+r,k)RS纠删码,每个RDD包含k个数据分块;(2)RDD中数据分块Di所在节点将Di划分为等大的数据子块Di,j,并依次指定相应的键值j;每个数据子块Di,j乘以RS编码子矩阵得到带键值的中间校验子块,将键值相同的中间校验子块相加合并得到新的中间校验子块;(3)将首节点的中间校验子块向后置节点发送;后置节点收到中间校验子块后将相同键值的中间校验子块合并更新中间校验子块,并继续向其后置节点...
【专利技术属性】
技术研发人员:黄建忠,曹强,谢长生,蔡奇,王爽,汤思雨,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。