一种HDFS副本再复制改进策略制造技术

技术编号:22564779 阅读:50 留言:0更新日期:2019-11-16 11:52
本发明专利技术公开了一种HDFS副本再复制改进策略,当元节点检测到数据节点无效时,执行HDFS副本再复制改进策略,包括获取失效数据节点上的副本数据块序列;计算副本数据块序列中所有副本数据块的访问热度值,按照访问热度值从大到小对副本数据块进行排序,得到新的副本数据块序列;基于节点负载动态加权评价模型,选取数据节点的复制起点和终点,将新的副本数据块序列中的所有副本数据块依次执行复制。

An improved strategy of HDFS replica re replication

The invention discloses an HDFS replica re replication improvement strategy. When the meta node detects that the data node is invalid, the HDFS replica re replication improvement strategy is executed, including obtaining the replica data block sequence on the failed data node; calculating the access heat value of all replica data blocks in the replica data block sequence, and sorting the replica data blocks according to the access heat value from large to small Based on the dynamic weighted evaluation model of node load, the start and end points of data node replication are selected, and all replica data blocks in the new replica data block sequence are replicated in turn.

【技术实现步骤摘要】
一种HDFS副本再复制改进策略
本专利技术属于分布式计算领域,具体为一种基于数据块热度的副本再复制策略,主要应用于副本技术即分布式数据复制技术。
技术介绍
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分可移植操作系统接口(POSIX)约束,来实现流式读取文件系统数据的目的。目前,HDFS副本再复制策略缺陷:HDFS集群运行时,数据节点会定期向元节点发送心跳信息,元节点通过心跳信息来检测数据节点是否发生错误,若元节点在约定周期内未收到来自某个数据节点的心跳信息,则将其标记为宕机,该数据节点上存储的副本数据不再有效,元节点不会再发I/O请求给它。这时元节点启动副本再复制操作,首先从缺损数据块的数据节点中随机挑选一个数据节点作为数据块再复制的起点,然后再从不包含这个数据块的数据节点中随机挑选一个数据节点作为复制终点,然后启动复制。本文档来自技高网...

【技术保护点】
1.一种HDFS副本再复制改进策略,当元节点检测到数据节点无效时,执行HDFS副本再复制改进策略,其特征在于:包括以下步骤:/n步骤1:获取失效数据节点上的副本数据块序列;/n步骤2:计算副本数据块序列中所有副本数据块的访问热度值,按照访问热度值从大到小对副本数据块进行排序,得到新的副本数据块序列;/n步骤3:基于节点负载动态加权评价模型,选取数据节点的复制起点和终点,将新的副本数据块序列中的所有副本数据块依次执行复制。/n

【技术特征摘要】
1.一种HDFS副本再复制改进策略,当元节点检测到数据节点无效时,执行HDFS副本再复制改进策略,其特征在于:包括以下步骤:
步骤1:获取失效数据节点上的副本数据块序列;
步骤2:计算副本数据块序列中所有副本数据块的访问热度值,按照访问热度值从大到小对副本数据块进行排序,得到新的副本数据块序列;
步骤3:基于节点负载动态加权评价模型,选取数据节点的复制起点和终点,将新的副本数据块序列中的所有副本数据块依次执行复制。


2.根据权利要求1所述的一种HDFS副本再复制改进策略,其特征在于:所述副本数据块的访问热度值由下式得到:
Ht(bj)=αHt-1(bj)+(1-α)At(bj),(2)



式中,At(bj)为t时刻副本数据块bj的访问请求到达数量,λj为单位时间内到达副本数据块bj的访问请求到达平均数量;
式中,Ht(bj)为t时刻副本数据块bj的访问热度,αHt-1(bj)为上一个时刻副本数据块bj的访问热度,α为上一时刻访问热度对当前访问热度的影响权重。


3.根据权利要求1所述的一种HDFS副本再复制改进策略,其特征在于:所述节点负载动态加权评价模型为:



式中,λ为综合权重,Score表示节点负载得分,xi为第i个负载指标,wi(xi)为第i个负载指标的权重:



式(7)中,ai为第i个负载指标的区间中间值,σi由确定。


4.根据权利要求3所述的一种HDFS副本再复制改进策略,其特征在于:所述节点负载动态加权评价模型的构建步骤为:
首先,对负载指标进行标准化处理,所述负载指标包括极小型负载指标和中间型负载指标;
所述极小型负载指标变换公式如下:






式中,ni是变换前的第i个指标,ni’是变换后的标准指标,Mi=max{ni},mi=min{ni};
所述中间型负载指标变换...

【专利技术属性】
技术研发人员:张静潘雨哲
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1