当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于文件访问热度的HDFS副本管理方法技术

技术编号:18591697 阅读:22 留言:0更新日期:2018-08-04 19:59
本发明专利技术提出一种基于文件访问热度的HDFS副本管理方法,基于文件访问热度计算文件的副本数量;基于多文件访问关联性对预测的热点文件进行动态副本放置;据需要删除副本的文件对副本进行删除操作;本发明专利技术方法利用时间序列分析方法对文件访问热度进行预测,并给出文件访问热度的计算公式以及副本个数的计算公式,能够支持动态热点文件副本个数的调整,解决热点文件的访问瓶颈的问题,提高集群的服务效率。

A HDFS replica management method based on file access heat

The invention proposes a HDFS copy management method based on the file access heat, which is based on the file access heat to calculate the number of copies of the file; based on the multiple file access relevance to the predicted hot files, a dynamic copy is placed; the copy is deleted as a result of the deletion of the copy files; the invention method uses the time sequence. The method of column analysis predicts the heat of file access, and gives the formula for calculating the heat of file access and the formula of the number of copies. It can support the adjustment of the number of copies of the dynamic hot spot files, solve the bottleneck problem of the hot file, and improve the service efficiency of the cluster.

【技术实现步骤摘要】
一种基于文件访问热度的HDFS副本管理方法
本专利技术属于大数据分析与数据挖掘
,具体涉及一种基于文件访问热度的HDFS副本管理方法。
技术介绍
随着Web技术的发展,大量数据也随之产生,面对海量数据的存储和分析等相关问题,云存储、云计算、大数据分析和数据挖掘等相关概念也被相应提出。目前来说,在大数据背景下,ApacheHadoop已经成为了分布式大数据处理技术的参考框架,能够有效提高海量数据处理的效率。在Hadoop框架中,数据副本管理技术一直以来都是研究的热点与难点。尽管在HDFS数据副本管理方面目前已经开展了大量的研究工作,但是如何设置合适的副本个数以适应文件访问热度的变化,同时如何放置副本以优化集群负载仍是需要研究并解决的关键问题。针对HDFS的副本管理问题,有两大关键点很值得研究,一是HDFS上文件的副本个数的问题,二是其上文件的副本放置的问题。HDFS默认的副本个数并不适用于所有应用,没有考虑到文件访问是一个变化的过程,某些文件仅在某一个时间段内会发生访问量突增或者突降的情况。HDFS默认的副本放置方法是在靠近客户端的机架上选择两个节点,其他机架选择一个DataNode节点进行文件的副本放置,但是这些方法并没有根据具体的应用,考虑到文件之间的Join访问关联性问题和节点上文件访问热度的负载情况,这些都严重影响集群的性能。对于以上问题,本专利技术展开了对HDFS副本管理方法的研究,提出了基于文件访问热度的HDFS副本管理方法及工具。并且开展了一系列的实验,对所提出的方法和相关算法进行了测试,实验结果表明本专利技术提出的方法使集群的并发性、任务执行的效率和集群的负载均衡情况上都有了很大的提高。
技术实现思路
针对现有技术的不足,本专利技术提出一种基于文件访问热度的HDFS副本管理方法,包括以下步骤:步骤1:基于文件访问热度计算文件的副本数量;步骤1.1:根据文件访问日志表,统计一段时间间隔time内的文件访问次数,确定文件访问热度;所述文件fv的访问热度公式如下所示:其中,为一段时间间隔time内的文件fv访问次数,λ为访问次数的经验临界值。步骤1.2:建立矩阵形式的时间序列和文件访问热度的对应关系的时间序列文件A;所述时间序列文件A的逻辑结构表示为Log=<row,T,D,fv>,其中,T={t1,t2,t3,...tx}为时间序列,x为访问热度观测时刻,row为时间序列文件中的行号,为文件访问热度集合,fv为文件名称。步骤1.3:逐行提取时间序列文件A中文件fv的访问热度,进行时间序列分析,对时间序列进行单根检验,判断所提取的文件的访问热度序列是否稳定,若是,执行步骤1.4,否则,执行步骤1.5;步骤1.4:对平稳的时间序列进行ARMA模型匹配定阶,执行步骤1.6;步骤1.5:对非稳定的时间序列进行ARIMA模型匹配定阶,执行步骤1.6;步骤1.6:采用时间序列方法预测下一时刻文件fv的访问热度;步骤1.7:采用向上取整方式预测文件fv的副本个数当预测的文件的副本个数小于等于3时,保持该预测文件的副本数为3,若预测的文件的副本个数大于3时,增加该预测的文件的副本个数为所述预测的文件fv的副本个数的计算公式如下所示:其中,为经验值常量,为向上取整符号。步骤1.8:若预测的文件的副本个数增加,则执行步骤2;否则,执行步骤3;步骤2:基于多文件访问关联性对预测的热点文件进行动态副本放置;步骤2.1:根据文件访问日志表,计算任意两个文件fi和fj的访问关联度cor(fi,fj);所述任意两个文件fi和fj的访问关联度cor(fi,fj)的计算公式如下所示:其中,WTime为时间间隔time的时间权重,取值为0~1,NTime(fi,fj)为时间间隔time内文件fi和fj被同一应用访问的次数,N(fi)为文件fi被访问的次数,N(fj)为文件fj被访问的次数。步骤2.2:以具有访问关联性的副本放置后总的通信代价最小、同一文件的副本放置在通信代价较大的节点上为优化目标,构建考虑多文件访问关联性的热点文件动态副本放置问题的数学模型;所述考虑多文件访问关联性的热点文件动态副本放置问题的数学模型的计算公式如下所示:其中,COR(bh,bh′)为副本bh和副本bh′的访问关联度,即副本bh所在文件和副本bh′所在文件的访问关联度,parallel(bh,bh′)为副本bh和副本bh′的并发度,bh、bh′∈B={b1,b2,...,bm}为需增加副本的文件块构成集合,m为需增加副本文件块个数,若副本bh和副本bh′属于同一个文件,则COR(bh,bh′)=0、parallel(bh,bh′)=0,COST(nodew,nodew′)为节点nodew和节点nodew′间的网络通信代价,nodew、nodew′∈NODE={node1,node2,....noder}为可放置副本的节点集合,Capacity(nodew)为剩余存储空间大小,Y={yhw,...,yh′w′,...,}为副本放置方案,yhw=1表示副本bh放置到节点nodew上,yhw=0表示副本bh未放置到节点nodew上,size(bh)表示数据块bh的大小。步骤2.3:基于改进遗传算法求解热点文件动态副本放置问题的数学模型,得到最优的副本放置方案Y;步骤2.3.1:染色体编码并初始化第一代种群,设定种群规模、适应度函数,设置迭代阈值;所述染色体编码采取如下方式:每个基因位对应副本放置方案Y中的一个元素,并采用随机初始化方式填补基因位,得到NN个基因;所述适应度函数如下所示:其中,α、β、γ为系统常量;步骤2.3.2:产生下一代种群:对上一代基因进行适应度评价,选择适应度排在K位以前的基因为精英基因,得到K个基因,对上一代基因中的非精英基因进行交叉变异操作,得到K′个基因,对所得到的K+K′个基因进行密度聚类,淘汰在聚类边界的K″个基因,即距离簇中心点较远的基因,将得到的K+K′-K″个基因遗传到下一代;步骤2.3.3:判断迭代次数是否达到预先设置迭代阈值,若是,对所得到的种群中的所有基因进行适应度计算,保留适应度最大的基因,即得到的最优的副本放置方案Y,执行步骤3,否则,返回步骤2.3.1。步骤3:根据需要删除副本的文件对副本进行删除操作;步骤3.1:根据需要删除副本的文件V,通过文件信息表,获得需要删除副本的文件V所有不同副本的集合VRC;步骤3.2:对集合VRC中的副本文件按照访问热度从低到高排序;步骤3.3:删除集合VRC中访问热度最低的文件副本;步骤3.4:判断目前集合VRC中的副本个数是否减少到所预测的副本个数,若是则停止;否则返回步骤3.3。本专利技术的有益效果:本专利技术提出一种基于文件访问热度的HDFS副本管理方法,本专利技术方法利用时间序列分析方法对文件访问热度进行预测,并给出文件访问热度的计算公式以及副本个数的计算公式,能够支持动态热点文件副本个数的调整,解决热点文件的访问瓶颈的问题,提高集群的服务效率。针对热点文件新增副本的放置问题,考虑了文件间访问关联度以及单个文件并发访问度问题,以减少关联副本访问通信代价和提高同一文件访问并发性为目标,建立了副本放置问题的数学模型,并给出了一种改进的带有精英策略的遗传算法实现对该问题的求解。该本文档来自技高网
...

【技术保护点】
1.一种基于文件访问热度的HDFS副本管理方法,其特征在于,包括以下步骤:步骤1:基于文件访问热度计算文件的副本数量;步骤1.1:根据文件访问日志表,统计一段时间间隔time内的文件访问次数,确定文件访问热度;步骤1.2:建立矩阵形式的时间序列和文件访问热度的对应关系的时间序列文件A;步骤1.3:逐行提取时间序列文件A中文件fv的访问热度,进行时间序列分析,对时间序列进行单根检验,判断所提取的文件的访问热度序列是否稳定,若是,执行步骤1.4,否则,执行步骤1.5;步骤1.4:对平稳的时间序列进行ARMA模型匹配定阶,执行步骤1.6;步骤1.5:对非稳定的时间序列进行ARIMA模型匹配定阶,执行步骤1.6;步骤1.6:采用时间序列方法预测下一时刻文件fv的访问热度;步骤1.7:采用向上取整方式预测文件fv的副本个数

【技术特征摘要】
1.一种基于文件访问热度的HDFS副本管理方法,其特征在于,包括以下步骤:步骤1:基于文件访问热度计算文件的副本数量;步骤1.1:根据文件访问日志表,统计一段时间间隔time内的文件访问次数,确定文件访问热度;步骤1.2:建立矩阵形式的时间序列和文件访问热度的对应关系的时间序列文件A;步骤1.3:逐行提取时间序列文件A中文件fv的访问热度,进行时间序列分析,对时间序列进行单根检验,判断所提取的文件的访问热度序列是否稳定,若是,执行步骤1.4,否则,执行步骤1.5;步骤1.4:对平稳的时间序列进行ARMA模型匹配定阶,执行步骤1.6;步骤1.5:对非稳定的时间序列进行ARIMA模型匹配定阶,执行步骤1.6;步骤1.6:采用时间序列方法预测下一时刻文件fv的访问热度;步骤1.7:采用向上取整方式预测文件fv的副本个数当预测的文件的副本个数小于等于3时,保持该预测文件的副本数为3,若预测的文件的副本个数大于3时,增加该预测的文件的副本个数为步骤1.8:若预测的文件的副本个数增加,则执行步骤2;否则,执行步骤3;步骤2:基于多文件访问关联性对预测的热点文件进行动态副本放置;步骤2.1:根据文件访问日志表,计算任意两个文件fi和fj的访问关联度cor(fi,fj);步骤2.2:以具有访问关联性的副本放置后总的通信代价最小、同一文件的副本放置在通信代价较大的节点上为优化目标,构建考虑多文件访问关联性的热点文件动态副本放置问题的数学模型;步骤2.3:基于改进遗传算法求解热点文件动态副本放置问题的数学模型,得到最优的副本放置方案Y;步骤3:根据需要删除副本的文件对副本进行删除操作;步骤3.1:根据需要删除副本的文件V,通过文件信息表,获得需要删除副本的文件V所有不同副本的集合VRC;步骤3.2:对集合VRC中的副本文件按照访问热度从低到高排序;步骤3.3:删除集合VRC中访问热度最低的文件副本;步骤3.4:判断目前集合VRC中的副本个数是否减少到所预测的副本个数,若是则停止;否则返回步骤3.3。2.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法,其特征在于,所述文件fv,的访问热度公式如下所示:其中,为一段时间间隔time内的文件fv访问次数,λ为访问次数的经验临界值。3.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法,其特征在于,所述时间序列文件A的逻辑结构表示为Log=<row,T,D,fv>,其中,T={t1,t2,t3,...tx}为时间序列,x为访问热度观测时刻,row为时间序列文件中的行号,为文件访问热度集合,fv为文件名称。4.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法,其特征在于,所述预测的文...

【专利技术属性】
技术研发人员:代钰杨雷郝琪李学学张斌
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1