The invention proposes a HDFS copy management method based on the file access heat, which is based on the file access heat to calculate the number of copies of the file; based on the multiple file access relevance to the predicted hot files, a dynamic copy is placed; the copy is deleted as a result of the deletion of the copy files; the invention method uses the time sequence. The method of column analysis predicts the heat of file access, and gives the formula for calculating the heat of file access and the formula of the number of copies. It can support the adjustment of the number of copies of the dynamic hot spot files, solve the bottleneck problem of the hot file, and improve the service efficiency of the cluster.
【技术实现步骤摘要】
一种基于文件访问热度的HDFS副本管理方法
本专利技术属于大数据分析与数据挖掘
,具体涉及一种基于文件访问热度的HDFS副本管理方法。
技术介绍
随着Web技术的发展,大量数据也随之产生,面对海量数据的存储和分析等相关问题,云存储、云计算、大数据分析和数据挖掘等相关概念也被相应提出。目前来说,在大数据背景下,ApacheHadoop已经成为了分布式大数据处理技术的参考框架,能够有效提高海量数据处理的效率。在Hadoop框架中,数据副本管理技术一直以来都是研究的热点与难点。尽管在HDFS数据副本管理方面目前已经开展了大量的研究工作,但是如何设置合适的副本个数以适应文件访问热度的变化,同时如何放置副本以优化集群负载仍是需要研究并解决的关键问题。针对HDFS的副本管理问题,有两大关键点很值得研究,一是HDFS上文件的副本个数的问题,二是其上文件的副本放置的问题。HDFS默认的副本个数并不适用于所有应用,没有考虑到文件访问是一个变化的过程,某些文件仅在某一个时间段内会发生访问量突增或者突降的情况。HDFS默认的副本放置方法是在靠近客户端的机架上选择两个节点,其他机架选择一个DataNode节点进行文件的副本放置,但是这些方法并没有根据具体的应用,考虑到文件之间的Join访问关联性问题和节点上文件访问热度的负载情况,这些都严重影响集群的性能。对于以上问题,本专利技术展开了对HDFS副本管理方法的研究,提出了基于文件访问热度的HDFS副本管理方法及工具。并且开展了一系列的实验,对所提出的方法和相关算法进行了测试,实验结果表明本专利技术提出的方法使集群的并发性、任 ...
【技术保护点】
1.一种基于文件访问热度的HDFS副本管理方法,其特征在于,包括以下步骤:步骤1:基于文件访问热度计算文件的副本数量;步骤1.1:根据文件访问日志表,统计一段时间间隔time内的文件访问次数,确定文件访问热度;步骤1.2:建立矩阵形式的时间序列和文件访问热度的对应关系的时间序列文件A;步骤1.3:逐行提取时间序列文件A中文件fv的访问热度,进行时间序列分析,对时间序列进行单根检验,判断所提取的文件的访问热度序列是否稳定,若是,执行步骤1.4,否则,执行步骤1.5;步骤1.4:对平稳的时间序列进行ARMA模型匹配定阶,执行步骤1.6;步骤1.5:对非稳定的时间序列进行ARIMA模型匹配定阶,执行步骤1.6;步骤1.6:采用时间序列方法预测下一时刻文件fv的访问热度;步骤1.7:采用向上取整方式预测文件fv的副本个数
【技术特征摘要】
1.一种基于文件访问热度的HDFS副本管理方法,其特征在于,包括以下步骤:步骤1:基于文件访问热度计算文件的副本数量;步骤1.1:根据文件访问日志表,统计一段时间间隔time内的文件访问次数,确定文件访问热度;步骤1.2:建立矩阵形式的时间序列和文件访问热度的对应关系的时间序列文件A;步骤1.3:逐行提取时间序列文件A中文件fv的访问热度,进行时间序列分析,对时间序列进行单根检验,判断所提取的文件的访问热度序列是否稳定,若是,执行步骤1.4,否则,执行步骤1.5;步骤1.4:对平稳的时间序列进行ARMA模型匹配定阶,执行步骤1.6;步骤1.5:对非稳定的时间序列进行ARIMA模型匹配定阶,执行步骤1.6;步骤1.6:采用时间序列方法预测下一时刻文件fv的访问热度;步骤1.7:采用向上取整方式预测文件fv的副本个数当预测的文件的副本个数小于等于3时,保持该预测文件的副本数为3,若预测的文件的副本个数大于3时,增加该预测的文件的副本个数为步骤1.8:若预测的文件的副本个数增加,则执行步骤2;否则,执行步骤3;步骤2:基于多文件访问关联性对预测的热点文件进行动态副本放置;步骤2.1:根据文件访问日志表,计算任意两个文件fi和fj的访问关联度cor(fi,fj);步骤2.2:以具有访问关联性的副本放置后总的通信代价最小、同一文件的副本放置在通信代价较大的节点上为优化目标,构建考虑多文件访问关联性的热点文件动态副本放置问题的数学模型;步骤2.3:基于改进遗传算法求解热点文件动态副本放置问题的数学模型,得到最优的副本放置方案Y;步骤3:根据需要删除副本的文件对副本进行删除操作;步骤3.1:根据需要删除副本的文件V,通过文件信息表,获得需要删除副本的文件V所有不同副本的集合VRC;步骤3.2:对集合VRC中的副本文件按照访问热度从低到高排序;步骤3.3:删除集合VRC中访问热度最低的文件副本;步骤3.4:判断目前集合VRC中的副本个数是否减少到所预测的副本个数,若是则停止;否则返回步骤3.3。2.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法,其特征在于,所述文件fv,的访问热度公式如下所示:其中,为一段时间间隔time内的文件fv访问次数,λ为访问次数的经验临界值。3.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法,其特征在于,所述时间序列文件A的逻辑结构表示为Log=<row,T,D,fv>,其中,T={t1,t2,t3,...tx}为时间序列,x为访问热度观测时刻,row为时间序列文件中的行号,为文件访问热度集合,fv为文件名称。4.根据权利要求1所述的基于文件访问热度的HDFS副本管理方法,其特征在于,所述预测的文...
【专利技术属性】
技术研发人员:代钰,杨雷,郝琪,李学学,张斌,
申请(专利权)人:东北大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。