当前位置: 首页 > 专利查询>天津大学专利>正文

基于贪心萤火虫算法的分布式文件系统存储优化节能方法技术方案

技术编号:14894975 阅读:164 留言:0更新日期:2017-03-29 10:15
一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法:建立HDFS集群存储数据块与DataNode节点的超图存储模型;依据存储数据块访问次数Nv确定各存储数据块的活跃副本所述活跃副本是处于活跃状态的DataNode节点上的存储数据块副本个数;建立HDFS活跃副本覆盖的超图横贯模型;求解超图存储模型的活跃副本覆盖极小集。本发明专利技术准确表述了存储数据块和DataNode节点间的多对多的关系,突破现有方法数据块的副本个数恒定的局限。在保证数据块可用性的前提下,使用贪心萤火虫算法求解超图模型的活跃副本覆盖极小集,依据极小覆盖集确定最优的DataNode节点开启集合,实现HDFS集群节能。

【技术实现步骤摘要】

本专利技术涉及一种分布式文件系统存储优化节能方法。特别是涉及一种用于Hadoop架构分布式存储的基于贪心萤火虫算法的分布式文件系统存储优化节能方法。
技术介绍
随着信息技术和新兴产业的快速发展,互联网、物联网和智能电网等业务的数据正以几何级数的形式快速增长,服务业、能源业、制造业、医疗卫生、科教文化等领域都积累了TB级、PB级甚至EB级的大数据。据统计,纽约证券交易所每天由于交易能产生1TB的数据,全球连锁超市沃尔玛每小时需处理100余万条用户请求,存储了超过2.5PB的数据,知名社交网络Facebook中现已存储超过了500亿张照片。IDC(InternetDataCenter,互联网数据中心)对于2007-2012年全球的数据量进行过统计,07年全球数据量总数约为165EB,12年时增长至2.7ZB,预计到2020年时数据总量会突破35ZB。斯坦福大学的研究表明,2010年全球数据中心的耗电量为2355亿kW·h,占据了全球电力消耗的1.3%左右,其中,美国国内的数据中心的耗电量,更是占到了全美电能消耗的2%,而且数据中心的能耗还在以每五年翻一番的速度增加。和美国的情况类似,中本文档来自技高网...

【技术保护点】
一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法,其特征在于,包括如下步骤:1)建立HDFS集群存储数据块与DataNode节点的超图存储模型;2)依据存储数据块访问次数Nv确定各存储数据块的活跃副本所述活跃副本是处于活跃状态的DataNode节点上的存储数据块副本个数;3)建立HDFS活跃副本覆盖的超图横贯模型;4)求解超图存储模型的活跃副本覆盖极小集,包括:(1)将目标函数转化为:其中,n为HDFS集群中DataNode节点的总数目,则萤火虫i的绝对亮度是一个n维的潜在解向量;(2)算法参数初始化,包括:萤火虫数目M,步长因子α,最大吸引度β0,最小吸引度βmin,介质吸收因子γ,最...

【技术特征摘要】
1.一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法,其特征在于,包括如下步骤:1)建立HDFS集群存储数据块与DataNode节点的超图存储模型;2)依据存储数据块访问次数Nv确定各存储数据块的活跃副本所述活跃副本是处于活跃状态的DataNode节点上的存储数据块副本个数;3)建立HDFS活跃副本覆盖的超图横贯模型;4)求解超图存储模型的活跃副本覆盖极小集,包括:(1)将目标函数转化为:其中,n为HDFS集群中DataNode节点的总数目,则萤火虫i的绝对亮度是一个n维的潜在解向量;(2)算法参数初始化,包括:萤火虫数目M,步长因子α,最大吸引度β0,最小吸引度βmin,介质吸收因子γ,最大迭代次数maxGeneration;(3)随机生成M×n的0/1矩阵作为M只萤火虫的初始位置,依据目标函数计算M只萤火虫的绝对亮度I0,I0=Maxf,选出目标函数值最大位置记为最佳位置最大函数值记为最优解gbest;(4)计算萤火虫i与萤火虫j之间的距离rij,计算萤火虫i对萤火虫j的吸引度βij(rij),依据更新萤火虫位置,由于采用二进制编码时仅有0/1两种状态,故以0.5为界,若解向量的第a个元素其中,a=1,2,…,n,则令反之,若则令(5)依据贪心策略搜索解向量,通过增开DataNode节点使不可行解变成可行解,同时在保证解向量为可行解前提下,增加集群的节能效果;(6)对于二进制编码方式下的可行解,让所述的可行解在一定概率下发生变异,形成新一代种群;(7)判断是否达到最大迭代次数maxGeneration,若是则跳转至第(8)步,否则跳转回第(4)步,进行下一轮搜索;(8)输出最佳位置和最优解gbest。2.根据权利要求1所述的一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法,其特征在于,步骤1)包括:(1)映射DataNode节点为超图H的顶点X,映射数据块种类为超边E,第k种数据块和第k种数据块的多个副本被存储在不同机架的不同DataNode节点上,即表示为其中,xi,xj,xk,xd分别代表存储的DataNode节点,超边所包含的节点个数称为超边的秩,r(Ek),即为第k种数据块所占据的不同DataNode数目;(2)用关联矩阵A(aij)数学表述超图H,其中A中的m列分别代表超图H中的m条边E1,E2,…,Em,即集群中存储的m种数据块,n行分别代表H的n个顶点x1,x2,…,xn,即HDFS集群中的n个DataNode节点,当xi∈Ej时,aij=1,反之,当时,aij=0;(3)计算超图H中与顶点xi连接的超边E的个数,记为该顶点xi的度dH(xi)。3.根据权利要求1所述的一种基于贪心萤火虫算法的分布式文件系统存储优化节能方法,其特征在于,步骤2)包括:(1)查阅HDFS集群存储数据块的访问日志,统计所述HDFS集群存储数据块的访问次数Nv;(2)在满足HDFS集群...

【专利技术属性】
技术研发人员:杨挺赵睿盆海波张亚健牛宇卿
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1