【技术实现步骤摘要】
一种基于HDFS的动态副本管理方法
本专利技术涉及当前大数据Hadoop生态系统中HDFS领域,特别是涉及一种基于HDFS的动态副本管理方法。技术背景Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。GFS 也就是google File System, google公司为了存储海量搜索数据而设计的专用文件系统。随着互联网的快速发展,数据量呈现指数级增长,为了适应这种情况,如今已经出现了很多大的服务器架构如数据中心以及云计算。在大数据处理方面,Google的GFS为处理大文件提供了有效的方法,而Hadoop下的文件系统HDFS作为GFS开源实现,实现了 GFS的绝大多数功能,是在现阶段大数据处理领域内广泛使用的一种分布式并行文件系统,那么在并行文件系统中,副本是其重要的组成部分。设计分布式并行文件系统的重要的作用就是协调各个廉价低端的节点完成性能较高或工作量较大的任务,将可靠性差的节点组成一个高可靠性的系统,实现这一目标的途径既是建立副本,怎么样管理这些副本资源,以及副本存放策略,增减策略等,是分布式并行文件系 ...
【技术保护点】
一种基于HDFS的动态副本管理方法,包括副本放置策略、动态副本创建策略和动态副本删除策略,其特征在于:所述副本放置策略包括主副本缺省副本的放置策略以及其他副本的放置策略,是一种主动调平的策略,在副本创建开始充分考虑负载平衡的问题,主动地将副本放置在负载最轻的位置。
【技术特征摘要】
1.一种基于HDFS的动态副本管理方法,包括副本放置策略、动态副本创建策略和动态副本删除策略,其特征在于:所述副本放置策略包括主副本缺省副本的放置策略以及其他副本的放置策略,是一种主动调平的策略,在副本创建开始充分考虑负载平衡的问题,主动地将副本放置在负载最轻的位置。2.根据权利要求1所述的一种基于HDFS的动态副本管理方法,其特征在于:副本放置策略中,主副本以及缺省副本放置策略为:每个HDFS中的数据块,在文件被写入文件系统时,默认I个主副本和两个缺省副本,其中主副本和其中一个缺省副本保存在本地机架,另一个缺省副本放在除本地机架外其他任意一个机架上。3.根据权利要求2所述的一种基于HDFS的动态副本管理方法,其特征在于:机架内机器的选择有两个参数指标: I)已存储数据块多少 s' Cpu处理性能 其中,设第个i机器存储数据块的数目为Ni, cpu处理性能为CAi,设变量 4.根据权利要求1所述的一种基于HDFS的动态副本管理方法,其特征在于:所述副本放置策略中,其他副本是根据用户对文件的历史访问记录,选择访问次数超过设定阈值的热点数据对其创建的副本,具有动态创建的特性,放置策略为:其他副本的放置首先找出用户访问最多的机架,然后选择一台最合适的机器,此策略称为最佳机架策略,能将数据文件复制到最需要的地方,其中,每个机器都保存着每个文件的历史访问记录,记录中包括每个文件被请求的次数,每隔一定时间,检查历史访问记录查找是否有对某个文件的请求次数超过了事先指定的阈值,如果存在这样的文件,那么就计算总访问次数最多的那个机架,此机架被称为最佳机架,系统在此机架上...
【专利技术属性】
技术研发人员:孟祥飞,孙志云,吴楠,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。