一种基于HDFS的数据均衡优化方法、系统终端及存储介质技术方案

技术编号:23604582 阅读:29 留言:0更新日期:2020-03-28 05:42
本发明专利技术提供一种基于HDFS的数据均衡优化方法、系统终端及存储介质,所述方法包括:初始化节点信息后,遍历各个节点,计算节点的剩余空间和平均剩余空间;计算平均剩余空间和各个节点的剩余空间的差值;获取集群的重新平衡阈值,根据所述差值与所述阈值计算迁移量并输出;根据各节点迁移量进行数据均衡,实现剩余空间的数据均衡。本发明专利技术提高了集群剩余空间的利用率,同时通过重新平衡阈值,给节点的迁移量提供可选择的范围,避免有些数据正被使用而无法进行迁移的情况。

A data balance optimization method, system terminal and storage medium based on HDFS

【技术实现步骤摘要】
一种基于HDFS的数据均衡优化方法、系统终端及存储介质
本专利技术大数据服务平台
,具体涉及一种基于HDFS的数据均衡优化方法、系统、终端及存储介质。
技术介绍
Hadoop是Apache旗下的一个开源分布式平台。以Hadoop文件系统(HDFS)和MapReduce计算模型为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。Hadoop中的HDFS具有高容错性,并且是基于Java语言开发的,这使得他可以部署在低廉的计算机集群中。Hadoop中HDFS的数据管理能力,和MapReduce处理任务时候的高效性使得他在分布式系统中十分流行。Hadoop的项目结构包含很多子项目,核心内容是HDFS和MapReduce。Hadoop的HDFS集群在使用一段时间后,各个数据节点均会出现磁盘使用不均衡的现象,也就是数据量层面的数据倾斜,这会造成不同节点间负载不均衡的问题,从而影响集群整体的运行效率。针对该种现象,HDFS有一个专门的工具来解决该类问题,即Balancer。但目前Hadoop版本中的Balancer工具的运本文档来自技高网...

【技术保护点】
1.一种基于HDFS的数据均衡优化方法,其特征在于,包括以下步骤:/n初始化节点信息后,遍历各个节点,计算节点的剩余空间和平均剩余空间;/n计算平均剩余空间和各个节点的剩余空间的差值;/n获取集群的重新平衡阈值,根据所述差值与所述阈值计算迁移量并输出;/n根据各节点迁移量进行数据均衡,实现剩余空间的数据均衡。/n

【技术特征摘要】
1.一种基于HDFS的数据均衡优化方法,其特征在于,包括以下步骤:
初始化节点信息后,遍历各个节点,计算节点的剩余空间和平均剩余空间;
计算平均剩余空间和各个节点的剩余空间的差值;
获取集群的重新平衡阈值,根据所述差值与所述阈值计算迁移量并输出;
根据各节点迁移量进行数据均衡,实现剩余空间的数据均衡。


2.根据权利要求1所述的一种基于HDFS的数据均衡优化方法,其特征在于,所述计算节点剩余空间和平均剩余空间,包括以下步骤:
获取各个节点的总空间和集群的使用率,计算各个节点的使用空间;
计算节点的总空间与节点的使用空间之差,得到各个节点的剩余空间;
计算各个节点的剩余空间之和,得到集群的总剩余空间;
根据集群总剩余空间和节点个数,得到平均剩余空间。


3.根据权利要求1所述的一种基于HDFS的数据均衡优化方法,其特征在于,所述获取集群的重新平衡阈值,根据所述差值与所述阈值计算迁移量并输出,包括以下步骤:
获取集群的重新平衡阈值;
计算所述差值的绝对值与所述阈值之差作为数据均衡的迁移量。


4.一种基于HDFS的数据均衡优化系统,其特征在于,包括:
数据获取单元,配置用于初始化节点信息后,遍历各个节点,计算节点剩余空间和平均剩余空间;
差值计算单元,配置用于计算平均剩余空间和各个节点剩余空间的差值;

【专利技术属性】
技术研发人员:朱永芳张东东
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1