【技术实现步骤摘要】
一种基于HDFS的云环境数据存储优化方法
本专利技术涉及数据存储的
,尤其涉及一种基于HDFS的云环境数据存储优化方法。
技术介绍
在当今的云环境中,数据以多样化的形式呈现爆炸式的增长,这些数据在经过处理、计算、存储以后,将以一种社会价值存在于生活的方方面面。如何对这些数据进行可靠的存储以保留其价值,成为当今数据时代的一大热门研究内容。在以云计算为基础的前提上,云存储是其所衍生出的一个新概念。云计算以其超大规模、虚拟化、高可靠性、通用性、极其廉价等优点成为当今世界热门的新型计算模式。而当云计算系统需要大量的存储设备对海量的、不同种类的数据进行存储以供其进行处理与运算时,在云计算系统的基础上则衍生了出云存储系统。云存储是通过网络,集群的应用以及分布式文件系统将大量不同种类存储设备集合起来进行数据的分布式存储,从而有效的对数据进行存储,共同对外提供安全可靠的数据存储业务以及数据访问功能。最为典型的云存储系统为HDFS分布式文件系统,HDFS以其对数据的高容错、高吞吐以及可部署在廉价设备上受到诸多研究者的关注。 >在现有技术中,HD本文档来自技高网...
【技术保护点】
1.一种基于HDFS的云环境数据存储优化方法,其特征在于,所述方法包括:/n将HDFS集群各个节点的元数据以及存储数据放入预创建的数据卷容器中;/n获取集群中各个节点的IP地址并将其告知给集群中的所有其余节点,以实现集群的正常建立与通信;/n分别计算各个物理机以及数据卷容器中HDFS集群节点的可用存储空间评估值;/n计算各个物理机的可用性值,并根据物理机的可用性值计算基于物理卷容器的HDFS集群节点的性能评估值;/n基于数据卷容器的HDFS集群接收客户端发来的数据块,NameNode将根据数据块备份数n返回对应数目的可用存储空间评估值最大的节点或性能评估值最大的集群节点作为 ...
【技术特征摘要】
1.一种基于HDFS的云环境数据存储优化方法,其特征在于,所述方法包括:
将HDFS集群各个节点的元数据以及存储数据放入预创建的数据卷容器中;
获取集群中各个节点的IP地址并将其告知给集群中的所有其余节点,以实现集群的正常建立与通信;
分别计算各个物理机以及数据卷容器中HDFS集群节点的可用存储空间评估值;
计算各个物理机的可用性值,并根据物理机的可用性值计算基于物理卷容器的HDFS集群节点的性能评估值;
基于数据卷容器的HDFS集群接收客户端发来的数据块,NameNode将根据数据块备份数n返回对应数目的可用存储空间评估值最大的节点或性能评估值最大的集群节点作为目标存储节点,以进行数据块副本的存储;
对待存储数据的数据属性信息增益比进行计算;
利用基于信息增益比与加权的KADC-KNN算法对HDFS集群中待存储的数据块进行划分;
使用FederationHDFS集群代替传统的HDFS集群,对于经过基于信息增益比与加权的KADC-KNN算法所划分完成的待存储数据块,以不同的存储策略存储进FederationHDFS集群当中。
2.如权利要求1所述的一种基于HDFS的云环境数据存储优化方法,其特征在于,所述将HDFS各节点数据放入数据卷容器,包括:
对于NameNode节点,本发明使用数据卷中的dfs.name.dir对NameNode节点存储HDFS集群文件目录树、元数据信息的本地系统路径进行系统路径修改,将本地系统路径修改为数据卷容器的路径,实现了将HDFS集群文件目录树以及元数据导入预创建的数据卷容器中;
对于DataNode节点,本发明使用数据卷中的dfs.data.dir对DataNode节点存储集群数据时的本地路径进行系统路径修改,将本地系统路径修改为数据卷容器的路径,实现了将HDFS集群各个数据节点的数据导入预创建的数据卷容器中。
3.如权利要求2所述的一种基于HDFS的云环境数据存储优化方法,其特征在于,所述获取集群中各个节点的IP地址并将其告知给集群中的所有其余节点,包括:
通过对容器集群中的各节点所分发的IP地址进行收集;
将所收集的IP地址与容器名进行映射,在收集映射完后分发到各个节点,使得各节点收到其他节点的IP地址与对应的容器名。
4.如权利要求3所述的一种基于HDFS的云环境数据存储优化方法,其特征在于,所述各个物理机以及数据卷容器中HDFS集群节点的可用存储空间评估值的计算过程为:
1)计算各个物理机以及数据卷容器中HDFS集群节点的可用存储空间:
rspx=tspx-uspx
mspx=min(rsp1,rsp2,...,rspy,...)
其中:
rspx为物理机rspi或集群节点rspj的可用存储空间;
tspx为物理机或集群节点的存储空间;
uspx为物理机或集群节点已经使用的存储空间;
mspx为物理机的最小可用存储空间以及集群节点的最小可用存储空间;
2)分别计算各个物理机与最小可用存储空间mspx的差值Mi(1≤i≤p)、集群节点与最小可用存储空间mspx的差值mj(1≤j≤d),其中,p表示物理机的个数,d表示集群节点的个数:
Mi=rspi-mspi
mj=rspj-mspj
3)计算各个物理机以及HDFS集群点的可用存储空间评估值PMi与dmj:
其中:
p为物理机的个数;
d为集群节点的个数。
5.如权利要求4所述的一种基于HDFS的云环境数据存储优化方法,其特征在于,所述根据物理机的可用性值计算基于物理卷容器的HDFS集群节点的性能评估值,包括:
根据物理机的存储空间、内存以及CPU的处理性能三方面,利用下式计算得到各个物理机的可用性值avabi:
avabi=PMi*cmemi*cproi
其中:
tomi为物理机的内存memi或者是物理机的CPU处理性能proi;
tommax为各个物理机当中内存或者CPU处理性能的最大值;
tommin为各个物理机当中内存或者CPU处理性能的最小值;
cmemi为经过ctomi数值处理的物理机内存;
cproi为经过ctomi数值处理的CPU处理性能;
根据集群节点的存储空间、内存以及访问连接数actnj,计算集群节点的性能指标值avadj:
计算HDFS集群节点性能评估值avaej:
其中:
avadj为集群节点的性能指标值;
avabi为物理机的可用值。
6.如权利要求5所述的一种基于HDFS的云环境数据存储优化方法,其特征在于,所述数据块副本的存储流程为:
(1)判断集群中的节点可用存储空间负载差值是否大于2G,如果大于则将第一个数据块副本存放于可用存储空间评估值dmj最大...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。