一种基于Hadoop的云平台存储方法技术

技术编号:26303968 阅读:36 留言:0更新日期:2020-11-10 19:58
本发明专利技术涉及一种基于Hadoop的云平台存储方法,属于大数据处理领域。本方法在Hadoop集群上以HDFS分布式文件系统存储数据,所搭建的Hadoop平台通过SSH网络协议进行通信,集群中的每台机器都可以对这个平台进行访问。用户通过客户端软件对底层的数据块进行操作,操作信息通过底层的HDFS之间的通信连接来完成。用户不需要了解底层是如何工作的,就可以满足自己的需要。同样,开发人员也不需要对底层的磁盘、服务器等基础设施进行搭建和管理,而只需对云存储服务平台进行有效的维护和管理,致力于平台上的应用开发,以及云存储文件系统的优化,就足以满足用户的现实需求了。

【技术实现步骤摘要】
一种基于Hadoop的云平台存储方法
本专利技术涉及大数据处理领域,涉及云平台存储方法,尤其是一种基于Hadoop的云平台存储方法。
技术介绍
随着网络技术和通信技术的迅速发展,人类社会已经步入了大数据时代,人们也越来越关注大数据的处理和分析。大数据,也称为巨量数据、海量数据,是由数量巨大、结构复杂、类型众多的数据所构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的集成共享、交叉复用形成的智力资源和知识服务能力。大数据已经在生物学、天文学、物理学、环境生态学等领域,以及通讯、金融经济、军事等行业存在已久,而近年来,由于互联网和通讯信息行业的发展,大数据越来越受到人们的关注。互联网公司在日常运营中产生的数据规模极其庞大,以往数据的计量单位G或T渐渐不能满足需要,现在统计大数据需要使用P、E或Z作为计量单位。面对如此庞大的数据量,传统的数据处理方式也越来越不能满足人们的需要,云计算应运而生。云计算是在分布式计算、网格计算、并行计算等方法的基础上提出的一种新型计算模型,是一种新兴的共享基础架构的方法。现代社会生活已经与互联网本文档来自技高网...

【技术保护点】
1.一种基于Hadoop的云平台存储方法,其特征在于:在Hadoop集群上以HDFS分布式文件系统存储数据,所搭建的Hadoop平台通过SSH网络协议进行通信,集群中的每台机器都可以对这个平台进行访问;用户通过客户端软件对底层的数据块进行操作,操作信息通过底层的HDFS之间的通信连接来完成;用户不需要了解底层是如何工作的,开发人员也不需要对底层的磁盘、服务器等基础设施进行搭建和管理。/n

【技术特征摘要】
1.一种基于Hadoop的云平台存储方法,其特征在于:在Hadoop集群上以HDFS分布式文件系统存储数据,所搭建的Hadoop平台通过SSH网络协议进行通信,集群中的每台机器都可以对这个平台进行访问;用户通过客户端软件对底层的数据块进行操作,操作信息通过底层的HDFS之间的通信连接来完成;用户不需要了解底层是如何工作的,开发人员也不需要对底层的磁盘、服务器等基础设施进行搭建和管理。


2.根据权利要求1所述的基于Hadoop的云平台存储方法,实现的具体步骤如下:
(1)文件上传:
(a)客户端调用FileSystem.create()方法创建一个DistributedFileSystem对象,这个对象将数据流管道中的数据写入到HDFS的文件中;
(b)向远程的NameNode发起一个RPC请求,由DistributedFileSystem调用create()函数在文件系统的命名空间中新建文件,NameNode会检查要创建的文件是否存在,以及创建者是否有权限进行操作,若不合要求则向客户端抛出异常;
(c)开始写入数据,由FSDataOutputStream对象创建一个DFSoutPutstream对象,负责DataNode和NameNode之间的通信;
(d)当客户端开始写入文件时,DFSoutPutStream会将文件切分成多个packets,在内部以数据队列“dataqueue”的形式管理这个数据包,并向NameNode申请新的blocks,获取存储这个副本的合适的DataNode列表,列表的大小根据NameNode中replication的设置而定;
(e)以管道的形式将数据包写入所有的副本中,DFSoutPutstream把数据包以流的方式写入第一个DataNode,再将其传递给管道中的下一个DataNode,直到最后一个DataNode;
(f)最后一个DataNode成功存储后会返回一个ackpacket,并将其通过管道传递给客户端,DFSoutPutstream内部维护着ackqueue,在成功收到DataNode返回的确认包后会从确认队列中移除相应的数据包;
(g)如果传输过程中有某个DataNode出现了故障,当前的管道就会关闭,将出现故障的DataNode从管道中移除,剩余的数据则继续在剩下的DataNode中以管道的形式传输,同时NameNode也会分配一个新的DataNode;
(h)客户端写入数据完成后,调用close()函数关闭数据流;
(2)文件下载:
(a)调用FileSystem对象中的open()方法,向远程的NameNode发起一个RPC请求;NameNode会根据请求返回部分或全部的文件数据块裂变,对于每个数据块,NameNod...

【专利技术属性】
技术研发人员:张中伟王佳琪俞师畅
申请(专利权)人:天津科技大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1