一种HDFS中热点数据文件的动态副本创建方法和系统技术方案

技术编号：10528632 阅读：142 留言：0更新日期：2014-10-15 10:53

本发明专利技术提供了一种Hadoop分布式文件系统(HDFS)中热点数据文件的动态副本创建方法和系统，其中，所述方法包括：识别热点数据文件；对所述文件动态创建副本，包括：优先在对所述热点数据文件发生请求的本地节点创建所述热点数据文件的副本。本发明专利技术避免了数据文件副本大量移动带来的数据读取延迟和网络开销大。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种Hadoop分布式文件系统(HDFS)中热点数据文件的动态副本创建方法和系统，其中，所述方法包括：识别热点数据文件；对所述文件动态创建副本，包括：优先在对所述热点数据文件发生请求的本地节点创建所述热点数据文件的副本。本专利技术避免了数据文件副本大量移动带来的数据读取延迟和网络开销大。【专利说明】一种HDFS中热点数据文件的动态副本创建方法和系统
本专利技术涉及数据文件的副本创建，尤其涉及一种Hadoop分布式文件系统（HDFS) 中热点数据文件的动态副本创建方法和系统。
技术介绍
随着现代网络的发展，数据量剧增。为实现对海量数据量进行高效、可靠地处理，出现了 Hadoop集群，其由多台廉价机器作为集群节点搭建而成。Hadoop集群能够把应用程序分割成许多很小的工作单元，每个单元可以在任何集群节点上执行。此外，Hadoop还提供一个分布式文件系统HDFS用来在各个集群节点上存储数据，提供了对数据读写的高吞吐率。目前，HDFS在为节点配置数据文件副本时不区分冷热数据文件，对所有的数据文件均通过静态配置副本以保证容错性，一旦配置完成，集群启动后数据文件的副本数就一直保持配置值的副本数。并且，现有的静态配置的文件副本通常存储在固定的集群节点上，如果数据文件的处理请求不是发生在所述固定的集群节点上，需要从所述固定集群节点上存储的文件副本传输到请求发生的集群节点上，大量的数据移动也会增加数据读取延迟和网络开销。
技术实现思路
本专利技术提供了一种HDFS中热点数据文件的动...
一种HDFS中热点数据文件的动态副本创建方法和系统

【技术保护点】
一种HDFS中热点数据文件的动态副本创建方法，其特征在于，所述方法包括：识别热点数据文件；对所述文件动态创建副本，包括：优先在对所述热点数据文件发生请求的本地节点创建所述热点数据文件的副本。

【技术特征摘要】

【专利技术属性】
技术研发人员：郭美思，吴楠，
申请(专利权)人：浪潮北京电子信息产业有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人