一种基于Hadoop集群的超大文件并行数据块定位方法技术

技术编号：9872596 阅读：158 留言：0更新日期：2014-04-04 05:54

本发明专利技术公开了一种基于Hadoop集群的超大文件并行数据块定位方法，本发明专利技术是在Hadoop集群中应用Map/Reduce软件实现超大文件内多数据块定位的方法。本发明专利技术主要包括以下步骤：组建集群环境、构造序列文件、修改用户程序源代码和通过streaming方式调用用户程序，本发明专利技术通过控制Map的数量和序列，确定Map进程与多数据块之间的映射关系，并且可以定位数据块在文件中的位置，让指定Map进程处理指定数据块，同时本发明专利技术可以轻松实现超大文件的多数据块并行处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Hadoop集群的超大文件并行数据块定位方法
本专利技术涉及一种基于Hadoop（分布式处理大量数据的软件框架）集群的超大文件（超过百GB）并行数据块定位方法，属于大数据处理领域。
技术介绍
在高性能并行计算领域MapReduce海量数据处理框架应用广泛，通过廉价的普通计算机集群能得到过去只有昂贵大型服务器才拥有的大规模数据计算能力，而且在稳定性和扩展性等方面都优于传统的高性能计算方案。现在MapReduce模型被应用于天文信息计算处理、海量存储分析、病毒库存储、网络检索服务等方面，解决数据爆炸式增长与计算机存储能力和计算能力不足之间的矛盾。实际开发过程中，开发语言多种多样，而Streaming技术允许开发者使用任何编程语言实现的程序在HadoopMapReduce中使用，方便已有程序向Hadoop平台移植，大大减少了程序移植成本。Hadoop的HDFS（Hadoop分布式文件系统）具有高容错性的特点，它将数据以一个或多个副本的形式分散存储在多台机器上，可以存储海量数据，并且可靠性高，提供对数据快速的、可扩展的访问，适用于一次写入、多次读取的访问模式。HDFS上的文件被划分为块大小的多个分块，作为独立的存储单元，系统默认块大小为64MB，用户也可以指定块大小。在高性能计算中，有一类问题是多次处理同一个超大文件，每次处理的数据是大文件内以不同的偏移量开始的一段连续数据，并且每次运算之间相互独立，不存在依赖关系。此种计算模型在移植到Hadoop平台过程中，存储模型一般采用HDFS文件系统，计算模型一般采用HadoopStreaming，在不改动或修改极...
一种基于Hadoop集群的超大文件并行数据块定位方法

【技术保护点】
一种基于Hadoop集群的超大文件并行数据块定位方法，其特征在于包括步骤如下：步骤1：通过搭建Hadoop环境组建Hadoop集群，配置HDFS关键属性；步骤2：构造特定的序列文件；所述的特定序列文件的内容为整型数，每个整型数独占1行，序列文件中每行的值为每个map进程要处理的超大文件中的数据块的偏移量，序列文件的行数等于map进程的个数和需要处理的数据块的个数；构造序列文件的方法为如下方法的任意一种：（a）使用Microsoft?Office?Excel按列方式生成特定的序列，然后以列方式拷贝到文本文件中；（b）在vim编辑器命令模式下，键入命令生成特定的序列文件；（c）手动生成需要的不规则序列文件（d）通过批处理文件或脚本文件生成特定序列文件；步骤3：修改用户程序使用户程序能够接收由标准输入流传递的数据，将该数据转换成整型数据，并通过该整型数据设置程序中要读的超大文件中的数据块的起始地址；步骤4：通过Hadoop集群的streaming方式调用步骤（3）中修改后的用户程序和步骤（2）中的序列文件完成并行数据块的定位，完成并行数据定位的方法为：通过使用Hadoop集群的streami...

【技术特征摘要】
1.一种基于Hadoop集群的超大文件并行数据块定位方法，其特征在于包括步骤如下：步骤1：通过搭建Hadoop环境组建Hadoop集群，配置HDFS关键属性；步骤2：构造特定的序列文件；所述特定的序列文件的内容为整型数，每个整型数独占1行，序列文件中每行的值为每个map进程要处理的超大文件中的数据块的偏移量，序列文件的行数等于map进程的个数和需要处理的数据块的个数；构造序列文件的方法为如下方法的任意一种：(a)使用MicrosoftOfficeExcel按列方式生成特定的序列，然后以列方式拷贝到文本文件中；(b)在vim编辑器命令模式下，键入命令生成特定的序列文件；(c)手动生成需要的不规则序列文件；(d)通过批处理文件或脚本文件生成特定的序列文件；步骤3：修改用户程序使用户程序能够接收由标准输入流...

【专利技术属性】
技术研发人员：孙彦猛，苏丽，刘文俊，张博为，
申请(专利权)人：北京遥测技术研究所，航天长征火箭技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人