基于MapReduce的数据处理方法、客户端和系统技术方案

技术编号：9738586 阅读：130 留言：0更新日期：2014-03-06 13:26

本发明专利技术公开了一种基于MapReduce的数据处理方法，包括:客户端查询并获取本次MapReduce计算需要处理的多个文件夹信息，其中，所述多个文件夹中存储着需要处理的数据文件；遍历所述多个文件夹，根据所述多个文件夹的数据文件生成不同的任务，并依此送入MapReduce中的Map程序中，直至读取完所有的数据文件，由Map程序依次对所述数据文件进行map计算。此外，还公开了客户端和系统。不需要和现有技术那样必须要先将数据预处理到同一个文件夹下，由此，计算效率较高。

全部详细技术资料下载

【技术实现步骤摘要】
基于MapReduce的数据处理方法、客户端和系统
本专利技术属于一种基于MapReduce的数据处理方法、客户端和系统。
技术介绍
目前主流的大数据处理框架基本都是基于Apache的开源项目Hadoop进行开发，但是由于Hadoop本身所使用的MapReduce框架是基于HDFS定义的文件系统，所以在读取文件的时候对于输入路径有着一定的要求。并且由于MapReduce的处理流程属于顺序处理的流程，无法持续进行迭代的性质也给大数据的处理造成了一定的麻烦。目前MapReduce架构在读取输入文件夹的时候不支持多个文件夹内容读取，意味着所有的输入文件都必须要在同一个文件夹下。这样对于大部分应用来讲，若需要通过MapReduce来操作数据必须要先将数据预处理到同一个文件夹下，当遇到输入数据量级非常大的时候，预处理的时间则会超过数据正常处理计算的时间，进而导致程序处理效率低。比如，Mapper类从input split中读取一个个的record,然后依次调用Mapper的map函数,将结果输出。map的输出并不是直接写入硬盘，而是将其写入缓存memorybuffer ο当buffer本文档来自技高网...

【技术保护点】
一种基于MapReduce的数据处理方法，其特征在于，包括:客户端查询并获取本次MapReduce计算需要处理的多个文件夹信息，其中，所述多个文件夹中存储着需要处理的数据文件；遍历所述多个文件夹，根据所述多个文件夹的数据文件生成不同的任务，并依此送入MapReduce中的Map程序中，直至读取完所有的数据文件，由Map程序依次对所述数据文件进行map计算。

【技术特征摘要】
1.一种基于MapReduce的数据处理方法,其特征在于,包括: 客户端查询并获取本次MapReduce计算需要处理的多个文件夹信息，其中，所述多个文件夹中存储着需要处理的数据文件；遍历所述多个文件夹，根据所述多个文件夹的数据文件生成不同的任务，并依此送入MapReduce中的Map程序中，直至读取完所有的数据文件，由Map程序依次对所述数据文件进行map计算。2.根据权利要求1所述的基于MapReduce的数据处理方法,其特征在于,进一步还包括: 获取所述多个文件夹的路径信息，根据所述多个路径信息遍历所述多个文件夹。3.根据权利要求1或2所述的基于MapReduce的数据处理方法，其特征在于，所述多个文件夹按照预设的命名规则进行命名，所述Map程序依次遍历所述多个文件夹，包括: 获取文件夹的最小命名和文件夹的最大命名，通过循环调用的依次遍历所述多个文件夹。4.根据权利要求1所述的基于MapReduce的数据处理方法，其特征在于，Map程序依次对所述数据文件进行map计算后, 输出的结果送入Reduce程序进行reduce计算。5.—种基于MapReduce的数据处理客户端,其特征在于,包括: 查询单元，用于查询并获取本次MapReduce计算需要处理的多个文件夹信息，其中，且每一个文件夹中都存储着需要处理的数据文件；任务生成单元，用于遍历所述多个文件夹，根据所述多个文件夹的数据文件生成不同的任务，并依此送入MapReduce中的Map程序，直至读取完所有的数据文件。6.根据权利要求5所述的基于MapReduce的数据处理客户端,其...

【专利技术属性】
技术研发人员：王函，王玮，吴远青，潘腾，郭伟，王旭东，
申请(专利权)人：北京掌阔移动传媒科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人