基于MapReduce的数据处理方法、客户端和系统技术方案

技术编号:9738586 阅读:130 留言:0更新日期:2014-03-06 13:26
本发明专利技术公开了一种基于MapReduce的数据处理方法,包括:客户端查询并获取本次MapReduce计算需要处理的多个文件夹信息,其中,所述多个文件夹中存储着需要处理的数据文件;遍历所述多个文件夹,根据所述多个文件夹的数据文件生成不同的任务,并依此送入MapReduce中的Map程序中,直至读取完所有的数据文件,由Map程序依次对所述数据文件进行map计算。此外,还公开了客户端和系统。不需要和现有技术那样必须要先将数据预处理到同一个文件夹下,由此,计算效率较高。

【技术实现步骤摘要】
基于MapReduce的数据处理方法、客户端和系统
本专利技术属于一种基于MapReduce的数据处理方法、客户端和系统。
技术介绍
目前主流的大数据处理框架基本都是基于Apache的开源项目Hadoop进行开发,但是由于Hadoop本身所使用的MapReduce框架是基于HDFS定义的文件系统,所以在读取文件的时候对于输入路径有着一定的要求。并且由于MapReduce的处理流程属于顺序处理的流程,无法持续进行迭代的性质也给大数据的处理造成了一定的麻烦。目前MapReduce架构在读取输入文件夹的时候不支持多个文件夹内容读取,意味着所有的输入文件都必须要在同一个文件夹下。这样对于大部分应用来讲,若需要通过MapReduce来操作数据必须要先将数据预处理到同一个文件夹下,当遇到输入数据量级非常大的时候,预处理的时间则会超过数据正常处理计算的时间,进而导致程序处理效率低。比如,Mapper类从input split中读取一个个的record,然后依次调用Mapper的map函数,将结果输出。map的输出并不是直接写入硬盘,而是将其写入缓存memorybuffer ο当buffer本文档来自技高网...

【技术保护点】
一种基于MapReduce的数据处理方法,其特征在于,包括:客户端查询并获取本次MapReduce计算需要处理的多个文件夹信息,其中,所述多个文件夹中存储着需要处理的数据文件;遍历所述多个文件夹,根据所述多个文件夹的数据文件生成不同的任务,并依此送入MapReduce中的Map程序中,直至读取完所有的数据文件,由Map程序依次对所述数据文件进行map计算。

【技术特征摘要】
1.一种基于MapReduce的数据处理方法,其特征在于,包括: 客户端查询并获取本次MapReduce计算需要处理的多个文件夹信息,其中,所述多个文件夹中存储着需要处理的数据文件; 遍历所述多个文件夹,根据所述多个文件夹的数据文件生成不同的任务,并依此送入MapReduce中的Map程序中,直至读取完所有的数据文件,由Map程序依次对所述数据文件进行map计算。2.根据权利要求1所述的基于MapReduce的数据处理方法,其特征在于,进一步还包括: 获取所述多个文件夹的路径信息,根据所述多个路径信息遍历所述多个文件夹。3.根据权利要求1或2所述的基于MapReduce的数据处理方法,其特征在于,所述多个文件夹按照预设的命名规则进行命名,所述Map程序依次遍历所述多个文件夹,包括: 获取文件夹的最小命名和文件夹的最大命名,通过循环调用的依次遍历所述多个文件夹。4.根据权利要求1所述的基于MapReduce的数据处理方法,其特征在于,Map程序依次对所述数据文件进行map计算后, 输出的结果送入Reduce程序进行reduce计算。5.—种基于MapReduce的数据处理客户端,其特征在于,包括: 查询单元,用于查询并获取本次MapReduce计算需要处理的多个文件夹信息,其中,且每一个文件夹中都存储着需要处理的数据文件; 任务生成单元,用于遍历所述多个文件夹,根据所述多个文件夹的数据文件生成不同的任务,并依此送入MapReduce中的Map程序,直至读取完所有的数据文件。6.根据权利要求5所述的基于MapReduce的数据处理客户端,其...

【专利技术属性】
技术研发人员:王函王玮吴远青潘腾郭伟王旭东
申请(专利权)人:北京掌阔移动传媒科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1