一种基于hadoop系统的数据处理和分发方法和系统技术方案

技术编号:14342334 阅读:38 留言:0更新日期:2017-01-04 14:08
本申请公开一种基于hadoop系统的数据处理和分发方法,其在数据规模超大时候,能够实现任务的执行不会受到系统内存和带宽的限制。其包括步骤:(1)将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;(2)进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。还提供了一种基于hadoop系统的数据处理和分发系统。

【技术实现步骤摘要】

本专利技术涉及大数据处理的
,尤其涉及一种基于hadoop系统的数据处理和分发方法,以及基于hadoop系统的数据处理和分发系统。
技术介绍
中国专利“一种Hadoop集群管理任务的分发方法和系统”(CN201510347803.9)给出了一种Hadoop集群管理任务的分发方法及装置。所述方法首先根据Hadoop组件的依赖关系对管理任务进行阶段规划,然后依次处理每一阶段中的管理任务,将同一阶段内配往同一组件节点的管理任务规划为一个子阶段;然后当进入一个调度周期后,扫描当前待调度的所有子阶段,并对其进行排序。最后根据预设筛选条件按照排序后的子阶段从前到后的顺序依次判断当前子阶段是否适合在当前调度周期内进行任务分发。在该分发方法中,子阶段作为最小的调度单元,并且同一个子阶段内部以及同一父阶段内的子阶段之间能够并行执行。但是,这种方法系统处理的目标是任务分发管理,任务之间有依赖关系,使用单机多线程技术进行实现,技术效果有一定的局限性,当数据规模超大时候,内存和带宽的限制将制约任务的执行。中国专利“一种基于Hadoop的数据处理方法及其系统”(CN201210448379.3)一种基于Hadoop的数据处理方法及其系统,用于数据服务器和MAP程序所在的集群数据服务器之间进行数据交互,包括:步骤S1、当数据服务器收到集群数据服务器的数据请求时,从所述数据请求中提取请求的需求字段同时将源数据转化为KEY/VALUE格式;步骤S2、所述数据服务器从转换为KEY/VALUE格式的数据中提取所述需求字段对应的数据,将所述需求字段对应的数据发送给所述集群数据服务器;步骤S3、当所述集群数据服务器接收到所述需求字段对应的数据时,根据预设的配置信息对所述需求字段对应的数据进行适配识别并进行下一步运算。但是,这种方法数据是被筛选后再进行交互的,数据不需要顺序编号,当数据规模超大时候,内存和带宽的限制将制约任务的执行。
技术实现思路
为克服现有技术的缺陷,本专利技术要解决的技术问题是提供了一种基于hadoop系统的数据处理和分发方法,其在数据规模超大时候,能够实现任务的执行不会受到系统内存和带宽的限制。本专利技术的技术方案是:这种基于hadoop系统的数据处理和分发方法,其包括以下步骤:(1)将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;(2)进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。本专利技术通过将海量数据进行多任务顺序编号,进行海量数据的多任务并发传输,从而在数据规模超大时候,能够实现任务的执行不会受到系统内存和带宽的限制。还提供了一种基于hadoop系统的数据处理和分发系统,该系统包括:编号模块,其配置来将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;并发传输模块,其配置来进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。附图说明图1所示为根据本专利技术的基于hadoop系统的数据处理和分发方法的流程图。具体实施方式如图1所示,这种基于hadoop系统的数据处理和分发方法,其包括以下步骤:(1)将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;(2)进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。本专利技术通过将海量数据进行多任务顺序编号,进行海量数据的多任务并发传输,从而在数据规模超大时候,能够实现任务的执行不会受到系统内存和带宽的限制。另外,所述步骤(1)包括以下分步骤:(1.1)启动多个任务各自处理一部分数据,完成部分编号,并记录最大值;(1.2)在部分编号的基础上,扫描各任务的编号数据,并加上前一个任务的最大值,输出数据,得到各个数据的唯一编号。另外,所述步骤(2)中传输时使用http协议、https协议、或ftp协议。另外,在执行所述步骤(1)之前,准备超大规模的数据源;配置好各个参数,包括顺序编号的hdfs存储路径、mapreduce的reduce数目、每传输n条数据任务就休息m毫秒,远程传输协议和地址。另外,该方法使用java编写mapreduce代码,从而实现本专利技术的步骤(1)、(2)的两部分任务的分布式工作。本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本专利技术的方法相对应的,本专利技术还同时包括一种基于hadoop系统的数据处理和分发系统,该系统通常以与方法各步骤相对应的功能模块的形式表示。该系统包括:编号模块,其配置来将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;并发传输模块,其配置来进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。本专利技术的有益效果如下:1.没有内存和带宽瓶颈;2.实现多任务并发传输;3.抗负载能力提高。以上所述,仅是本专利技术的较佳实施例,并非对本专利技术作任何形式上的限制,凡是依据本专利技术的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本专利技术技术方案的保护范围。本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201610685232.html" title="一种基于hadoop系统的数据处理和分发方法和系统原文来自X技术">基于hadoop系统的数据处理和分发方法和系统</a>

【技术保护点】
一种基于hadoop系统的数据处理和分发方法,其特征在于:其包括以下步骤:(1)将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;(2)进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。

【技术特征摘要】
1.一种基于hadoop系统的数据处理和分发方法,其特征在于:其包括以下步骤:(1)将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;(2)进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。2.根据权利要求1所述的基于hadoop系统的数据处理和分发方法,其特征在于:所述步骤(1)包括以下分步骤:(1.1)启动多个任务各自处理一部分数据,完成部分编号,并记录最大值;(1.2)在部分编号的基础上,扫描各任务的编号数据,并加上前一个任务的最大值,输出数据,得到各个数据的唯一编号。3.根据权利要求2所述的基于hadoop系统的数据处理和分发方法,其特征在于:所述步骤(2)中传输时使用http协议、https协议、...

【专利技术属性】
技术研发人员:孙超齐振华王俊邱鹿于勇新崔晶晶林佳婕
申请(专利权)人:北京集奥聚合科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1