一种基于hadoop系统的数据处理和分发方法和系统技术方案

技术编号:14342334 阅读:65 留言:0更新日期:2017-01-04 14:08
本申请公开一种基于hadoop系统的数据处理和分发方法,其在数据规模超大时候,能够实现任务的执行不会受到系统内存和带宽的限制。其包括步骤:(1)将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;(2)进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。还提供了一种基于hadoop系统的数据处理和分发系统。

【技术实现步骤摘要】

本专利技术涉及大数据处理的
,尤其涉及一种基于hadoop系统的数据处理和分发方法,以及基于hadoop系统的数据处理和分发系统。
技术介绍
中国专利“一种Hadoop集群管理任务的分发方法和系统”(CN201510347803.9)给出了一种Hadoop集群管理任务的分发方法及装置。所述方法首先根据Hadoop组件的依赖关系对管理任务进行阶段规划,然后依次处理每一阶段中的管理任务,将同一阶段内配往同一组件节点的管理任务规划为一个子阶段;然后当进入一个调度周期后,扫描当前待调度的所有子阶段,并对其进行排序。最后根据预设筛选条件按照排序后的子阶段从前到后的顺序依次判断当前子阶段是否适合在当前调度周期内进行任务分发。在该分发方法中,子阶段作为最小的调度单元,并且同一个子阶段内部以及同一父阶段内的子阶段之间能够并行执行。但是,这种方法系统处理的目标是任务分发管理,任务之间有依赖关系,使用单机多线程技术进行实现,技术效果有一定的局限性,当数据规模超大时候,内存和带宽的限制将制约任务的执行。中国专利“一种基于Hadoop的数据处理方法及其系统”(CN201210448379.3)一种基本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201610685232.html" title="一种基于hadoop系统的数据处理和分发方法和系统原文来自X技术">基于hadoop系统的数据处理和分发方法和系统</a>

【技术保护点】
一种基于hadoop系统的数据处理和分发方法,其特征在于:其包括以下步骤:(1)将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;(2)进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。

【技术特征摘要】
1.一种基于hadoop系统的数据处理和分发方法,其特征在于:其包括以下步骤:(1)将海量数据进行多任务顺序编号,以便使每个数据的编号唯一;(2)进行海量数据的多任务并发传输,启动多个任务各自传输一部分带编号数据。2.根据权利要求1所述的基于hadoop系统的数据处理和分发方法,其特征在于:所述步骤(1)包括以下分步骤:(1.1)启动多个任务各自处理一部分数据,完成部分编号,并记录最大值;(1.2)在部分编号的基础上,扫描各任务的编号数据,并加上前一个任务的最大值,输出数据,得到各个数据的唯一编号。3.根据权利要求2所述的基于hadoop系统的数据处理和分发方法,其特征在于:所述步骤(2)中传输时使用http协议、https协议、...

【专利技术属性】
技术研发人员:孙超齐振华王俊邱鹿于勇新崔晶晶林佳婕
申请(专利权)人:北京集奥聚合科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1