一种开源平台及其实现数据处理的方法技术

技术编号：6961359 阅读：233 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供了一种开源平台及其实现数据处理的方法，包括对分时准备的数据进行映射(Map)处理、组合处理和通用化简(Reduce)处理，并存储处理后的中间结果；在最后一个分时Map任务处理完成后，对处理后的中间结果进行用户Reduce处理。本发明专利技术不会给用户Map/Reduce程序带来任何变化，实现了无缝切换，而且，对Map任务进行分时处理，计算机集群的计算能力得到了高效、充分的利用，提高了资源利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机数据处理技术，尤指。
技术介绍
Map/Reduce分布式计算模型是一个编程过程，其主要目的是解决海量数据分析处理。Map/Reduce分布式计算模型，将数据分析流程分为两个阶段，其中，映射(Map)阶段用于数据分拣和分堆；化简(Reduce)阶段用于数据汇总。Map/Reduce分布式计算模型结合分布式存储技术(GFS)，实现了计算和存储资源的整合，达到了利用普通的PC机集群实现高性能计算的目的。其中，GFS是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。随着Map/Reduce分布式计算模型的应用，基于Map/Reduce分布式计算模型的 Hadoop开源平台应运而生，Hadoop是一个实现了 Map/Reduce计算模型的开源分布式并行编程框架，借助于Hadoop，程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。Hadoop开源平台简单方便的用户接口大大减低了分布式计算开发门槛，用户可以在不关心分布式技术细节的情况下就可以快速实现对海量数据的分析应用。但是，目前采用以上技...

【技术保护点】
１．一种开源平台，其特征在于，包括分时数据准备模块、用户映射处理模块、用户组合处理模块、通用化简处理模块、存储模块和统一化简处理模块，其中，分时数据准备模块，用于在预先设置的准备时长后，对上传的数据进行一次数据准备，每次分时数据准备完整后的分时映射任务输出给用户映射处理模块；用户映射处理模块，用于对来自分时数据准备模块输出的分时映射任务进行映射处理，并输出给用户组合处理模块；用户组合处理模块，用于对映射处理后的数据进行组合处理，并将处理后的数据输出给通用化简处理模块；通用化简处理模块，用于对来自用户组合处理模块输出的处理后的数据进行通用化简处理，并将处理后的中间结果存储到存储模块中；统一化简处...

【技术特征摘要】

【专利技术属性】
技术研发人员：崔晓春，刘奕慧，史晓峰，彭卓珍，杨博，自然，卜永忠，宫振飞，赵锐，张文郁，蔡斌，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：94

全部详细技术资料下载我是这个专利的主人