一种基于映射聚合的分布式计算作业的实现方法及装置制造方法及图纸

技术编号：12617407 阅读：108 留言：0更新日期：2015-12-30 14:29

一种基于映射聚合的分布式计算的实现方法和装置；所述实现方法至少包括两个映射计算任务；其中，还包括至少一个连接计算任务；所述连接计算任务包括如下步骤：接收来自分布式计算作业的至少两个映射计算任务的输出数据，作为连接计算任务的输入；对所述接收的输入数据执行连接运算；将所述连接运算的结果格式化为输出文件格式输出或存储至分布式文件系统中。本申请的方法使得在分布式计算平台的关系运算具有简单、灵活的特点。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及分布式计算系统，具体涉及一种基于映射聚合的分布式计算作业的实现方法及装置。
技术介绍
随着互联网的发展，人类正式进入了信息爆炸时期的。海量的信息在很多应用都会出现，比如一些社交网络应用中记录用户行为日志通常都是以GB、TB或PB为单位的，有的情况下数据量甚至更高。常规的单机计算模式已经不能支撑如此巨大的数据量。在传统的数据计算中，在一个机器上对数据进行计算对于机器当前的配置而言是完全可以支撑的。例如，常见的服务器内存是100G，把所有计算数据都缓存进内存进行科学计算是可以实现的。但是，对于一些应用的用户日志是以TB为单位的数据的情形，这些数据是不可能一次性的全部缓存进内存进行计算的；而即使可以对服务器的内存进行扩充，但是对硬件的要求非常高，运算耗时也非常长，也即运算代价是非常大的。此时一种可行的方案是通过一定的运算机制把计算任务分担到多台机器上，让每台机器都承担一部分的计算和数据存储的任务。这就降低了对单机的配置要求，可以使用普通的机器进行科学计算。也就是说，计算必须以分布式的把巨大的计算任务分成小的单机可以承受的计算任务。但是，分布式计算的开发以及维护复杂而多变，需要考虑的问题非常多，诸如，分布式计算时数据的拆分与分配，计算的合并，计算节点错误的处理，计算过程中的通信等。上述的开发工作，在每次计算时都需要开发人员从头统筹考虑，这对开发人员的要求是非常高的。基于此，分布式计算框架应运而生，开发人员通过分布式框架将计算的细节进行封装，并提供相应的接口，后续开发人员仅仅需要考虑与现有框架的匹配，在计算框架...

【技术保护点】
一种基于映射聚合的分布式计算的实现方法，所述实现方法至少包括两个映射计算任务；其特征在于，还包括至少一个连接计算任务；所述连接计算任务包括如下步骤：接收来自分布式计算作业的至少两个映射计算任务的输出数据，作为连接计算任务的输入；对所述接收的输入数据执行连接运算；将所述连接运算的结果格式化为输出文件格式输出或存储至分布式文件系统中。

【技术特征摘要】

【专利技术属性】
技术研发人员：路璐，梁迎辉，徐常亮，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人