分布式计算系统及其数据处理方法技术方案

技术编号：13044463 阅读：78 留言：0更新日期：2016-03-23 13:27

本发明专利技术涉及一种分布式计算系统及其数据处理方法，Spark平台模块利用大数据处理框架Spark作为计算引擎，将处理得到的数据发送至混合存储模块中的SSD单元；SSD单元将缓存的数据发送至混合存储模块中的存储层单元进行存储。Spark平台模块接收查询指令，并经SSD单元从存储层单元获取与查询指令对应的数据后输出。与传统的分布式计算系统相比，在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上，引入SSD作为Spark计算的缓存层来补充内存的有限空间，既可以加快I/O吞吐，同时解决内存空间不足以应对大数据量的局限，实现分布式计算系统的高性能处理能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理
，特别是涉及一种分布式计算系统及其数据处理方法。
技术介绍
数据作为企业最重要的资产，一直以来都是企业应用、技术、架构和服务等创新的源泉。随着信息数据化和互联网技术的发展，企业数据正在迅速增长，庞大而复杂的数据能带来远超传统数据的信息，同时也需要与传统数据截然不同的处理方式。Hadoop最核心的设计是分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduce计算模型。HDFS被设计部署在价格低廉的硬件上，依靠数据冗余达到高度容错，提供高吞吐量的数据访问，适合批量处理大量数据。MapReduce将复杂的计算过程抽象为多组map和reduce步骤，map和reduce各由多个mapper和reducer函数执行，将不同mapper和reducer分配至不同的计算节点，实现了在大型计算集群上的高效分布式计算处理。当用户要求Hadoop作为一个全栈平台，同时兼容批处理交互迭代式查询和流处理时，Hadoop架构的局限性日益显现。最大的瓶颈之一是MapReduce的大量中间结果需要向磁盘进行读写，当计算量大时，磁盘I/O(输入/输出)是显而易见的瓶颈，导致MapReduce不适合迭代式(Iterative)和交互式(Interactive)应用。传统的分布式计算系统受限于磁盘I/O而存在低性能问题。
技术实现思路
基于此，有必要针对上述问题，...

【技术保护点】
一种分布式计算系统，其特征在于，包括Spark平台模块和混合存储模块，所述混合存储模块包括SSD单元和存储层单元，所述SSD单元连接所述Spark平台模块，所述存储层单元连接所述SSD单元，所述Spark平台模块利用大数据处理框架Spark作为计算引擎，将处理得到的数据发送至所述SSD单元进行缓存，所述SSD单元将缓存的数据发送至所述存储层单元进行存储；所述Spark平台模块还用于接收查询指令，并经所述SSD单元从所述存储层单元获取与所述查询指令对应的数据后输出。

【技术特征摘要】
1.一种分布式计算系统，其特征在于，包括Spark平台模块和混合存储模
块，所述混合存储模块包括SSD单元和存储层单元，所述SSD单元连接所述
Spark平台模块，所述存储层单元连接所述SSD单元，
所述Spark平台模块利用大数据处理框架Spark作为计算引擎，将处理得到
的数据发送至所述SSD单元进行缓存，所述SSD单元将缓存的数据发送至所述
存储层单元进行存储；所述Spark平台模块还用于接收查询指令，并经所述SSD
单元从所述存储层单元获取与所述查询指令对应的数据后输出。
2.根据权利要求1所述的分布式计算系统，其特征在于，所述Spark平台
模块包括多个执行单元，所述多个执行单元均连接所述SSD单元。
3.根据权利要求1所述的分布式计算系统，其特征在于，所述混合存储模
块还包括文件系统API接口，所述SSD单元通过所述文件系统API接口与所述
Spark平台模块连接。
4.根据权利要求1所述的分布式计算系统，其特征在于，所述Spark平台
模块将数据发送至所述SSD单元后，以行列混合存储的ORCFile格式进行缓存。
5.根据权利要求1所述的分布式计算系统，其特征在于，还包括连接所述
Spark平台模块的数据接收模块，所述数据接收模块用于接收数据并发送至所述
Spark平台模块，以及接收所述查询指...

【专利技术属性】
技术研发人员：孙煜华，毛为民，张志亮，陆宏治，吴永欢，梁哲辉，
申请(专利权)人：广州供电局有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人