分布式计算系统及其数据处理方法技术方案

技术编号:13044463 阅读:78 留言:0更新日期:2016-03-23 13:27
本发明专利技术涉及一种分布式计算系统及其数据处理方法,Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到的数据发送至混合存储模块中的SSD单元;SSD单元将缓存的数据发送至混合存储模块中的存储层单元进行存储。Spark平台模块接收查询指令,并经SSD单元从存储层单元获取与查询指令对应的数据后输出。与传统的分布式计算系统相比,在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上,引入SSD作为Spark计算的缓存层来补充内存的有限空间,既可以加快I/O吞吐,同时解决内存空间不足以应对大数据量的局限,实现分布式计算系统的高性能处理能力。

【技术实现步骤摘要】

本专利技术涉及数据处理
,特别是涉及一种分布式计算系统及其数据处理方法
技术介绍
数据作为企业最重要的资产,一直以来都是企业应用、技术、架构和服务等创新的源泉。随着信息数据化和互联网技术的发展,企业数据正在迅速增长,庞大而复杂的数据能带来远超传统数据的信息,同时也需要与传统数据截然不同的处理方式。Hadoop最核心的设计是分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduce计算模型。HDFS被设计部署在价格低廉的硬件上,依靠数据冗余达到高度容错,提供高吞吐量的数据访问,适合批量处理大量数据。MapReduce将复杂的计算过程抽象为多组map和reduce步骤,map和reduce各由多个mapper和reducer函数执行,将不同mapper和reducer分配至不同的计算节点,实现了在大型计算集群上的高效分布式计算处理。当用户要求Hadoop作为一个全栈平台,同时兼容批处理交互迭代式查询和流处理时,Hadoop架构的局限性日益显现。最大的瓶颈之一是MapReduce的大量中间结果需要向磁盘进行读写,当计算量大时,磁盘I/O(输入/输出)是显而易见的瓶颈,导致MapReduce不适合迭代式(Iterative)和交互式(Interactive)应用。传统的分布式计算系统受限于磁盘I/O而存在低性能问题。
技术实现思路
基于此,有必要针对上述问题,提供一种可实现高性能处理能力的分布式计算系统及其数据处理方法。一种分布式计算系统,包括Spark平台模块和混合存储模块,所述混合存储模块包括SSD单元和存储层单元,所述SSD单元连接所述Spark平台模块,所述存储层单元连接所述SSD单元,所述Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到的数据发送至所述SSD单元进行缓存,所述SSD单元将缓存的数据发送至所述存储层单元进行存储;所述Spark平台模块还用于接收查询指令,并经所述SSD单元从所述存储层单元获取与所述查询指令对应的数据后输出。一种分布式计算系统的数据处理方法,包括以下步骤:通过Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到的数据发送至混合存储模块中的SSD单元;通过所述SSD单元将缓存的数据发送至所述混合存储模块中的存储层单元进行存储;通过所述Spark平台模块接收查询指令,并经所述SSD单元从所述存储层单元获取与所述查询指令对应的数据后输出。上述分布式计算系统及其数据处理方法,Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到的数据并发送至混合存储模块中的SSD单元;SSD单元将缓存的数据发送至混合存储模块中的存储层单元进行存储。Spark平台模块接收查询指令,并经SSD单元从存储层单元获取与查询指令对应的数据后输出。与传统的分布式计算系统相比,在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上,引入SSD作为Spark计算的缓存层来补充内存的有限空间,既可以加快I/O吞吐,同时解决内存空间不足以应对大数据量的局限,实现分布式计算系统的高性能处理能力。附图说明图1为一实施例中分布式计算系统的结构图;图2为一实施例中分布式计算系统的示意图;图3为一实施例中分布式计算系统的数据处理方法的流程图。具体实施方式一种分布式计算系统,如图1所示,包括Spark平台模块120和混合存储模块130,混合存储模块130包括SSD(SolidStateDrives,固态硬盘)单元132和存储层单元134,SSD单元132连接Spark平台模块120,存储层单元134连接SSD单元132。Spark平台模块120利用大数据处理框架Spark作为计算引擎,根据获取到的数据信息进行处理后,将处理得到的数据发送至SSD单元132进行缓存,SSD单元132将缓存的数据发送至存储层单元134进行存储;Spark平台模块120还用于接收查询指令,并经SSD单元132从存储层单元134获取与查询指令对应的数据后输出。本实施例中在采用基于内存计算的大数据处理框架Spark来代替MapReduce作为计算引擎的基础上,引入价格约只有内存价格十分之一的SSD代替HDD(HardDiskDrive,机械硬盘)作内存之外的缓存,让SSD和内存共同组成混合存储体系,提升存储空间利用率和处理效率。存储层单元134具体可包括用于存储数据的存储元件。在其中一个实施例中,Spark平台模块120将数据发送至SSD单元132后,以行列混合存储的ORCFile格式进行缓存。ORCFile的前身是一种高效的数据存储结构RCFile(RecordColumnarFile),并被应用于后来发展为ApacheHive的Facebook的数据仓库中。RCFile更有效地满足基于MapReduce的数据仓库的四个关键需求,即快速加载数据、快速处理查询、高效利用存储空间和高度适应动态工作负载。RCFile的核心思想是首先把表水平切分成多个行组(rowgroups),然后组内按照列垂直切分,这样行组之内便按列存储。当一个行组内的所有列写到磁盘时,RCFile就会以列为单位对数据使用类zlib/lzo的算法进行压缩。当读取列数据的时候使用惰性解压策略(lazydecompression),也就是说用户的某个查询如果只是涉及到部分列,RCFile只会解压涉及到的列而跳过无关列。ORCFile的设计思想相似在RCFile的基础上做了优化,具体改进为:1)每个Sparktask只输出单个文件。2)文件中存储了一些轻量级的索引数据;3)基于数据类型的块模式压缩;4)用多个互相独立的RecordReaders并行读相同的文件;5)控制读写所需要的内存量。本实施例中使用针对SSD硬件特性而优化的存储格式,对存储在SSD单元132上的数据采用行列混合式文件(ORC)结构进行存储,充分发挥SSD硬件特性,提升处理性能和压缩空间。大幅提升大数据系统处理的性能。在其中一个实施例中,如图2所示,Spark平台模块120包括多个执行单元122,多个执行单元122均连接SSD单元132。通过多个执行单元122分别进行数据存储和读取操作,提高数据处理速度,且确保操作可靠性。在其中一个实施例中,混合存储模块130还包括文件系统API(Applicat本文档来自技高网...

【技术保护点】
一种分布式计算系统,其特征在于,包括Spark平台模块和混合存储模块,所述混合存储模块包括SSD单元和存储层单元,所述SSD单元连接所述Spark平台模块,所述存储层单元连接所述SSD单元,所述Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到的数据发送至所述SSD单元进行缓存,所述SSD单元将缓存的数据发送至所述存储层单元进行存储;所述Spark平台模块还用于接收查询指令,并经所述SSD单元从所述存储层单元获取与所述查询指令对应的数据后输出。

【技术特征摘要】
1.一种分布式计算系统,其特征在于,包括Spark平台模块和混合存储模
块,所述混合存储模块包括SSD单元和存储层单元,所述SSD单元连接所述
Spark平台模块,所述存储层单元连接所述SSD单元,
所述Spark平台模块利用大数据处理框架Spark作为计算引擎,将处理得到
的数据发送至所述SSD单元进行缓存,所述SSD单元将缓存的数据发送至所述
存储层单元进行存储;所述Spark平台模块还用于接收查询指令,并经所述SSD
单元从所述存储层单元获取与所述查询指令对应的数据后输出。
2.根据权利要求1所述的分布式计算系统,其特征在于,所述Spark平台
模块包括多个执行单元,所述多个执行单元均连接所述SSD单元。
3.根据权利要求1所述的分布式计算系统,其特征在于,所述混合存储模
块还包括文件系统API接口,所述SSD单元通过所述文件系统API接口与所述
Spark平台模块连接。
4.根据权利要求1所述的分布式计算系统,其特征在于,所述Spark平台
模块将数据发送至所述SSD单元后,以行列混合存储的ORCFile格式进行缓存。
5.根据权利要求1所述的分布式计算系统,其特征在于,还包括连接所述
Spark平台模块的数据接收模块,所述数据接收模块用于接收数据并发送至所述
Spark平台模块,以及接收所述查询指...

【专利技术属性】
技术研发人员:孙煜华毛为民张志亮陆宏治吴永欢梁哲辉
申请(专利权)人:广州供电局有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1