一种基于Spark算子的序列化存储优化方法技术

技术编号：15690808 阅读：41 留言：0更新日期：2017-06-24 03:30

本发明专利技术公开了一种基于Spark算子的序列化存储优化方法，包括以下步骤：S1)使用ganglia检测应用执行过程中机器的内存使用量，如果检测到当前内存值正常，则继续监测，若检测到已达到指定阈值，则执行步骤S2)；S2)计算RDD的执行时间

A serialization memory optimization method based on Spark operator

The invention discloses a serialized storage optimization method based on Spark operator, which comprises the following steps: S1) machine implementation process using ganglia detection application memory usage, if the detected current memory is normal, then continue to monitor, if detected has reached the specified threshold, then executing step S2); S2) calculation the execution time of RDD

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark算子的序列化存储优化方法
本专利技术涉及大数据、内存计算领域，更为具体地讲，涉及一种自定义的序列化存储策略。
技术介绍
大数据时代的到来，也引领了大数据处理平台生态圈的不断更新。由于MapReduce框架仅支持Map和Reduce两种操作，迭代计算效率低下，在交互式处理及流式计算环境下具有局限性，于是，一种可同时进行批处理、流式计算、交互式计算的高效分布式计算框架Spark应运而生。该框架采用弹性分布式数据集(RDD)基于缓存进行迭代计算，以提高计算效率。大部分Spark程序都具有“内存计算”的天性，所以集群中的所有资源：CPU、网络带宽或者是内存都有可能成为Spark程序的瓶颈。由于在迭代计算中，要提高计算效率，最好是将数据全部加载进内存，但在大数据计算环境下，必然会有大的数据集存在，且缓存资源有限匮乏的问题，因此，数据集序列化存储成为关键。为了提升缓存利用率，需要在RDD序列化过程中保证选出的RDD对象是后面较少会参与计算的RDD，而让后面需要迭代计算或者多次使用的RDD尽量保留在缓存中，然而，由于在任务调度的过程中，需要根据不同的业务逻辑使用不同的算子去处理所得到的RDD集合，而由于不同算子的内部实现不同，导致的在RDD数据集转换的过程中执行效率不同，而数据集本身的大小也不同，另外，RDD的生命周期即某一RDD数据集的使用次数，也对序列化存储策略的选择起到关键性的作用。因此，RDD序列化的选择会受到算子运行代价、RDD执行时间及RDD跨过的Action数量等因素的影响。在当今大数据时代，大型公司、企事业单位、政府等机构业务系统复杂，...
一种基于Spark算子的序列化存储优化方法

【技术保护点】
一种基于Spark算子的序列化存储优化方法，其特征在于：包括以下步骤：S1)检测应用执行过程中机器的内存使用量，如果检测到当前内存值正常，则继续监测，若检测到已达到指定阈值，则执行步骤S2)；S2)计算RDD的执行时间

【技术特征摘要】
1.一种基于Spark算子的序列化存储优化方法，其特征在于：包括以下步骤：S1)检测应用执行过程中机器的内存使用量，如果检测到当前内存值正常，则继续监测，若检测到已达到指定阈值，则执行步骤S2)；S2)计算RDD的执行时间RDD的执行效率和算子权值Wi；S3)根据RDD的执行时间RDD的执行效率和算子权值Wi得到已排序的RDD序列即序列化候选集合；S4)从序列化候选集合中选择值最小的进行序列化存储；S5)继续步骤1)，直到应用执行完毕。2.根据权利要求1所述的一种基于Spark算子的序列化存储优化方法，其特征在于：在步骤S2)中，所述执行时间通过公式(1)获得：其中，m表示第i个RDD总共有m个分区,Sij表示第i个RDD的第j个分区的大小,Pmem表示机器的处理能力。3.根据权利要求2所述的一种基于Spark算子的序列化存储优化方法，其特征在于：在步骤S2)中，RDD的执行效率通过公式(2)获得：

【专利技术属性】
技术研发人员：熊安萍，杨方方，邹洋，祝清意，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人