一种面向Spark的基于数据感知的缓存替换方法及系统技术方案

技术编号：27935121 阅读：23 留言：0更新日期：2021-04-02 14:15

本发明专利技术公开了一种面向Spark的基于数据感知的缓存替换方法，属于软件技术领域，通过分析Spark框架的应用数据依赖关系和历史执行信息，获取数据块的被依赖次数、占用内存空间大小、计算用时和被引用次数，基于这些因素建立权重模型，计算出数据块的权重；将数据块权重值从小到大排序，选择权重值较小数据且与待缓存的数据块不属于同一个RDD的数据块进行缓存替换。本发明专利技术针对现有应用负载特征多样性，应用对内存资源需求的持续变化性，动态感知用户负载特征，并根据历史运行信息，计算得到的权重值，衡量缓存替换最合适的数据，并实时结合当前内存资源情况作出替换决定，实现Spark框架缓存管理机制的优化。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向Spark的基于数据感知的缓存替换方法及系统
本专利技术涉及一种面向Spark框架的基于数据感知的权重模型缓存替换方法及系统，属于软件

技术介绍
伴随海量数据递增及业务日益复杂，人们对数据处理的要求日益增加。相对于早期的通用并行分布式计算框架(例如Hadoop)，基于内存的分布式计算框架Spark在处理机器学习、图计算等领域中的迭代计算、交互式数据查询、并行计算等方面非常高效。尤其是基于内存的大数据处理平台往往通过缓存有效的数据在内存中以备复用来提高应用速度。面对CPU密集型应用场景时，创建对象过多会容易填满内存，引起GC(GarbageCollection)问题，系统会寻找不再使用的对象进行回收，降低程序执行性能。同时，当缓存的分区数据占满了内存，系统将启用缓存替换对分区数据作出替换决定：剔除旧数据缓存新数据。维持有价值的数据缓存在内存中，及时剔除不必要数据释放内存空间是提升应用程序执行性能的重要手段之一。缓存替换策略丰富多样，根据不同的历史信息(时间或者频率)预测未来数据的访问模式。LRU(LeastRecentlyUsed)表示基于最少最长时间未被访问的缓存数据块进行淘汰；LRU作是一种常用的缓存置换算法，被广泛应用系统设计中，同时也应用到各个计算框架或者平台上。Spark计算框架中的LRU算法核心思想就是当缓存空间被占满时，如果再次发生缓存失效，就将最近最少使用的数据从缓存空间中剔除以增加可用的缓存空间来缓存新数据。LRU仅仅考虑内存中的数据被访问的时间因素，将长期未被访问的数据被剔除。缓存...

【技术保护点】
1.一种面向Spark的基于数据感知的缓存替换方法，其特征在于，包括以下步骤：/n分析Spark框架的应用数据依赖关系和历史执行信息，获取数据块的被依赖次数、占用内存空间大小、计算用时和被引用次数；/n根据数据块的被依赖次数、占用内存空间大小、计算用时和被引用次数，计算内存中数据块的权重；/n对于待缓存的新数据块，选择与该新数据块不属于同一个抽象弹性分布式数据集RDD的内存中数据块进行缓存替换，替换步骤包括：/n按照内存中数据块权重值从小到大，选出权重值最小且非0的一个内存中数据块并释放，若释放出的内存空间小于该新数据块的占用内存空间大小，则继续释放下一个内存中数据块，直至释放出的内存空间大于等于该新数据块的占用内存空间大小，再将该新数据块缓存至内存，替换掉释放的上述内存中数据块；/n若依次释放出全部内存中数据块后，其释放的内存空间仍小于该新数据块的占用内存空间大小，则放弃缓存该新数据块，并将全部原内存中数据块返回至内存。/n

【技术特征摘要】
1.一种面向Spark的基于数据感知的缓存替换方法，其特征在于，包括以下步骤：
分析Spark框架的应用数据依赖关系和历史执行信息，获取数据块的被依赖次数、占用内存空间大小、计算用时和被引用次数；
根据数据块的被依赖次数、占用内存空间大小、计算用时和被引用次数，计算内存中数据块的权重；
对于待缓存的新数据块，选择与该新数据块不属于同一个抽象弹性分布式数据集RDD的内存中数据块进行缓存替换，替换步骤包括：
按照内存中数据块权重值从小到大，选出权重值最小且非0的一个内存中数据块并释放，若释放出的内存空间小于该新数据块的占用内存空间大小，则继续释放下一个内存中数据块，直至释放出的内存空间大于等于该新数据块的占用内存空间大小，再将该新数据块缓存至内存，替换掉释放的上述内存中数据块；
若依次释放出全部内存中数据块后，其释放的内存空间仍小于该新数据块的占用内存空间大小，则放弃缓存该新数据块，并将全部原内存中数据块返回至内存。

2.如权利要求1所述的方法，其特征在于，通过插桩方法获取数据块的被依赖次数、占用内存空间大小、计算用时和被引用次数。

3.如权利要求1所述的方法，其特征在于，计算内存中数据块权重的公式如下：

其中，Weighti表示第i个数据块的权重，costi表示第i个数据块的计算用时，refi表示第i个数据块的被依赖次数，sizei表示第i个数据块的占用内存空间大小，pastmodi表示第i个数据块的被引用次数。

4.如权利要求1所述的方法，其特征在于，对于数据块的计算用时，将计算用时更久的数据块缓存在内存中。

5.如权利要求1所述的方法，其特征在于，对于数据块的被依赖次数，若数据块只被一个作业计算所依赖，则不进行缓存；若数据块被两个或两个以上的不同作业计算所依赖，则进行缓存。

6.如权利要求1所述的...

【专利技术属性】
技术研发人员：黄涛，钟华，魏峻，李慧，郑莹莹，唐震，许利杰，王伟，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人