一种Spark框架Shuffle过程中存储与计算分离的重构实现方法技术

技术编号：37270009 阅读：8 留言：0更新日期：2023-04-20 23:39

该专利主要针对Spark框架的Shuffle层进行存储和计算的分离，通过使用gRPC，将需要Shuffle的数据发送到Rocksdb数据库，将数据直接写进Rocksdb，并且进行Shuffle的聚合操作，再通过读取数据库的方式，将聚合的结果读出来，完成原Shuffle的一系列操作。相对于原Spark的操作，此方法在执行Shuffle的时候可以完全隔离内存和持久化操作，全部由Rocksdb进行替代，提升了性能，降低了分布式大数据处理的成本。的成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种Spark框架Shuffle过程中存储与计算分离的重构实现方法

[0001]此专利所属领域为信息技术，为计算机科学领域中人工智能与大数据方向的研究调查以及落地实施的专利技术型总结专利。本专利技术的领域为大数据处理，提出一种对原生Spark的shuffle(洗牌，本说明书中shuffle和洗牌具有相同含义)过程进行存储和计算的分离设计方法，对shuffle阶段的内存持久化进行，从整体上降低系统的内存使用，并且提升了一定的性能，降低了分布式数据处理的成本。

技术介绍

[0002]目前，在大数据领域，最常用的项目和科研大数据框架是Spark框架和Flink框架。在工程中，大数据的作用往往是为人工智能算法分析铺路的重要部分。在实时或离线的数据处理和分析中，将要对数据实施集中的数据清洗以及过滤操作，计算和处理人工智能的数据集。这是工程大数据开发的主要作用。
[0003]在执行Spark框架的Shuffle运算时，Shuffle的读取阶段会将内存和磁盘中的数据进行一个整合的过程，整合结束，会生成一个全新的RDD，而原本的数据也就通过key值，合并成了一个全新的数据类型，而Mapper到Shuffle的过程保证了每一个partition中的key都是完全相同的，之后再利用聚合的方法进行归并。这里主要存在的问题是，如果中间步骤产生的key杂乱无章，就会产生过多的partition，导致大量磁盘IO操作，带来很大的性能损耗。
[0004]目前国外有一些技术驱动的公司开始着手针对Spark的底层原理进行优化，主要优化...

【技术保护点】

【技术特征摘要】
1.通过引入独立的存储层对Spark框架shuffle过程中的存储与计算进行解耦重构。a)使用键值对类型的非关系型数据库Rocksdb集群来实现独立的存储层。b)使用Scheduler模块...

【专利技术属性】
技术研发人员：陈志，付一健，
申请(专利权)人：天津工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人