数据处理系统、方法、装置及存储介质制造方法及图纸

技术编号:28145429 阅读:27 留言:0更新日期:2021-04-21 19:29
本申请实施例公开了一种数据处理系统、方法、装置及存储介质,属于大数据技术领域。在本申请实施例提供的数据处理系统中,驱动端可以响应于数据处理请求向目标执行端下发RDD算子,基于该RDD算子所指示的数据处理流程,目标执行端会向自身所管理的多个块中各个块下发数据过滤算子,以将数据处理请求中的运算逻辑下推至各个块中。如此,在数据计算过程中,目标执行端仅仅需要基于各个块过滤后的数据进行数据计算即可,无需基于各个块中全部数据来进行数据计算,从而降低了数据计算的复杂度,进而提高了数据计算的效率。而提高了数据计算的效率。而提高了数据计算的效率。

【技术实现步骤摘要】
数据处理系统、方法、装置及存储介质


[0001]本申请实施例涉及大数据
,特别涉及一种数据处理系统、方法、装置及存储介质。

技术介绍

[0002]为了应对当前的各种类型的数据处理需求,数据处理系统应运而生。数据处理系统具体是一种处理数据的计算引擎。用户可以通过数据处理系统来触发了一个数据处理任务,然后由该数据处理系统执行该数据处理任务,并向用户返回数据处理结果。
[0003]相关技术中,Spark系统是面对大规模数据处理的一种数据处理系统。当通过Spark系统执行针对大规模数据的数据处理任务时,为了提高数据处理的效率,Spark系统在接收到数据处理任务时,先从存储系统中获取该数据处理任务所需的所有数据,并将所有数据放置在Spark系统的缓存中。然后对缓存中这些数据依次迭代进行处理,从而提高数据处理任务的执行效率。
[0004]在上述Spark系统中,对于大数据量的数据处理任务,加载至缓存的数据的数量将非常大,这样导致迭代过程中处理的数据量也非常大,使得后续的数据计算的过程的效率比较低。
专利技术内容
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理系统,其特征在于,所述处理处理系统包括多个执行端(executor)和驱动端(driver),所述多个执行端中每个执行端包括缓存区,所述缓存区中管理有多个块(block),所述多个块中每个块用于缓存一个弹性分布式数据集RDD中的部分数据;所述驱动端用于响应于数据处理请求确定目标执行端,向所述目标执行端下发弹性分布式数据集RDD算子,所述RDD算子指示所述目标执行端的数据处理流程和所述数据处理请求的运算逻辑;所述目标执行端用于基于所述RDD算子向所述目标执行端管理的多个块中每个块下发数据过滤算子,所述数据过滤算子指示所述数据处理请求的运算逻辑,以使每个块基于所述数据过滤算子对自身存储的数据进行过滤并返回数据过滤结果;所述目标执行端还用于接收所管理的多个块中每个块返回的数据过滤结果,基于每个块返回的数据过滤结果确定数据处理结果,向所述驱动端返回所述数据处理结果。2.如权利要求1所述的系统,其特征在于,所述驱动端包括RDD控制模块和分区RDD控制模块;所述RDD控制模块用于响应于所述数据处理请求,确定目标RDD,所述目标RDD包括所述数据处理请求所需的数据;所述RDD控制模块还用于基于所述目标RDD,确定目标分区RDD,所述目标分区RDD为所述目标RDD包括的多个分区RDD中的一个分区RDD;所述RDD控制模块还用于向所述目标分区RDD对应的分区RDD控制模块下发操作算子,所述操作算子指示所述分区RDD控制模块控制所述目标分区RDD对应的目标执行端;所述分区RDD控制模块用于基于所述目标分区RDD确定所述目标执行端,向所述目标执行端下发所述RDD算子。3.如权利要求1所述的系统,其特征在于,所述目标执行端还包括迭代器;所述驱动端用于:基于所述迭代器逐步迭代处理每个块返回的数据过滤结果中每条数据,在确定所有数据过滤结果中的数据迭代完成后,得到所述数据处理结果。4.如权利要求1至3任一所述的系统,其特征在于,所述驱动端还用于响应于所述数据处理请求确定目标RDD的标识,所述目标RDD包括所述数据处理请求所需的数据;所述驱动端还用于基于所述目标RDD的标识控制目标执行端将所述目标RDD中包括的数据加载至所述缓存区中块中。5.如权利要求1所述的系统,其特征在于,所述驱动端还用于:响应于缓存区配置指令,确定目标存储介质类型;基于所述目标存储介质类型配置所述缓存区。6.如权利要求1所述的系统,其特征在于,所述驱动端还用于:响应于缓存区配置指令,确定目标数据存储方式,所述目标数据存储方式为所述缓存区中的数据存储方式。7.一种数据处理方法,其特征在于,所述方法由数据处理系统中的驱动端来执行,所述处理处理系统还包括多个执行端,所述多个执行端中每个执行端包括缓存区,所述缓存区中管理有多个块,所述多个块中每个块用于缓存一个弹性分布式数据集RDD中的部分数据;
所述方法包括:所述驱动端响应于数据处...

【专利技术属性】
技术研发人员:刘中军王雪磊
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1