数据处理方法、装置、计算设备及存储介质制造方法及图纸

技术编号:22022144 阅读:35 留言:0更新日期:2019-09-04 01:15
本申请公开了数据处理方法、装置、计算设备及存储介质。其中,一种数据处理方法,包括:获取数据处理请求;生成与所述数据处理请求对应的执行计划,所述执行计划包括树形结构,其中,每个节点用于描述一个数据操作;针对所述执行计划中每个节点,生成与该节点描述的数据操作有关的一个弹性分布式数据集;在确定对所述执行计划中各节点对应的弹性分布式数据集进行重分区操作时,根据所述各节点对应的弹性分布式数据集之间的依赖关系,执行所述重分区操作。

Data Processing Method, Device, Computing Equipment and Storage Media

【技术实现步骤摘要】
数据处理方法、装置、计算设备及存储介质
本申请涉及大数据
,尤其涉及数据处理方法、装置、计算设备及存储介质。
技术介绍
随着互联网的发展,各种大数据平台被广泛应用。大数据平台通常可以将大数据划分成数据块,然后利用分布式方式对各数据块进行处理。目前,大数据平台通常采用固定分区方式对大数据进行分块。固定分区方式可以根据系统默认设置或者用户指定分区数,对大数据进行划分。然而,目前的分区方式的合理性有待提高。
技术实现思路
本申请提出了一种数据处理方案,能够挺高分区合理性,从而提高数据处理效率。根据本申请一方面,提供一种数据处理方法,所述方法包括:获取数据处理请求;生成与所述数据处理请求对应的执行计划,所述执行计划包括树形结构,其中,每个节点用于描述一个数据操作;针对所述执行计划中每个节点,生成与该节点描述的数据操作有关的一个弹性分布式数据集;在确定对所述执行计划中各节点对应的弹性分布式数据集进行重分区操作时,根据所述各节点对应的弹性分布式数据集之间的依赖关系,执行所述重分区操作。在一些实施例中,所述确定对所述执行计划中各节点对应的弹性分布式数据集进行重分区操作,包括:确定所述各节点对应的弹性分布式数据集中单个分区的数据量最大的弹性分布式数据集;在所确定的弹性分布式数据集中单个分区的数据量超过分布式集群中单个计算节点所处理数据量的量阈值时,确定进行所述重分区操作。在一些实施例中,所述根据所述各节点对应的弹性分布式数据集之间的依赖关系,对所述各节点对应的弹性分布式数据集进行分区,包括:对于所述树形结构中的根节点,根据所述根节点对应的弹性分布式数据集的数据量,确定所述根节点所对应的弹性分布式数据集的分区数;对于所述树形结构中任一个非根节点,根据该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间的依赖关系,确定该非根节点对应的弹性分布式数据集的分区数。在一些实施例中,所述根据该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间的依赖关系,确定该非根节点对应的弹性分布式数据集的分区数,包括:当该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间为窄依赖关系时,根据该非根节点的父节点对应的弹性分布式数据集的分区数确定该非根节点对应的弹性分布式数据集的分区数;以及当该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间为宽依赖关系时,根据该非根节点对应的弹性分布式数据集的数据量确定该非根节点对应的弹性分布式数据集的分区数。在一些实施例中,所述根据所述根节点对应的弹性分布式数据集的数据量,确定该节点对应的弹性分布式数据集的分区数,包括:获取所述弹性分布式数据集的数据量;获取分布式集群中单个计算节点所处理数据量的量阈值;根据所述弹性分布式数据集的数据量与所述量阈值的比值确定所述根节点对应的弹性分布式数据集的分区数。在一些实施例中,所述根据所述弹性分布式数据集的数据量与所述量阈值的比值确定所述根节点所对应弹性分布式数据集的分区数,包括:整数化处理所述与量阈值的比值;将经过整数化处理的所述与量阈值的比值与调节系数之积作为所述分区数。在一些实施例中,所述根据所述弹性分布式数据集的数据量与所述量阈值的比值确定所述根节点对应弹性分布式数据集的分区数,进一步包括:当所述分区数超过分区上限阈值时,将所述分区数更新为所述分区上限阈值;当所述分区数低于分区下限阈值时,将所述分区数更新为所述分区下限阈值。在一些实施例中,所述当该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间为窄依赖关系时,根据该非根节点的父节点对应的弹性分布式数据集的分区数确定该非根节点对应的弹性分布式数据集的分区数,包括:当所述父节点对应的弹性分布式数据集完成重分区时,向所述非根节点所对应的弹性分布式数据集的分区器传递所述父节点对应的弹性分布式数据集的分区数;所述分区器将所述非根节点所对应的弹性分布式数据集的分区数调节为与所述父节点对应的弹性分布式数据集的分区数一致。在一些实施例中,当该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间为宽依赖关系时,所述根据该非根节点对应的弹性分布式数据集的数据量确定该非根节点对应的弹性分布式数据集的分区数,包括:当所述父节点对应的弹性分布式数据集完成重分区时,向所述非根节点所对应的弹性分布式数据集的分区器传递表示进行自适应分区的参数;响应于接收到所述参数,所述分区器根据所述非根节点所对应的弹性分布式数据集的数据量确定相应的分区数。根据本申请一方面,提供一种数据处理装置,所述装置包括:获取单元,用于获取数据处理请求;计划生成单元,用于生成与所述数据处理请求对应的执行计划,所述执行计划包括树形结构,其中每个节点用于描述一个数据操作;数据集生成单元,用于针对所述执行计划中每个节点,生成与该节点描述的数据操作有关的一个弹性分布式数据集;重分区管理单元,用于在确定对所述执行计划中各节点对应的弹性分布式数据集进行重分区操作时,根据所述各节点对应的弹性分布式数据集之间的依赖关系,执行所述重分区操作。在一些实施例中,所述重分区管理单元根据下述方式确定对所述执行计划中各节点对应的弹性分布式数据集进行重分区操作:确定所述各节点对应的弹性分布式数据集中单个分区的数据量最大的弹性分布式数据集;在所确定的弹性分布式数据集中单个分区的数据量超过分布式集群中单个计算节点所处理数据量的量阈值时,确定进行所述重分区操作。在一些实施例中,所述重分区管理单元根据下述方式根据所述各节点对应的弹性分布式数据集之间的依赖关系,对所述各节点对应的弹性分布式数据集进行分区:对于所述树形结构中的根节点,根据所述根节点对应的弹性分布式数据集的数据量,确定所述根节点所对应的弹性分布式数据集的分区数;对于所述树形结构中任一个非根节点,根据该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间的依赖关系,确定该非根节点对应的弹性分布式数据集的分区数。在一些实施例中,所述重分区管理单元根据下述方式根据该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间的依赖关系,确定该非根节点对应的弹性分布式数据集的分区数:当该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间为窄依赖关系时,根据该非根节点的父节点对应的弹性分布式数据集的分区数确定该非根节点对应的弹性分布式数据集的分区数;以及当该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间为宽依赖关系时,根据该非根节点对应的弹性分布式数据集的数据量确定该非根节点对应的弹性分布式数据集的分区数。在一些实施例中,所述重分区管理单元根据下述方式根据所述根节点对应的弹性分布式数据集的数据量,确定该节点对应的弹性分布式数据集的分区数:获取所述弹性分布式数据集的数据量;获取分布式集群中单个计算节点所处理数据量的量阈值;根据所述弹性分布式数据集的数据量与所述量阈值的比值确定所述根节点对应的弹性分布式数据集的分区数。在一些实施例中,所述重分区管理单元根据下述方式根据所述弹性分布式数据集的数据量与所述本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:获取数据处理请求;生成与所述数据处理请求对应的执行计划,所述执行计划包括树形结构,其中,树形结构的每个节点用于描述一个数据操作;针对所述执行计划中每个节点,生成与该节点描述的数据操作有关的一个弹性分布式数据集;在确定对所述执行计划中各节点对应的弹性分布式数据集进行重分区操作时,根据所述各节点对应的弹性分布式数据集之间的依赖关系,执行所述重分区操作。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取数据处理请求;生成与所述数据处理请求对应的执行计划,所述执行计划包括树形结构,其中,树形结构的每个节点用于描述一个数据操作;针对所述执行计划中每个节点,生成与该节点描述的数据操作有关的一个弹性分布式数据集;在确定对所述执行计划中各节点对应的弹性分布式数据集进行重分区操作时,根据所述各节点对应的弹性分布式数据集之间的依赖关系,执行所述重分区操作。2.如权利要求1所述的方法,其中,所述确定对所述执行计划中各节点对应的弹性分布式数据集进行重分区操作,包括:确定所述各节点对应的弹性分布式数据集中单个分区的数据量最大的弹性分布式数据集;在所确定的弹性分布式数据集中单个分区的数据量超过分布式集群中单个计算节点所处理数据量的量阈值时,确定进行所述重分区操作。3.如权利要求1所述的方法,其中,所述根据所述各节点对应的弹性分布式数据集之间的依赖关系,对所述各节点对应的弹性分布式数据集进行分区,包括:对于所述树形结构中的根节点,根据所述根节点对应的弹性分布式数据集的数据量,确定所述根节点所对应的弹性分布式数据集的分区数;对于所述树形结构中任一个非根节点,根据该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间的依赖关系,确定该非根节点对应的弹性分布式数据集的分区数。4.如权利要求3所述的方法,其中,所述根据该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间的依赖关系,确定该非根节点对应的弹性分布式数据集的分区数,包括:当该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间为窄依赖关系时,根据该非根节点的父节点对应的弹性分布式数据集的分区数确定该非根节点对应的弹性分布式数据集的分区数;以及当该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间为宽依赖关系时,根据该非根节点对应的弹性分布式数据集的数据量确定该非根节点对应的弹性分布式数据集的分区数。5.如权利要求3所述的方法,其中,所述根据所述根节点对应的弹性分布式数据集的数据量,确定该节点对应的弹性分布式数据集的分区数,包括:获取所述弹性分布式数据集的数据量;获取分布式集群中单个计算节点所处理数据量的量阈值;根据所述弹性分布式数据集的数据量与所述量阈值的比值确定所述根节点对应的弹性分布式数据集的分区数。6.如权利要求5所述的方法,其中,所述根据所述弹性分布式数据集的数据量与所述量阈值的比值确定所述根节点所对应弹性分布式数据集的分区数,包括:整数化处理所述与量阈值的比值;将经过整数化处理的所述与量阈值的比值与调节系数之积作为所述分区数。7.如权利要求5所述的方法,其中,所述根据所述弹性分布式数据集的数据量与所述量阈值的比值确定所述根节点对应弹性分布式数据集的分区数,进一步包括:当所述分区数超过分区上限阈值时,将所述分区数更新为所述分区上限阈值;当所述分区数低于分区下限阈值时,将所述分区数更新为所述分区下限阈值。8.如权利要求4所述的方法,其中,所述当该非根节点对应的弹性分布式数据集与该非根节点的父节点对应的弹性分布式数据集之间为窄依赖关系时,根据该非根节点的父节点对应的弹性分布式数据集的分区数确定该非根节点对应的弹性分布式数据集的分区数,包括:当所述父节点对应的弹性分布式数据集完成重分区时,向所述非根节点所...

【专利技术属性】
技术研发人员:朱锋张韶全
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1