数据处理方法、装置、系统、电子设备及存储介质制造方法及图纸

技术编号:38202494 阅读:9 留言:0更新日期:2023-07-21 16:46
本申请提供了一种数据处理方法、装置、系统、电子设备及存储介质。数据处理方法包括:在目标工作负载的去重算子中确定相似去重算子;将相似去重算子合并为相似算子集合;根据相似算子集合生成对应的执行计划;向执行设备发送执行计划。其中,执行计划中包括相似算子集合和相似算子集合对应的多重去重标记算子的信息,多重去重标记算子用于对数据库中的待处理数据进行批量去重标记的计算,待处理数据包括相似算子集合对应的数据。依据本申请实施例,可以提高数据处理性能,并减少内存占用量。并减少内存占用量。并减少内存占用量。

【技术实现步骤摘要】
数据处理方法、装置、系统、电子设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种数据处理方法、装置、系统、电子设备及存储介质。

技术介绍

[0002]Distinct算子(去重算子)是分析型数据库中常用的一种SQL(Structured Query Language,结构化查询语言)原生语句,其作用是将指定的数据进行去重标记,在实际应用场景中,通常会在一个查询中使用多个去重算子进行计算(即多重去重计算),传统的多重去重计算过程中,通常逐个使用各去重算子进行去重标记的计算,或者基于Grouping Set(分组集)的方式将数据膨胀多份,再统一计算去重标记,逐个计算的方式计算次数较多,计算性能较差,膨胀数据后再统一计算的方式需要手动的重写查询计划,效率较低,且因膨胀后数据量较大,导致对内存的占用量较大,容易造成内存不足,甚至机器不稳定。

技术实现思路

[0003]本申请实施例提供一种数据处理方法、装置、系统、电子设备及存储介质,以解决现有技术存在的问题。
[0004]第一方面,本申请实施例提供了一种数据处理方法,应用于优化设备,该方法包括:
[0005]在目标工作负载的去重算子中确定相似去重算子;
[0006]将相似去重算子合并为相似算子集合;
[0007]根据相似算子集合生成对应的执行计划;执行计划中包括相似算子集合和相似算子集合对应的多重去重标记算子的信息,多重去重标记算子用于对数据库中的待处理数据进行批量去重标记的计算,待处理数据包括相似算子集合对应的数据;
[0008]向执行设备发送执行计划。
[0009]第二方面,本申请实施例提供了一种数据处理方法,应用于执行设备,该方法包括:
[0010]基于优化设备提供的执行计划对数据库中的待处理数据进行批量去重标记,得到去重标记信息;执行计划是通过本申请实施例第一方面提供的数据处理方法得到的,待处理数据包括目标工作负载中各相似算子集合对应的数据;
[0011]基于去重标记信息对待处理数据进行批量去重处理。
[0012]第三方面,本申请实施例提供了一种数据处理装置,应用于优化设备,该装置包括:
[0013]相似性确定模块,用于在目标工作负载的去重算子中确定相似去重算子;
[0014]算子合并模块,用于将相似去重算子进行合并为相似算子集合;
[0015]计划生成模块,用于根据相似算子集合生成对应的执行计划;执行计划中包括相似算子集合和相似算子集合对应的多重去重标记算子的信息,多重去重标记算子用于对数
据库中的待处理数据进行批量去重标记的计算,待处理数据包括相似算子集合对应的数据;
[0016]计划发送模块,用于向执行设备发送执行计划。
[0017]第四方面,本申请实施例提供了一种数据处理装置,应用于执行设备,该装置包括:
[0018]去重标记模块,用于基于执行计划对数据库中的待处理数据进行批量去重标记,得到去重标记信息;执行计划是通过本申请实施例第三方面提供的数据处理装置得到的,待处理数据包括各相似算子集合对应的数据;
[0019]去重处理模块,用于基于去重标记信息对待处理数据进行批量去重处理。
[0020]第五方面,本申请实施例提供了一种电子设备,包括:存储器、处理器及存储在存储器上的计算机程序,该处理器在执行计算机程序时实现本申请实施例提供的任意一种方法。
[0021]第六方面,本申请实施例提供了一种数据处理系统,包括:通信连接的优化设备和执行设备;
[0022]优化设备和执行设备中至少一种为本申请实施例第五方面提供的电子设备。
[0023]第七方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例提供的任意一种方法。
[0024]与现有技术相比,本申请具有如下优点:
[0025]依据本申请实施例技术方案,可以对目标工作负载中的各去重算子的相似性进行发掘,基于发掘出的相似性自动识别去重标记计算的优化机会,在识别到优化机会(即确定出相似去重算子)时,可以对多个相似去重算子进行合并,进而生成与合并后的相似算子集合对应的多重去重标记算子,以重新改写目标工作负载的执行计划,形成新的执行计划以实现对相似算子集合所指定的数据的批量去重标记的计算,可在不增加数据量、不增加内存占用量的基础上,有效地减少去重标记的计算次数,减少查询时间,进而可在不影响机器稳定性的基础上,有效提高计算性能,进而提高数据库的整体处理性能,提升用分析型工作负载的用户体验。
[0026]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0027]在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请的一些实施方式,而不应将其视为是对本申请范围的限制。
[0028]图1为本申请提供的数据处理方案的场景示意图;
[0029]图2为本申请实施例提供的一种数据处理方法的流程示意图;
[0030]图3为本申请实施例提供的另一种数据处理方法的流程示意图;
[0031]图4为本申请实施例中去重标记的一个示例图;
[0032]图5为本申请实施例提供的一种数据处理装置的结构框架示意图;
[0033]图6为本申请实施例提供的另一种数据处理装置的结构框架示意图;以及
[0034]图7为本申请实施例提供的一种电子设备的结构框架示意图。
具体实施方式
[0035]在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的构思或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的,而非限制性的。
[0036]首先对本申请实施例涉及的部分技术术语作如下介绍:
[0037]分析型数据库:应用于分析型工作负载的数据库,可以处理大规模数据、进行分析型计算。
[0038]去重算子:一种SQL原生语句,其作用是对指定的数据进行去重处理,对于重复的数据仅保留一行,去除其他行。一个去重算子的结构可以表示如下:distinct SELECTED_COLUMN,其中,SELECTED_COLUMN为去重算子指定的数据列,该语句要求对该数据列进行去重处理。
[0039]多重去重计算:在同一个工作负载中,例如同一个查询中,先后使用多个去重算子进行计算。
[0040]去重算子的相似性:如果多个去重算子所指定(即所要计算)的数据列是相同的数据列,那么可认为该多个去重算子是相似的,该多个去重算子可用为一组相似去重算子,各去重算子所指定的数据列可以是根据各自的过滤条件过滤出的,不符合过滤条本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于优化设备,包括:在目标工作负载的去重算子中确定相似去重算子;将所述相似去重算子合并为相似算子集合;根据所述相似算子集合生成对应的执行计划;所述执行计划中包括所述相似算子集合和所述相似算子集合对应的多重去重标记算子的信息,所述多重去重标记算子用于对数据库中的待处理数据进行批量去重标记的计算,所述待处理数据包括所述相似算子集合对应的数据;向执行设备发送所述执行计划。2.根据权利要求1所述的数据处理方法,其特征在于,所述在目标工作负载的去重算子中确定相似去重算子,包括:确定所述目标工作负载中的各去重算子对应的数据是否存在共用数据;在多个去重算子对应的数据为共用数据的情况下,确定所述多个去重算子为一组相似去重算子;所述相似算子集合对应的数据包括所述相似算子集合中各相似去重算子对应的共用数据。3.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述相似算子集合生成对应的执行计划,包括:将相似算子集合对应的共用数据和共用数据对应的有效性标记信息作为输入信息,将共用数据对应的去重标记信息作为输出信息,构建所述多重去重标记算子;所述多重去重标记算子用于根据各相似算子集合对应的有效性标记信息同步对各相似算子集合对应的共用数据进行去重标记,得到各相似算子集合对应的去重标记信息。4.根据权利要求2或3所述的数据处理方法,其特征在于,所述根据相似算子集合生成对应的执行计划,还包括:对于每个相似算子集合,根据该相似算子集合中每个相似去重算子对应的过滤条件,确定该相似算子集合对应的共用数据中各数据是否有效,并对该共用数据中的各数据进行有效性标记,得到该共用数据对应的一组有效性标记信息;所述执行计划还包括所述有效性标记信息。5.根据权利要求2或3所述的数据处理方法,其特征在于,所述相似算子集合生成对应的执行计划,还包括:同步对各相似算子集合对应的共用数据进行数据重分布;所述执行计划还包括数据重分布后的共用数据。6.一种数据处理方法,其特征在于,应用于执行设备,包括:基于优化设备提供的执行计划对数据库中的待处理数据进行批量去重标记,得到去重标记信息;所述执行计划是通过权利要求1

4中任一项所述的数据处理方法得到的,所述待处理数据包括目标工作负载中各相似算子集合对应的数据;基于所述去重标记信息对所述待处理数据进行批量去重处理。7.根据权利要求6所述的数据处理方法,其特征在于,各相似算子集合对应的数据包括各相似算子集合中各相似去重算子对应的共用数据;所述基于执行计划对数据库中的待处理数据进行批量去重标记,得到去...

【专利技术属性】
技术研发人员:谢佳明曹学文廖新涛林亮李飞飞
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1