【技术实现步骤摘要】
数据处理方法、装置、系统、电子设备及存储介质
[0001]本申请涉及数据处理
,尤其涉及一种数据处理方法、装置、系统、电子设备及存储介质。
技术介绍
[0002]Distinct算子(去重算子)是分析型数据库中常用的一种SQL(Structured Query Language,结构化查询语言)原生语句,其作用是将指定的数据进行去重标记,在实际应用场景中,通常会在一个查询中使用多个去重算子进行计算(即多重去重计算),传统的多重去重计算过程中,通常逐个使用各去重算子进行去重标记的计算,或者基于Grouping Set(分组集)的方式将数据膨胀多份,再统一计算去重标记,逐个计算的方式计算次数较多,计算性能较差,膨胀数据后再统一计算的方式需要手动的重写查询计划,效率较低,且因膨胀后数据量较大,导致对内存的占用量较大,容易造成内存不足,甚至机器不稳定。
技术实现思路
[0003]本申请实施例提供一种数据处理方法、装置、系统、电子设备及存储介质,以解决现有技术存在的问题。
[0004]第一方面,本申请实施 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于优化设备,包括:在目标工作负载的去重算子中确定相似去重算子;将所述相似去重算子合并为相似算子集合;根据所述相似算子集合生成对应的执行计划;所述执行计划中包括所述相似算子集合和所述相似算子集合对应的多重去重标记算子的信息,所述多重去重标记算子用于对数据库中的待处理数据进行批量去重标记的计算,所述待处理数据包括所述相似算子集合对应的数据;向执行设备发送所述执行计划。2.根据权利要求1所述的数据处理方法,其特征在于,所述在目标工作负载的去重算子中确定相似去重算子,包括:确定所述目标工作负载中的各去重算子对应的数据是否存在共用数据;在多个去重算子对应的数据为共用数据的情况下,确定所述多个去重算子为一组相似去重算子;所述相似算子集合对应的数据包括所述相似算子集合中各相似去重算子对应的共用数据。3.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述相似算子集合生成对应的执行计划,包括:将相似算子集合对应的共用数据和共用数据对应的有效性标记信息作为输入信息,将共用数据对应的去重标记信息作为输出信息,构建所述多重去重标记算子;所述多重去重标记算子用于根据各相似算子集合对应的有效性标记信息同步对各相似算子集合对应的共用数据进行去重标记,得到各相似算子集合对应的去重标记信息。4.根据权利要求2或3所述的数据处理方法,其特征在于,所述根据相似算子集合生成对应的执行计划,还包括:对于每个相似算子集合,根据该相似算子集合中每个相似去重算子对应的过滤条件,确定该相似算子集合对应的共用数据中各数据是否有效,并对该共用数据中的各数据进行有效性标记,得到该共用数据对应的一组有效性标记信息;所述执行计划还包括所述有效性标记信息。5.根据权利要求2或3所述的数据处理方法,其特征在于,所述相似算子集合生成对应的执行计划,还包括:同步对各相似算子集合对应的共用数据进行数据重分布;所述执行计划还包括数据重分布后的共用数据。6.一种数据处理方法,其特征在于,应用于执行设备,包括:基于优化设备提供的执行计划对数据库中的待处理数据进行批量去重标记,得到去重标记信息;所述执行计划是通过权利要求1
‑
4中任一项所述的数据处理方法得到的,所述待处理数据包括目标工作负载中各相似算子集合对应的数据;基于所述去重标记信息对所述待处理数据进行批量去重处理。7.根据权利要求6所述的数据处理方法,其特征在于,各相似算子集合对应的数据包括各相似算子集合中各相似去重算子对应的共用数据;所述基于执行计划对数据库中的待处理数据进行批量去重标记,得到去...
【专利技术属性】
技术研发人员:谢佳明,曹学文,廖新涛,林亮,李飞飞,
申请(专利权)人:阿里云计算有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。