预聚合查询方法、装置、电子设备及存储介质制造方法及图纸

技术编号：41186338 阅读：5 留言：0更新日期：2024-05-07 22:18

本申请涉及数据处理技术领域，公开了一种预聚合查询方法、装置、电子设备及存储介质，该方法包括：响应目标查询指令，确定目标查询指令中的预聚合查询类型；若预聚合查询类型为第一查询类型，则基于快照SetDiffScan查询策略对Kudu数据表中的数据进行增量扫描，得到第一增量查询数据；若预聚合查询类型为第二查询类型，则基于分区查询策略对HDFS数据表中的数据进行分区查询，得到第二增量查询数据。本申请在数据查询时，可以通过SetDiffScan查询能力对Kudu数据表中数据进行增量扫描，通过分区查询能力对HDFS数据表中的数据进行分区查询，因此可以通过预聚合能力进行快速查询，提高了数据的时效性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，具体涉及一种预聚合查询方法、装置、电子设备及存储介质。

技术介绍

1、在多维指标分析的场景中，通常需要对指标进行上卷和下钻，例如查询每个省份的经营数据后，下钻分析某个城市的经营数据，或者上钻分析全国的经营数据。目前主要采取的方案为提前计算好要查询的维度和指标，查询时直接使用。然而，现有方案导入新数据后不会发生变化，使得数据的时效性差。

技术实现思路

1、本申请旨在至少解决相关技术中存在的技术问题之一。为此，本申请实施例提供一种预聚合查询方法、装置、电子设备及存储介质，可以通过实时预聚合能力提高数据的时效性。

2、第一方面，本申请实施例提供一种预聚合查询方法，包括：

3、响应目标查询指令，确定所述目标查询指令中的预聚合查询类型；

4、若所述预聚合查询类型为第一查询类型，则基于快照setdiffscan查询策略对kudu数据表中的数据进行增量扫描，得到第一增量查询数据；所述第一查询类型表征对kudu数据表中的数据进行增量查询的类型；

5、若所述预聚合查询类型为第二查询类型，则基于分区查询策略对hdfs数据表中的数据进行分区查询，得到第二增量查询数据；所述第二查询类型表征对hdfs数据表中的数据进行增量查询的类型。

6、在一可选实施例中，基于快照setdiffscan查询策略对kudu数据表中的数据进行增量扫描，得到第一增量查询数据，包括：

7、执行第一次查询时，以预设的快照标记点为扫描起点对所述

8、执行第二次查询开始，通过setdiffscan查询能力以上一次查询的扫描结果为过滤条件，并从上一次查询的快照标记点开始对所述kudu数据表中的数据进行扫描，得到新增或删除了数据的数据行，得到所述第一增量查询数据。

9、在一可选实施例中，基于分区查询策略对hdfs数据表中的数据进行分区查询，得到第二增量查询数据，包括：

10、获取所述目标查询指令中每个分区的查询计划事件；

11、获取上次聚合保存的满足所述查询计划事件的第一md5值列表，以及在当前hdfs数据表上聚合保存的满足所述查询计划事件的第二md5值列表；

12、基于所述第一md5值列表和所述第二md5值列表，确定所述第二增量查询数据。

13、在一可选实施例中，基于所述第一md5值列表和所述第二md5值列表，确定所述第二增量查询数据，包括：

14、基于所述第一md5值列表和所述第二md5值列表，获取上次聚合保存和在当前hdfs数据表上聚合保存的不同文件或新增文件；

15、基于所述不同文件或所述新增文件，对所述查询计划事件进行重新运算，得到所述第二增量查询数据。

16、在一可选实施例中，基于所述第一md5值列表和所述第二md5值列表，获取上次聚合保存和在当前hdfs数据表上聚合保存的新增文件，包括：

17、对比所述第一md5值列表和所述第二md5值列表，确定在所述第二md5值列表中存在，但在所述第一md5值列表中不存在的第一目标文件；

18、将所述第一目标文件确定为上次聚合保存和在当前hdfs数据表上聚合保存的新增文件。

19、在一可选实施例中，基于所述第一md5值列表和所述第二md5值列表，获取上次聚合保存和在当前hdfs数据表上聚合保存的不同文件，包括：

20、对比所述第一md5值列表和所述第二md5值列表，确定在所述第一md5值列表中存在，但在所述第二md5值列表中不存在的第二目标文件；

21、将所述第二目标文件确定为上次聚合保存和在当前hdfs数据表上聚合保存的不同文件。

22、在一可选实施例中，获取所述目标查询指令的步骤包括：

23、根据查询计划事件获取目标指标数据和目标维度数据；

24、确定包括所述目标指标数据和所述目标维度数据的目标预聚合表；

25、以所述目标预聚合表替换原始查询指令中的事件数据表后得到的更新后查询指令，确定为所述目标查询指令。

26、第二方面，本申请实施例提供一种预聚合查询装置，包括：

27、确定模块，用于响应目标查询指令，确定所述目标查询指令中的预聚合查询类型；

28、增量扫描模块，用于若所述预聚合查询类型为第一查询类型，则基于快照setdiffscan查询策略对kudu数据表中的数据进行增量扫描，得到第一增量查询数据；所述第一查询类型表征对kudu数据表中的数据进行增量查询的类型；

29、分区查询模块，用于若所述预聚合查询类型为第二查询类型，则基于分区查询策略对hdfs数据表中的数据进行分区查询，得到第二增量查询数据；所述第二查询类型表征对hdfs数据表中的数据进行增量查询的类型。

30、第三方面，本申请实施例还提供一种电子设备，包括存储器存储有多条计算机程序；处理器从存储器中加载计算机程序，以执行本申请实施例所提供的任一种预聚合查询方法。

31、第四方面，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有多条计算机程序，计算机程序适于处理器进行加载，以执行本申请实施例所提供的任一种预聚合查询方法。

32、第五方面，本申请实施例还提供一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序被处理器执行时实现本申请实施例所提供的任一种预聚合查询方法。

33、本申请实施例在数据查询时，可以通过setdiffscan查询能力对kudu数据表中数据进行增量扫描，通过分区查询能力对hdfs数据表中的数据进行分区查询，因此可以通过kudu数据表和hdfs数据表的预聚合能力进行快速查询，提高了数据的时效性。

本文档来自技高网...

【技术保护点】

1.一种预聚合查询方法，其特征在于，包括：

2.根据权利要求1所述预聚合查询方法，其特征在于，所述基于快照SetDiffScan查询策略对Kudu数据表中的数据进行增量扫描，得到第一增量查询数据，包括：

3.根据权利要求1所述预聚合查询方法，其特征在于，所述基于分区查询策略对HDFS数据表中的数据进行分区查询，得到第二增量查询数据，包括：

4.根据权利要求3所述预聚合查询方法，其特征在于，所述基于所述第一MD5值列表和所述第二MD5值列表，确定所述第二增量查询数据，包括：

5.根据权利要求4所述预聚合查询方法，其特征在于，基于所述第一MD5值列表和所述第二MD5值列表，获取上次聚合保存和在当前HDFS数据表上聚合保存的新增文件，包括：

6.根据权利要求4所述预聚合查询方法，其特征在于，基于所述第一MD5值列表和所述第二MD5值列表，获取上次聚合保存和在当前HDFS数据表上聚合保存的不同文件，包括：

7.根据权利要求1至6任一项所述预聚合查询方法，其特征在于，获取所述目标查询指令的步骤包括：

8.一

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条计算机程序；所述处理器从所述存储器中加载计算机程序，以执行如权利要求1至7任一项所述的预聚合查询方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1至7任一项所述的预聚合查询方法。

...

【技术特征摘要】

1.一种预聚合查询方法，其特征在于，包括：

2.根据权利要求1所述预聚合查询方法，其特征在于，所述基于快照setdiffscan查询策略对kudu数据表中的数据进行增量扫描，得到第一增量查询数据，包括：

3.根据权利要求1所述预聚合查询方法，其特征在于，所述基于分区查询策略对hdfs数据表中的数据进行分区查询，得到第二增量查询数据，包括：

4.根据权利要求3所述预聚合查询方法，其特征在于，所述基于所述第一md5值列表和所述第二md5值列表，确定所述第二增量查询数据，包括：

5.根据权利要求4所述预聚合查询方法，其特征在于，基于所述第一md5值列表和所述第二md5值列表，获取上次聚合保存和在当前hdfs数据表上聚合保存的新增文件，包括：

<...

【专利技术属性】
技术研发人员：桑文锋，曹犟，刘耀洲，付力力，杨岚钦，徐千千，
申请(专利权)人：神策网络科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人