提升sql大表加入计算效率的方法、装置和终端设备制造方法及图纸

技术编号:44177532 阅读:21 留言:0更新日期:2025-02-06 18:22
本发明专利技术涉及一种提升sql大表加入计算效率的方法、终端设备以及存储介质,主要涉及数据处理领域。该方法通过选择大表关联键,进行数据关联操作,并在数据量符合条件时采用广播机制处理,有效提高连接计算效率。即通过对大表数据进行关联操作并存储处理结果;依据数据量决定是否广播数据;利用广播数据执行左连接操作并生成动态分区标志;对数据进行去重处理;以及建立适应数据特征的索引类型。当数据量超出内存限制时,采用数据分片和调整分区策略。尤其适用于大数据处理领域,能显著提高数据处理速度和系统资源利用率。

【技术实现步骤摘要】

本申请涉及spark sql领域,尤其涉及一种提升sql大表加入计算效率的方法、终端设备和存储介质。


技术介绍

1、在大数据的背景下,设备的数据通常呈现历史基数大、增量大、增速大的特点。在两个千亿级别的表直接连接计算的时候,常常会遇到表数据量太大而导致计算任务时间太久甚至任务失败的情况。所以,为了提升计算效率,可以利用hive表列式存储的特性,sparksql快速读取连接关联键,先找出两个大表中都有的重复键,如果这些重复键去重后的大小不超过集群合理的最大广播变量内存,则可以把这些键作为广播表分别和两个大表和关联,把重复键是否在大表中作为动态分区字段,下一步则直接取动态分区字段中属于重复键的分区的数据计算即可得到结果。

2、近几年,为了解决上述问题,一些专利技术应运而生。例如,在中国专利cn113051274b中公开了一种海量标签存储系统及方法,包括以下模块:接口模块:使用类sql语法操作系统,用于元数据管理,数据修改及查询;数据写入模块:用于写入列数据,重复时会忽略该列数据;数据更新模块:用于更新列数据,不存在时会忽略该列数据;数据删除模块:用本文档来自技高网...

【技术保护点】

1.一种提升sql大表加入计算效率的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种提升sql大表加入计算效率的方法,其特征在于,当表C的数据量大于集群所能支持的最大广播变量内存时,采用数据分片策略或调整分区策略来进行处理。

3.根据权利要求2所述的一种提升sql大表加入计算效率的方法,其特征在于,其中,采用数据分片策略处理数据量大于集群支持的最大广播变量内存的表C数据的方法,包括以下步骤:

4.根据权利要求2所述的一种提升sql大表加入计算效率的方法,其特征在于,其中,采用调整分区策略处理数据量大于集群支持的最大广播变量内存的表C数据的...

【技术特征摘要】

1.一种提升sql大表加入计算效率的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种提升sql大表加入计算效率的方法,其特征在于,当表c的数据量大于集群所能支持的最大广播变量内存时,采用数据分片策略或调整分区策略来进行处理。

3.根据权利要求2所述的一种提升sql大表加入计算效率的方法,其特征在于,其中,采用数据分片策略处理数据量大于集群支持的最大广播变量内存的表c数据的方法,包括以下步骤:

4.根据权利要求2所述的一种提升sql大表加入计算效率的方法,其特征在于,其中,采用调整分区策略处理数据量大于集群支持的最大广播变量内存的表c数据的方法,包括以下步骤:

5.根据权利要求2所述的一种提升sql大表加入计算效率的方法,其特征在于,当表c的数据量超出集群最大广播变量内存时,还可直接结合数据分片策略和调整分区策略,先按关联键的哈希值进行数据分片,随后在每个分片内按照关联键的...

【专利技术属性】
技术研发人员:张晓辉李鲤周本斌
申请(专利权)人:深圳市安数科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1