【技术实现步骤摘要】
本申请涉及spark sql领域,尤其涉及一种提升sql大表加入计算效率的方法、终端设备和存储介质。
技术介绍
1、在大数据的背景下,设备的数据通常呈现历史基数大、增量大、增速大的特点。在两个千亿级别的表直接连接计算的时候,常常会遇到表数据量太大而导致计算任务时间太久甚至任务失败的情况。所以,为了提升计算效率,可以利用hive表列式存储的特性,sparksql快速读取连接关联键,先找出两个大表中都有的重复键,如果这些重复键去重后的大小不超过集群合理的最大广播变量内存,则可以把这些键作为广播表分别和两个大表和关联,把重复键是否在大表中作为动态分区字段,下一步则直接取动态分区字段中属于重复键的分区的数据计算即可得到结果。
2、近几年,为了解决上述问题,一些专利技术应运而生。例如,在中国专利cn113051274b中公开了一种海量标签存储系统及方法,包括以下模块:接口模块:使用类sql语法操作系统,用于元数据管理,数据修改及查询;数据写入模块:用于写入列数据,重复时会忽略该列数据;数据更新模块:用于更新列数据,不存在时会忽略该列数
...【技术保护点】
1.一种提升sql大表加入计算效率的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种提升sql大表加入计算效率的方法,其特征在于,当表C的数据量大于集群所能支持的最大广播变量内存时,采用数据分片策略或调整分区策略来进行处理。
3.根据权利要求2所述的一种提升sql大表加入计算效率的方法,其特征在于,其中,采用数据分片策略处理数据量大于集群支持的最大广播变量内存的表C数据的方法,包括以下步骤:
4.根据权利要求2所述的一种提升sql大表加入计算效率的方法,其特征在于,其中,采用调整分区策略处理数据量大于集群支持的最大广播
...【技术特征摘要】
1.一种提升sql大表加入计算效率的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种提升sql大表加入计算效率的方法,其特征在于,当表c的数据量大于集群所能支持的最大广播变量内存时,采用数据分片策略或调整分区策略来进行处理。
3.根据权利要求2所述的一种提升sql大表加入计算效率的方法,其特征在于,其中,采用数据分片策略处理数据量大于集群支持的最大广播变量内存的表c数据的方法,包括以下步骤:
4.根据权利要求2所述的一种提升sql大表加入计算效率的方法,其特征在于,其中,采用调整分区策略处理数据量大于集群支持的最大广播变量内存的表c数据的方法,包括以下步骤:
5.根据权利要求2所述的一种提升sql大表加入计算效率的方法,其特征在于,当表c的数据量超出集群最大广播变量内存时,还可直接结合数据分片策略和调整分区策略,先按关联键的哈希值进行数据分片,随后在每个分片内按照关联键的...
【专利技术属性】
技术研发人员:张晓辉,李鲤,周本斌,
申请(专利权)人:深圳市安数科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。