【技术实现步骤摘要】
本专利技术涉及数据查询技术,尤其涉及基于树形结构转换与hive多表联合的数据库查询方法。
技术介绍
1、随着大数据技术的快速发展,企业对海量数据的分析处理需求日益增长。hive作为一种基于hadoop的数据仓库工具,能够将结构化的数据文件映射为数据库表,并提供类sql查询功能。在实际应用中,复杂的业务分析往往需要对多个数据表进行联合查询操作,这对hive的查询性能提出了更高要求。目前,hive在处理多表联合查询时主要采用mapreduce计算模型,通过将查询语句转换为多个map和reduce任务来完成数据处理。
2、现有技术存在以下主要问题:
3、在处理大规模多表联合查询时,由于缺乏对表数据分布特征的深入分析和优化处理,容易导致数据倾斜问题,造成某些计算节点负载过重,严重影响查询效率。
4、现有的查询优化方法往往采用固定的表连接顺序,未能根据实际数据量大小动态调整查询计划,使得小表和大表的连接操作效率低下,增加了系统资源消耗。
5、传统的hive查询执行过程中,缺乏针对性的数据预过滤机制和
...【技术保护点】
1.基于树形结构转换与HIVE多表联合的数据库查询方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,获取HIVE数据库的查询语句,并解析所述查询语句生成初始语法树;将所述初始语法树中的多表联合查询操作节点提取为根节点,将所述多表联合查询操作节点关联的表节点作为子节点,构建查询树形结构包括:
3.根据权利要求1所述的方法,其特征在于,基于所述数据记录数量、所述数据块大小和所述数据块分布信息,计算每个表节点的数据量权重系数和数据倾斜指标;根据所述数据量权重系数和所述数据倾斜指标生成表节点优化策略列表包括:
4.根据权利
...【技术特征摘要】
1.基于树形结构转换与hive多表联合的数据库查询方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,获取hive数据库的查询语句,并解析所述查询语句生成初始语法树;将所述初始语法树中的多表联合查询操作节点提取为根节点,将所述多表联合查询操作节点关联的表节点作为子节点,构建查询树形结构包括:
3.根据权利要求1所述的方法,其特征在于,基于所述数据记录数量、所述数据块大小和所述数据块分布信息,计算每个表节点的数据量权重系数和数据倾斜指标;根据所述数据量权重系数和所述数据倾斜指标生成表节点优化策略列表包括:
4.根据权利要求1所述的方法,其特征在于,对所述待优化节点中的数据记录按照所述数据块分布信息进行数据分片,将每个所述待优化节点拆分为多个数据均衡的子表节点包括:
5.根据...
【专利技术属性】
技术研发人员:高海玲,高经郡,李钦,
申请(专利权)人:北京科杰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。