基于数据量的查询连接方法技术

技术编号：10217389 阅读：204 留言：0更新日期：2014-07-16 15:07

本发明专利技术公开了一种基于数据量的查询连接方法。该方法在大数据实时查询中深入考虑列式文件读取等特性来进行代价估算，确保生成最佳的连接顺序，其主要包括：首先进行元数据服务器的构建工作；然后完成统计信息的收集；其次通过查询元数据服务器获取参与连接的各表的相关统计信息；接着根据统计信息进行选择度及数据量等相关参数的估算工作；最后通过计算各个执行计划相应代价找出最佳的连接顺序。该方法可提升代价估计的准确性，从而保证找到执行计划为最优，有效提高整体查询的效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于数据量的查询连接方法
本专利技术涉及大数据实时查询优化
，尤其涉及一种基于数据量的查询连接方法。
技术介绍
大数据实时查询是重要的大数据技术，现有的大数据查询系统有GoogleDremel、ClouderaImpala、BerkeleyShark、ApacheDrill等。大数据实时查询一般采用分布式计算架构，由于弱化了对事务等功能的支持，所以相对于关系型数据库集群具有更高的可扩展性。同时由于大数据实时查询能很好的满足实时查询的用户需求，因此其在互联网、智慧城市等领域有广阔的应用空间。多连接顺序查询优化是数据库管理系统的重要组成部分，在大数据实时查询
中同样具备不可替代的重要性。其通过采用一定的优化方法，不断遍历执行计划的搜索空间，找出最佳的连接顺序，以生成最佳的执行计划，从而提升大数据查询系统的性能，满足用户查询的实时性需求。由于代价估计是多连接顺序查询优化过程中非常重要的部分，能否给出一种有效的查询代价估计方法是查询优化有效实现的关键。传统的代价估计方法是一种基于表基数的方法，通过该方法能够有效的解决传统代价估算问题，从而保证找到符合代价模型的最佳执行计划。但在分布式数据库系统或数据仓库中，存在以列式文件格式存储的数据表，该格式文件是为了优化底层数据进行读取时的I/O性能及减少数据传输数据量，以RCFile文件为例，该文件是一种先按行横向切分然后按列纵向切分的文件格式，其将仅读取和传输所需的数据列。在对有列式文件格式存储的数据表参与连接时，采用传统基于表基数的代价估计方法进行估算时，其结果可能会产生严重的偏差，进而导致连接顺序优化算法找...
基于数据量的查询连接方法

【技术保护点】
一种基于数据量的查询连接方法，其特征在于，包括：步骤1，向元数据服务器提交查询请求，获取参与连接的各表所对应的统计信息；步骤2，根据获取到的统计信息估算得到当前执行计划中所有表的数据量；步骤3，重复步骤1及步骤2，直至遍历执行计划的搜索空间，找出具有合适数据量使得查询代价最小的执行计划，按该执行计划中的连接顺序进行表的连接。

【技术特征摘要】
1.一种基于数据量的查询连接方法，其特征在于，包括：步骤1，向元数据服务器提交查询请求，获取参与连接的各表所对应的统计信息；步骤2，根据获取到的统计信息估算得到当前查询执行计划中所有表的数据量；步骤3，重复步骤1及步骤2，直至遍历查询执行计划的搜索空间，找出具有合适数据量使得查询代价最小的执行计划，按该执行计划中的连接顺序进行表的连接；步骤1中，元数据服务器构建方式为，选取关系型数据库并设计列级别的表模式，根据设计好的表模式在相应的关系型数据库中创建元数据库及表关系，构建元数据服务器；步骤2中，每个表的数据量根据该表所对应的选择度、字段平均数据量和表的总行数计算得到；选择度的估算方法为，根据查询中的查询条件及统计信息进行相应计算，得到表中满足查询条件的行在所要查询的对象集合中所占的比例；每张表数据量size的计算公式如下：

【专利技术属性】
技术研发人员：陈岭，周强，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人