The invention provides a hybrid approximate query method in a cloud computing environment. The SQL query information extraction of the query interface of Q standard MapReduce input parameters for the Q query form; secondly, if the query Q for single table queries, then start a MapReduce program, and the CLT based online aggregation query processing execution mode, if the Q for the multi table query the query, starting two MapReduce program, and the CLT based online aggregation execution model for query processing; then, in the execution process of MapReduce program in CLT based real time calculation online aggregation execution mode estimation of failure probability, and thus trigger the dynamic switching mechanism approximate query model; finally, the processing results of transmission to SQL query interface to the user display. The invention can be widely applied to the cloud computing environment.
【技术实现步骤摘要】
一种云计算环境下的混合近似查询方法
本专利技术涉及云计算,近似查询处理领域,具体地说是一种云计算环境下实现高效查询处理的混合近似查询方法。
技术介绍
大数据(BigData)通常被认为是具有PB级以上数据容量,包括结构化、半结构化和非结构化数据组织形式,且增长速率快,处理时间敏感的数据。随着电子商务、社交网络等新一代大规模互联网应用以及科学计算的蓬勃发展,大数据也广泛存在于工业界与学术界,如互联网数据、企业业务数据、统计数据、医疗数据、科学数据等。面对大数据的指数级增长现状,如何对其进行有效地处理与分析,从中发现有用的信息和潜在的规律,支持上层查询需求并指导企业决策已成为当前研究的热点和难点。为了解决上述问题,研究人员将在线聚集技术引入云计算领域,将两者有机融合并提出云计算环境下的在线聚集查询方法,通过寻找查询精度和查询性能的折中以实现性能的大幅提升。在线聚集首先由Hellerstein等人提出,该方法通过对原始数据集进行随机采样保证样本数据的随机性,在此基础上,通过概率统计方法对查询结果做出近似估计,并利用置信区间保证近似结果的精度确保其有效性。Bose和Condie等人基于pipeline思想展示了如何利用MapReduce模型实现在线聚集的部分基本思想(执行结果的提前展示和交互式查询处理),为在线聚集在云计算环境下的部署做出积极尝试,但是这两个系统都缺乏近似估计模块,无法实现对查询结果的近似估计。为此,Pansare等人提出了基于MapReduce模型的完整的在线聚集系统,实现了对查询结果的近似估计,但是由于无法保证样本的有效采集导致需要访问较大的数 ...
【技术保护点】
一种云计算环境下的混合近似查询方法,其包括以下步骤:1)用户通过SQL查询接口提交查询作业,SQL查询接口负责对查询作业进行解析,基于查询作业的查询谓词、输入数据以及查询类型信息实现对查询作业的查询信息抽取,形成针对该查询作业的标准化MapReduce输入参数;2)根据查询作业的类型是单表还是多表,决定启动何种MapReduce程序完成查询处理,若查询作业是单表查询则启动一个MapReduce程序并配置该查询作业的标准化输入参数,以CLT‑based在线聚集执行模式进行查询近似估计,若查询作业是多表查询则启动两个MapReduce程序并配置该查询作业的标准化输入参数,同样以CLT‑based在线聚集执行模式进行查询近似估计;3)在上述MapReduce程序执行过程中,实时计算CLT‑based在线聚集执行模式的近似估计失效概率以此预测该查询作业可能遭遇估计失效的可能性,并据此实时触发混合近似查询模式的动态切换机制,当失效概率高过一定程度时,则将CLT‑based在线聚集执行模式切换至bootstrap‑based近似查询模式继续执行;4)将上述一个或两个MapReduce程序处理得到的 ...
【技术特征摘要】
1.一种云计算环境下的混合近似查询方法,其包括以下步骤:1)用户通过SQL查询接口提交查询作业,SQL查询接口负责对查询作业进行解析,基于查询作业的查询谓词、输入数据以及查询类型信息实现对查询作业的查询信息抽取,形成针对该查询作业的标准化MapReduce输入参数;2)根据查询作业的类型是单表还是多表,决定启动何种MapReduce程序完成查询处理,若查询作业是单表查询则启动一个MapReduce程序并配置该查询作业的标准化输入参数,以CLT-based在线聚集执行模式进行查询近似估计,若查询作业是多表查询则启动两个MapReduce程序并配置该查询作业的标准化输入参数,同样以CLT-based在线聚集执行模式进行查询近似估计;3)在上述MapReduce程序执行过程中,实时计算CLT-based在线聚集执行模式的近似估计失效概率以此预测该查询作业可能遭遇估计失效的可能性,并据此实时触发混合近似查询模式的动态切换机制,当失效概率高过一定程度时,则将CLT-based在线聚集执行模式切换至bootstrap-based近似查询模式继续执行;4)将上述一个或两个MapReduce程序处理得到的结果传输至SQL查询接口向用户进行展示。2.如权利要求1所述的一种云计算环境下的混合近似查询方法,其特征在于:所述混合近似查询方法共包含四个核心功能模块:具体是:1)SQL查询接口,负责接收用户查询作业,并对查询作业进行信息抽取形成标准化MapReduce程序输入参数,同时负责对近似查询结果的汇总和展示;2)CLT-based在线聚集执行模式,负责以传统在线聚集方法完成对查询的近似估计,给定一组从HDFS获取的随机样本S,CLT-based在线聚集执行模式将基于中心极限定理实现对查询结果的近似估计,若近似结果不满足用户精度需求,则扩大样本量形成新的样本集,并对其重复上述近似估计过程完成结果的精度更新;3)bootstrap-based近似查询模式,负责以bootstrap估计方法完成对查询的近似估计,...
【专利技术属性】
技术研发人员:王宇翔,张龙斌,徐小良,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。