一种云计算环境下的混合近似查询方法技术

技术编号:15542605 阅读:87 留言:0更新日期:2017-06-05 11:29
本发明专利技术提供一种云计算环境下的混合近似查询方法。本发明专利技术首先由SQL查询接口实现对查询语句Q的信息抽取,形成针对查询Q的标准化MapReduce输入参数;其次,若查询Q为单表查询,则启动一个MapReduce程序,并以CLT‑based在线聚集执行模式进行查询处理,若查询Q为多表查询,则启动两个MapReduce程序,并以CLT‑based在线聚集执行模式进行查询处理;然后,在MapReduce程序执行过程中实时计算CLT‑based在线聚集执行模式的估计失效概率,并据此动态触发近似查询模式的切换机制;最后,将处理得到的结果传输至SQL查询接口向用户进行展示。本发明专利技术可以广泛应用于云计算环境中。

A hybrid approximate query method in cloud computing environment

The invention provides a hybrid approximate query method in a cloud computing environment. The SQL query information extraction of the query interface of Q standard MapReduce input parameters for the Q query form; secondly, if the query Q for single table queries, then start a MapReduce program, and the CLT based online aggregation query processing execution mode, if the Q for the multi table query the query, starting two MapReduce program, and the CLT based online aggregation execution model for query processing; then, in the execution process of MapReduce program in CLT based real time calculation online aggregation execution mode estimation of failure probability, and thus trigger the dynamic switching mechanism approximate query model; finally, the processing results of transmission to SQL query interface to the user display. The invention can be widely applied to the cloud computing environment.

【技术实现步骤摘要】
一种云计算环境下的混合近似查询方法
本专利技术涉及云计算,近似查询处理领域,具体地说是一种云计算环境下实现高效查询处理的混合近似查询方法。
技术介绍
大数据(BigData)通常被认为是具有PB级以上数据容量,包括结构化、半结构化和非结构化数据组织形式,且增长速率快,处理时间敏感的数据。随着电子商务、社交网络等新一代大规模互联网应用以及科学计算的蓬勃发展,大数据也广泛存在于工业界与学术界,如互联网数据、企业业务数据、统计数据、医疗数据、科学数据等。面对大数据的指数级增长现状,如何对其进行有效地处理与分析,从中发现有用的信息和潜在的规律,支持上层查询需求并指导企业决策已成为当前研究的热点和难点。为了解决上述问题,研究人员将在线聚集技术引入云计算领域,将两者有机融合并提出云计算环境下的在线聚集查询方法,通过寻找查询精度和查询性能的折中以实现性能的大幅提升。在线聚集首先由Hellerstein等人提出,该方法通过对原始数据集进行随机采样保证样本数据的随机性,在此基础上,通过概率统计方法对查询结果做出近似估计,并利用置信区间保证近似结果的精度确保其有效性。Bose和Condie等人基于pipeline思想展示了如何利用MapReduce模型实现在线聚集的部分基本思想(执行结果的提前展示和交互式查询处理),为在线聚集在云计算环境下的部署做出积极尝试,但是这两个系统都缺乏近似估计模块,无法实现对查询结果的近似估计。为此,Pansare等人提出了基于MapReduce模型的完整的在线聚集系统,实现了对查询结果的近似估计,但是由于无法保证样本的有效采集导致需要访问较大的数据量才能获得较为精确的结果(处理30%左右的数据量才能满足精度需求)。此外,针对云计算环境下的在线聚集机制无法很好支持连接操作的问题,Shi等人提出了基于Hadoop平台的新型在线聚集系统COLA,实现了基于数据块粒度的随机采样,同时设计了面向连接操作的在线聚集MapReduce程序,一定程度上丰富了云计算环境下在线聚集的适用范围。然而,上述所有在线聚集系统均采用基于中心极限定理的近似估计方法,只能对聚集查询和部分统计操作作出近似估计。为此,Laptev等人基于Hadoop平台提出了EARL系统,该系统采用基于bootstrap的自举重采样方法实现对任意查询函数的近似估计(点估计方法),尽管增加了在线聚集的灵活性和适用性,但是不支持对近似结果的良好区间估计。然而上述研究工作均未考虑在线聚集方法存在的估计失效问题,在线聚集通常基于中心极限定理实现对查询结果的近似估计,当样本数据量大于临界值时,采样过程服从独立同分布的前提假设将不再成立,从而引起估计方法的失效,致使在线聚集需要完全扫描剩余数据以获取精确结果,大幅延长整体执行时间。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种云计算环境下的混合近似查询方法,引入bootstrap估计理论并将传统在线聚集机制在估计时间上的优势与bootstrap方法在稳定性上的优势进行有效融合,通过建立合理的估计失效概率模型预测传统在线聚集机制的失效概率,据此实现两种估计方法的动态实时切换,及时将可能失效的传统在线聚集查询作业切换到更加稳定的bootstrap模式,从而避免由估计失效引起的全局数据扫描,优化整体执行性能。为了实现上述目的,本专利技术采用以下技术方案:一种云计算环境下的混合近似查询方法,其执行过程依赖于以下四个核心模块:SQL查询接口、CLT-based在线聚集执行模式、bootstrap-based近似查询模式以及近似查询模式的动态切换机制。通过上述四个核心模块的协调工作可以实现云计算环境下的混合近似查询,其执行步骤如下:1)由SQL查询接口实现对查询语句Q的信息抽取,基于Q的查询谓词及其涉及到的输入数据形成针对查询Q的标准化MapReduce输入参数。2)若查询Q为单表查询,则启动一个MapReduce程序并配置Q的标准化输入参数,并以CLT-based在线聚集执行模式进行查询处理,若查询Q为多表查询,则启动两个MapReduce程序并配置Q的标准化输入参数,并以CLT-based在线聚集执行模式进行查询处理。3)在上述MapReduce程序执行过程中实时计算CLT-based在线聚集执行模式的估计失效概率,并据此动态触发近似查询模式的切换机制,实现从CLT-based在线聚集执行模式向bootstrap-based近似查询模式的动态转换,避免由估计失效引起的性能下降。4)将上述MapReduce程序处理得到的结果传输至SQL查询接口向用户进行展示。所述步骤3)中,给定任意一组通过无放回采样方法获取的随机样本其中样本的下标Li表示S中第i个样本在数据集R中的位置。由于采用无放回方式,因此上述样本集S满足以下特性:针对所有样本,若i≠j则有Li≠Lj,即S中所有样本均是唯一的(仅在样本集中出现一次)。而采用有放回方式获取随机样本很难保证样本数据的唯一性,任一样本均有可能重复出现在样本集S中。因此,若要使得无放回采样获取的随机样本集S可被视为等同于有放回采样获取的随机样本,则必须保证有放回采样获取上述样本集S的概率相对较大。否则,样本集S不能被看作是有放回采样的一种常态结果,而作为无放回采样常态结果的样本集S更不可能被看作等同于有放回采样的一种非常态结果(即两种采样结果之间不存在近似关系)。基于上述分析可知,若要满足样本无偏性的等概率采集特性,必须提高样本集S作为有放回采样结果的概率。而通过有放回采样方法采集n个(具有唯一性)样本的概率可以按如下公式计算,其中m表示数据集R的数据总量。式中m表示数据集R的数据总量,n为样本中包含的元组数量。给定上述有放回采样获取n个唯一样本的概率Pwith,则其与在线聚集估计失效概率Pf之间的内在联系可简单概括为以下两点:1)随着Pwith的不断降低Pf不断增大,这主要是因为较小的Pwith意味着有放回采样获取n个唯一样本的可能性较低,即无法以较高的概率将无放回采样结果近似的看作等同于有放回采样结果,从而导致估计失效概率升高;2)当Pwith无限趋近于0时,Pf也无限趋近于100%,这主要体现了极限情况下两个概率之间的必然联系,即有放回采样无法获取n个唯一样本意味着无放回采样结果无法等同于有放回采样结果,从而无法保证样本无偏性致使估计失效概率为100%。综上所述,Pwith和Pf之间存在着某种内在联系。为了更好的获取Pwith和Pf之间的映射关系f,以刻画两者之间的内在联系,本专利技术根据CLT-based在线聚集执行模式所具有的平缓性、收敛性以及差异性等特征,并结合概率Pwith计算相应的近似估计失效概率Pf,计算公式如下:式中参数μ、s以及λ分别为平缓度参数、收敛性参数以及倾斜度参数。平缓度参数μ的作用是控制失效概率Pf在Pwith具有较大取值时具有较低且平缓的增长趋势。平缓度控制参数取值越大则表示Pf在初始阶段增长越平缓,意味着在在线聚集执行初期估计失效发生的概率相对较小。收敛性参数λ的作用是保证失效概率Pf在Pwith→0时无限趋近于100%,意味着样本集无法保证无偏性时具有极高的估计失效概率。倾斜度参数s的作用是将数据分布的倾斜特性引入衰减函数,使得对估计本文档来自技高网
...
一种云计算环境下的混合近似查询方法

【技术保护点】
一种云计算环境下的混合近似查询方法,其包括以下步骤:1)用户通过SQL查询接口提交查询作业,SQL查询接口负责对查询作业进行解析,基于查询作业的查询谓词、输入数据以及查询类型信息实现对查询作业的查询信息抽取,形成针对该查询作业的标准化MapReduce输入参数;2)根据查询作业的类型是单表还是多表,决定启动何种MapReduce程序完成查询处理,若查询作业是单表查询则启动一个MapReduce程序并配置该查询作业的标准化输入参数,以CLT‑based在线聚集执行模式进行查询近似估计,若查询作业是多表查询则启动两个MapReduce程序并配置该查询作业的标准化输入参数,同样以CLT‑based在线聚集执行模式进行查询近似估计;3)在上述MapReduce程序执行过程中,实时计算CLT‑based在线聚集执行模式的近似估计失效概率以此预测该查询作业可能遭遇估计失效的可能性,并据此实时触发混合近似查询模式的动态切换机制,当失效概率高过一定程度时,则将CLT‑based在线聚集执行模式切换至bootstrap‑based近似查询模式继续执行;4)将上述一个或两个MapReduce程序处理得到的结果传输至SQL查询接口向用户进行展示。...

【技术特征摘要】
1.一种云计算环境下的混合近似查询方法,其包括以下步骤:1)用户通过SQL查询接口提交查询作业,SQL查询接口负责对查询作业进行解析,基于查询作业的查询谓词、输入数据以及查询类型信息实现对查询作业的查询信息抽取,形成针对该查询作业的标准化MapReduce输入参数;2)根据查询作业的类型是单表还是多表,决定启动何种MapReduce程序完成查询处理,若查询作业是单表查询则启动一个MapReduce程序并配置该查询作业的标准化输入参数,以CLT-based在线聚集执行模式进行查询近似估计,若查询作业是多表查询则启动两个MapReduce程序并配置该查询作业的标准化输入参数,同样以CLT-based在线聚集执行模式进行查询近似估计;3)在上述MapReduce程序执行过程中,实时计算CLT-based在线聚集执行模式的近似估计失效概率以此预测该查询作业可能遭遇估计失效的可能性,并据此实时触发混合近似查询模式的动态切换机制,当失效概率高过一定程度时,则将CLT-based在线聚集执行模式切换至bootstrap-based近似查询模式继续执行;4)将上述一个或两个MapReduce程序处理得到的结果传输至SQL查询接口向用户进行展示。2.如权利要求1所述的一种云计算环境下的混合近似查询方法,其特征在于:所述混合近似查询方法共包含四个核心功能模块:具体是:1)SQL查询接口,负责接收用户查询作业,并对查询作业进行信息抽取形成标准化MapReduce程序输入参数,同时负责对近似查询结果的汇总和展示;2)CLT-based在线聚集执行模式,负责以传统在线聚集方法完成对查询的近似估计,给定一组从HDFS获取的随机样本S,CLT-based在线聚集执行模式将基于中心极限定理实现对查询结果的近似估计,若近似结果不满足用户精度需求,则扩大样本量形成新的样本集,并对其重复上述近似估计过程完成结果的精度更新;3)bootstrap-based近似查询模式,负责以bootstrap估计方法完成对查询的近似估计,...

【专利技术属性】
技术研发人员:王宇翔张龙斌徐小良
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1