当前位置: 首页 > 专利查询>东南大学专利>正文

一种提高在线聚集中多表连接查询效率的方法技术

技术编号:19857590 阅读:36 留言:0更新日期:2018-12-22 11:43
本发明专利技术公开了一种提高在线聚集中多表连接查询效率的方法。本发明专利技术包含步骤S1:构建索引模块,通过混合整数线性规划模型从历史记录的多表查询中选择合适的连接属性,对选择的连接属性建立索引;步骤S2:根据步骤1中创建的索引,设计多表连接查询算法Index Ripple Join;步骤S3:使用中心极限定理对采集的样本进行区间估计,从而得到多表连接查询置信区间。本发明专利技术能够有效提高在线聚集中多表连接查询的效率。

【技术实现步骤摘要】
一种提高在线聚集中多表连接查询效率的方法
:本专利技术涉及一种提高在线聚集中多表连接查询效率的方法,具体涉及一种通过查找索引得到符合连接条件元组从而提高在线聚集中多表连接查询效率的方法。
技术介绍
:随着社交网络、物联网、电子商务等的应用和普及,当今信息时代产生的数据相较于十年前发生爆炸性增长。企业、政府机关、科研机构每天产生的数据量非常庞大,淘宝每天产生的数据量达到7T,百度每天需要处理100PB规模的数据。如何处理如此大规模的数据从而挖掘出有用的信息,是各大公司、机构需要解决的问题。在线聚集由于不需要扫描整张表,能够提高SQL查询速度,因此被引入到云计算环境以提高查询性能。在线聚集的基本执行流程是:从原始数据集中通过无放回随机采样得到样本集S,根据中心极限定理对样本集S做区间估计得到聚集结果区间,若不满足用户精度需求,则迭代的从原始数据集中再次采样加入到样本集S中,再进行区间估计,直到满足用户精度需求后停止程序。在线聚集适用于查询精度要求不高的应用,如趋势分析、评估、预测等数据分析场景中,绝对精度的查询结果并不是必需的,近似结果对用户而言完全可以接受。对于在线聚集中的多表连接,R本文档来自技高网...

【技术保护点】
1.一种提高在线聚集中多表连接查询效率的方法,其特征在于,该方法包括如下步骤:步骤S1:构建索引模块,通过混合整数线性规划模型从历史记录的多表查询中选择合适的连接属性,对选择的连接属性建立索引;步骤S2:根据步骤1中创建的索引,设计多表连接查询算法Index Ripple Join;步骤S3:使用中心极限定理对采集的样本进行区间估计,从而得到多表连接查询置信区间。

【技术特征摘要】
1.一种提高在线聚集中多表连接查询效率的方法,其特征在于,该方法包括如下步骤:步骤S1:构建索引模块,通过混合整数线性规划模型从历史记录的多表查询中选择合适的连接属性,对选择的连接属性建立索引;步骤S2:根据步骤1中创建的索引,设计多表连接查询算法IndexRippleJoin;步骤S3:使用中心极限定理对采集的样本进行区间估计,从而得到多表连接查询置信区间。2.根据权利要求1所述的提高在线聚集中多表连接查询效率的方法,其特征在于,步骤S1中所述的选择合适的连接属性,对选择的连接属性建立索引的具体方法是:根据历史查询的多表查询中出现的连接属性,构建混合整数线性规划模型,选择当模型取得最优解时的连接属性建立索引。3.根据权利要求2所述的提高在线聚集中多表连接查询效率的方法,其特征在于,所述的混合整数线性规划模型公式是:T=∑ipi*zi*gi(1)约束条件公式如下:∑iBi*zi≤C(2)约束条件的含义是:索引占用的存储负载之和需要小于等于阈值C,公式(1)中pi表示第i条连接属性在历史查询中出现的频率;zi∈{0,1},0表示对连接属性不建立索引,1表示对连接属性构建索引;gi表示连接属性中Group的数量,其中Group表示连接属性取得一个特定值的所有元组;公式(2)中Bi表示索引占用的磁盘空间大小;参数zi与公式(1)中的zi含义相同。对于上述混合整数线性规划模型,采用动态规划算法进行求解。4.根据权利要求1所述的提高在线聚集中多表连接查询效率的方法,其特征在于,步骤S2中所述的IndexRippleJoin执行过程是:...

【专利技术属性】
技术研发人员:宋爱波贡欢
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1