基于混合整数线性规划的分布式多表连接选择方法及装置制造方法及图纸

技术编号:18860981 阅读:40 留言:0更新日期:2018-09-05 14:26
本发明专利技术涉及一种基于混合整数线性规划的分布式多表连接选择方法及装置,其中方法包括:函数构建步骤、根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数;约束条件设置步骤、对所述连接操作变量设置约束条件;代价估计步骤、计算满足所述约束条件并使连接操作代价函数的取值最小的变量值,得到分布式多表连接的最优连接顺序。本发明专利技术构建基于混合整数线性规划的连接操作代价函数,寻找使代价函数取值最小的并且满足约束条件的变量值,从而得到分布式多表连接最优连接顺序;进一步地,本发明专利技术充分考虑了本地连接次数和优化洗牌次数对分布式多表连接的影响,能够更好地适用于分布式多表连接问题。

Distributed multi table connection selection method and device based on mixed integer linear programming

The present invention relates to a distributed multi-table connection selection method and device based on mixed integer linear programming. The method includes: function construction step, connection operation cost function based on mixed integer linear programming according to defined connection operation variable, constraint condition setting step and connection operation variable setting. The optimal join order of distributed multi-table joins is obtained by setting constraints, calculating the value of variables satisfying the constraints and minimizing the join operation cost function. The invention constructs a connection operation cost function based on mixed integer linear programming, searches for variable values that minimize the value of the cost function and satisfy the constraints, and thus obtains the optimal connection order of the distributed multi-table connection; furthermore, the invention fully considers the local connection times and the optimal shuffle times for the distributed multi-table connection. The influence of table connection can be better applied to distributed multi table connection problems.

【技术实现步骤摘要】
基于混合整数线性规划的分布式多表连接选择方法及装置
本专利技术涉及数据处理
,尤其涉及一种基于混合整数线性规划的分布式多表连接选择方法及装置。
技术介绍
连接操作是数据库中的基本操作。通过连接操作可以得到多个关系表中存储的信息。而在海量数据分析中对于多表连接操作的应用更是非常普遍。多表连接涉及多个连接的连接顺序的选择问题,人们希望在参与连接的关系中找出某种连接顺序,使得连接代价最低。尤其对于并行分布式处理的海量数据而言,需要提供一种分布式多表连接的优化选择方法,找出最优连接顺序,以减小连接操作的代价。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术中的上述缺陷,提供一种基于混合整数线性规划的分布式多表连接选择方法及装置,通过线性规划模型解决连接顺序优化问题。为了解决上述技术问题,本专利技术第一方面,提供了一种基于混合整数线性规划的分布式多表连接选择方法,包括以下步骤:函数构建步骤、根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数;约束条件设置步骤、对所述连接操作变量设置约束条件;代价估计步骤、计算满足所述约束条件并使连接操作代价函数的取值最小的变量值,得本文档来自技高网...

【技术保护点】
1.一种基于混合整数线性规划的分布式多表连接选择方法,其特征在于,包括以下步骤:函数构建步骤、根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数;约束条件设置步骤、对所述连接操作变量设置约束条件;代价估计步骤、计算满足所述约束条件并使连接操作代价函数的取值最小的变量值,得到分布式多表连接的最优连接顺序。

【技术特征摘要】
1.一种基于混合整数线性规划的分布式多表连接选择方法,其特征在于,包括以下步骤:函数构建步骤、根据定义的连接操作变量构建基于混合整数线性规划的连接操作代价函数;约束条件设置步骤、对所述连接操作变量设置约束条件;代价估计步骤、计算满足所述约束条件并使连接操作代价函数的取值最小的变量值,得到分布式多表连接的最优连接顺序。2.根据权利要求1所述的基于混合整数线性规划的分布式多表连接选择方法,其特征在于:所述连接操作变量包括当前连接顺序中第j次连接中的本地连接次数和优化洗牌连接次数,其中1≤j≤nk,nk为第k种连接顺序的连接操作总数;且所述约束条件包括:限定所述本地连接次数不小于预设的本地连接最少次数,以及限定所述优化洗牌连接次数不大于预设的优化洗牌连接最大次数。3.根据权利要求2所述的基于混合整数线性规划的分布式多表连接选择方法,其特征在于:所述连接操作变量包括基础变量和中间结果变量。4.根据权利要求3所述的基于混合整数线性规划的分布式多表连接选择方法,所述基础变量包括当前连接顺序的第j次连接中的以下变量:表t的外连接标识值tiotj、表t的内连接标识值tiitj、表t的内连接基数cij、表t的外连接基数coj、本地连接次数selfj和优化洗牌连接次数shufflej;所述中间结果变量包括:表t的基数Card(t)、表t中项目p的选择率Sel(p)、第j次连接中p项同时存在标识值paopj、第j次连接中外连接基数的对数lcoj、基数范围θr、第j次连接中外连接基数的标识值ctorj、本地连接最少次数β和优化洗牌连接最大次数γ,其中r为基数的区间数。5.根据权利要求4所述的基于混合整数线性规划的分布式多表连接选择方法,其特征在于,所述函数构建步骤中构建基于混合整数线性规划的连接操作代价函数为:Cost=∑jcioj;其中,Cost为当前连接顺序的总连接操作的总代价;cioj为第j次连接操作的代价,且cioj=∑tcoj+∑tcij;其中coj为第j次连接中表t的外连接基数,cij为第j次连接中表t的内连接基数。6.根据权利要求5所述的基于混合整数线性规划的分布式多表连接选择方法,其特征在于,所述约束条件设置步骤中对所述连接操作变量设置的约束条件包括:(1)表示任意次连接中内连接有且只有1次;(2)∑ttiot0=1,表示第一次连接中外连接有且只有1次;(3)表示表t的每次...

【专利技术属性】
技术研发人员:王宏志赵志强
申请(专利权)人:哈工大大数据哈尔滨智能科技有限公司
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1