当前位置: 首页 > 专利查询>浙江大学专利>正文

基于属性级不确定性模型的一对多型PSJ聚集查询方法技术

技术编号:18050138 阅读:52 留言:0更新日期:2018-05-26 08:08
本发明专利技术公开了一种基于属性级不确定性模型的一对多型PSJ聚集查询方法,包括:1)首先利用属性级不确定性模型为PSJ建模;2)在建模结果上,基于动态规划思想提出聚集查询方法:先计算出PSJ子集的聚集值概率分布,然后在子集的结果上计算出PSJ全集的聚集值概率分布。本发明专利技术充分考虑一对多型PSJ的依赖关系,结合属性级不确定性模型,解决了在一对多型PSJ上难以执行COUNT查询和SUM查询的问题,在数据库、联机分析处理以及数据仓库中具有广阔的应用前景。

【技术实现步骤摘要】
基于属性级不确定性模型的一对多型PSJ聚集查询方法
本专利技术涉及概率型相似性连接(ProbabilisticSimilarityJoin,PSJ)的聚集查询领域,具体涉及基于属性级不确定性模型的一对多型PSJ聚集查询方法。
技术介绍
连接聚集查询在数据库、联机分析处理以及数据仓库中应用广泛,此类查询通常先采用连接操作将多张关系表合并起来,然后再执行聚集运算。然而,由于信息时代数据爆炸式增长,数据本身的不确定性以及数据采集和集成过程中引入的不确定性,导致大量数据具有不完整性和模糊性。不确定性数据的存在常常使得多表之间无法连接,进而导致基于连接操作的聚集查询失败。PSJ查询基于相似性度量函数,能够将相似的元组连接起来,有效解决了不确定性数据的连接问题。按照映射约束的不同,PSJ可分为三类:一对一型PSJ、一对多型PSJ和多对多型PSJ。然而,PSJ查询的原始结果通常为一组带概率的连接,这组连接并不满足映射约束。从这组PSJ中选取出部分连接,使其满足映射约束,则该部分连接同时出现的状态称为一个可能世界,该可能世界的概率为该部分连接同时出现的联合概率。在PSJ上执行聚集查询,实质上是对所有可能世界求聚集值。但是,PSJ的可能世界数量众多,基于PSJ的聚集查询面临挑战。在PSJ上做聚集查询的方法较少。部分方法通过限制连接条数或者划定概率阈值来减少可能世界数量,但是这些方法不但丢失了大量信息,而且不考虑映射约束。
技术实现思路
本专利技术的目的是提供一种基于属性级不确定性模型的一对多型PSJ聚集查询方法,该方法能够对一对多型PSJ建模,并基于模型有效地计算一对多型PSJ的COUNT值和SUM值概率分布,进而缩短计算时间,提高查询效率。为实现上述目的,本专利技术提供的技术方案为:一种基于属性级不确定性模型的一对多型PSJ聚集查询方法,包括以下步骤:(1)利用属性级不确定性模型为一对多型PSJ建模,形成PSJ全集的建模结果;(2)基于所述建模结果,采用动态规划思想,计算PSJ子集的聚集值概率分布,并基于所述PSJ子集的聚集值概率分布的结果,计算得PSJ全集的聚集值概率分布。所述步骤(1)包括:(1-1)为PSJ多端的每一条元组构造一条虚拟连接,确保互斥连接的概率和为1;(1-2)为满足COUNT查询谓词条件的PSJ增加标志属性,为满足SUM查询谓词条件的PSJ增加求和属性;(1-3)采用属性级不确定性模型对PSJ建模,将多端的每一条元组建模为一条属性级不确定性元组,组成属性级不确定性元组全集,形成PSJ全集的建模结果。作为优选,所述步骤(1-2)包括:若聚集查询为COUNT查询,则为PSJ增加一个属性F,表示所述PSJ是否满足谓词条件,如果若所述PSJ满足谓词条件,那么F=1,否则F=0;若聚集查询为SUM查询,则为PSJ增加一个属性F,表示所述PSJ求和属性值的大小,若所述PSJ连接满足谓词条件,那么F等于所述PSJ的原始求和属性值,否则F=0。所述计算PSJ子集的聚集值概率分布包括:首先,选取PSJ子集T1,所述PSJ子集T1只包含一条属性级不确定性元组t1,所述PSJ子集T1的不确定性属性值为{F1_1,F1_2,…,F1_k},对应的概率为{p1_1,p1_2,…,p1_k};然后,枚举出所述PSJ子集T1的可能世界空间W1,W1包含k个可能世界实例{w1,…,wk};最后,计算每个可能世界实例的聚集值y及其概率pr(y,T1),得到所述PSJ子集的聚集值概率分布PrD(Y,T1),将其存储在List中。所述计算得PSJ全集的聚集值概率分布包括:(a)假设已知PSJ子集Ti-1,所述PSJ子集Ti-1包含第i-1条元组,所述PSJ子集Ti-1的可能世界空间为Wi-1,聚集值概率分布为PrD(Y,Ti-1),存储在链表List中;(b)向所述PSJ子集Ti-1中插入一条不确定性元组ti,构成PSJ子集Ti;(c)将所述PSJ子集Ti的可能世界空间表示为Wi,假设不确定性元组ti有k个属性值,将所述可能世界空间Wi分为k部分,表示为Wij(1≤j≤k);(d)所述可能世界空间Wij与所述可能世界空间Wi-1相比,可能世界实例中多一条不确定性元组ti,ti的属性值取值为Fi_j,在PrD(Y,Ti-1)的基础上,计算Wij的聚集值概率分布PrDj(y,Ti);(e)所述PSJ子集Ti的可能世界空间Wi由{Wi1,…,Wik}组成,其聚集值为y的概率等于{Wi1,…,Wik}中聚集值为y的概率和,合并临时链表List1,…,Listk,得到所述PSJ子集Ti的聚集值概率分布PrD(Y,Ti);(f)重复步骤2~5,直到返回所述PSJ全集的聚集值概率分布为止。作为优选,所述步骤(d)包括:所述可能世界空间Wij的聚集值值域等于Wi-1的聚集值值域再加上Fi_j;且所述可能世界空间Wij中聚集值为y的概率等于Wi-1中聚集值为y-Fi_j的概率再乘以pi_j,并将所述可能世界空间Wij的聚集值概率分布PrDj(y,Ti)存储在临时链表中Listj中;依此类推,得到Wi1,…,Wik的聚集值概率分布,依次表示为PrD1(Y,Ti),…,PrDk(Y,Ti),并分别将其存储在临时链表中List1,…,Listk中。作为优选,所述步骤(e)包括:首先,清空链表List中原有的数据;然后,针对k个临时链表中聚集值相同的项,将其概率相加,然后插入到链表List中,针对聚集值不相同的项,直接将其插入到链表List中;最后,删除所有临时链表。本专利技术在考虑一对多映射约束的情况下,利用属性级不确定性模型对PSJ建模,并在建模结果上采用动态规划的方法计算PSJ的聚集值。与现有方法相比,本专利技术的优点包括:(1)采用属性级不确定性模型对一对多型PSJ建模,无需限定PSJ条数或划定概率阈值,有效的保全了PSJ之间的全部依赖信息,为此类PSJ的建模问题提供了新方法。(2)基于动态规划思想计算一对多型PSJ的聚集值概率分布,并在每一次递归过程中合并临时链表,有效的控制了中间结果的大小,使时间复杂度和空间复杂度不呈指数上升。附图说明图1是实施例提供的基于属性级不确定性模型的一对多型PSJ聚集查询方法的流程图;图2是实施例提供的一对多型PSJ结果的建模过程示意图;图3(a)是实施例提供的不确定性元组集合的子集T1的可能世界空间,图3(b)是图3(a)示出的可能世界空间的聚集值概率分布;图4实施例提供的不确定性元组集合的子集Ti的可能世界推导过程示意图;图5实施例提供的不确定性元组集合的子集Ti的聚集值概率分布计算过程示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。图1是实施例提供的基于属性级不确定性模型的一对多型PSJ聚集查询方法的流程图。该方法分为预处理、初始化递归基础以及递归三个阶段,能够解决一对多型PSJ的COUNT查询和SUM查询问题。预处理阶段:本阶段主要是将一对多型PSJ建模为属性级不确定性元组。该阶段可分为构造虚拟连接、处理谓词条件和构造不确定性元组三个步骤,具体内容如下:S101,构造虚拟连接:本文档来自技高网...
基于属性级不确定性模型的一对多型PSJ聚集查询方法

【技术保护点】
一种基于属性级不确定性模型的一对多型PSJ聚集查询方法,包括以下步骤:(1)利用属性级不确定性模型为一对多型PSJ建模,形成PSJ全集的建模结果;(2)基于所述建模结果,采用动态规划思想,计算PSJ子集的聚集值概率分布,并基于所述PSJ子集的聚集值概率分布的结果,计算PSJ全集的聚集值概率分布。

【技术特征摘要】
1.一种基于属性级不确定性模型的一对多型PSJ聚集查询方法,包括以下步骤:(1)利用属性级不确定性模型为一对多型PSJ建模,形成PSJ全集的建模结果;(2)基于所述建模结果,采用动态规划思想,计算PSJ子集的聚集值概率分布,并基于所述PSJ子集的聚集值概率分布的结果,计算PSJ全集的聚集值概率分布。2.如权利要求1所述的基于属性级不确定性模型的一对多型PSJ聚集查询方法,其特征在于,所述步骤(1)包括:(1-1)为PSJ多端的每一条元组构造一条虚拟连接,确保互斥连接的概率和为1;(1-2)为满足COUNT查询谓词条件的PSJ增加标志属性,为满足SUM查询谓词条件的PSJ增加求和属性;(1-3)采用属性级不确定性模型对PSJ建模,将多端的每一条元组建模为一条属性级不确定性元组,组成属性级不确定性元组全集,形成PSJ全集的建模结果。3.如权利要求2所述的基于属性级不确定性模型的一对多型PSJ聚集查询方法,其特征在于,所述步骤(1-2)包括:若聚集查询为COUNT查询,则为PSJ增加一个属性F,表示所述PSJ是否满足谓词条件,如果若所述PSJ满足谓词条件,那么F=1,否则F=0;若聚集查询为SUM查询,则为PSJ增加一个属性F,表示所述PSJ求和属性值的大小,若所述PSJ连接满足谓词条件,那么F等于所述PSJ的原始求和属性值,否则F=0。4.如权利要求1所述的基于属性级不确定性模型的一对多型PSJ聚集查询方法,其特征在于,所述计算PSJ子集的聚集值概率分布包括:首先,选取PSJ子集T1,所述PSJ子集T1只包含一条属性级不确定性元组t1,所述PSJ子集T1的不确定性属性值为{F1_1,F1_2,…,F1_k},对应的概率为{p1_1,p1_2,…,p1_k};然后,枚举出所述PSJ子集T1的可能世界空间W1,W1包含k个可能世界实例{w1,…,wk};最后,计算每个可能世界实例的聚集值y及其概率pr(y,T1),得到所述PSJ子集的聚集值概率分布PrD(Y,T1),将其存储在List中。5.如权利要求1所述的基于属性级不确定性模型的一对多型PSJ聚集查询方法,其特征在于,...

【专利技术属性】
技术研发人员:陈岭王俊凯
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1