基于聚类的非一致性数据库查询方法技术

技术编号：9718868 阅读：161 留言：0更新日期：2014-02-27 05:40

本发明专利技术涉及一种基于聚类的非一致性数据库查询方法，属于数据库查询技术领域。具体包括：（1）多个关系的可信聚类概率的查询重写算法；（2）无连接聚集查询重写算法；（3）基于聚类的有连接聚集查询重写算法。本发明专利技术以元组匹配所产生的聚类和元组概率为基础，提出了可信聚类概念和基于概率方法的非一致性数据库查询重写方法。查询重写缩小了结果集中的可信聚类数量，有效地提高了查询性能。此基础上扩展了基于概率方法的聚集查询重写，不但考虑连接查询，而且考虑聚集分组SPJ查询。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种，属于数据库查询
。
技术介绍
聚类方法把数据集合分成若干类，使得每个类内部的数据尽量相似，而属于不同类的数据尽量不同。现实世界中，有ー种不确定信息，信息不精确。在处理不确定性信息方面，经典关系数据库处理不了具有不精确的数据，因而概率数据模型扩展了关系数据模型，对数据的不确定性进行了度量，在数据库的关系中引入概率属性来表示该元组的不确定性。对于实体对应的多个元组而言，每个元组的属性值是不确定的，表示实体的概率大小。基于聚类的概念，聚类内多个潜在的非一致性元组可以给定概率，假定ー个聚类代表ー个现实实体，聚类内的姆个元组表示实体的概率和为I，认为是元组在聚类内概率是条件独立的，在不同聚类之间概率是独立的；并提出了一种候选数据库概念，对聚类概率进行计算和评价，但考虑的候选数据库对于实际的海量数据库来说是不可行的，且没有考虑查询重写。
技术实现思路
本专利技术的目的在于提供一种，以便缩小结果集中的可信聚类数量，有效地提高查询性能。为了实现上述目的，本专利技术的技术方案如下。一种，具体包括: (I)多个关系的可信聚类概率的查询重写算...

【技术保护点】
一种基于聚类的非一致性数据库查询方法，其特征在于：具体包括：?（1）多个关系的可信聚类概率的查询重写算法，详细的步骤如下：（1a）在给定的一个SPJ查询中，首先得到查询中的关系个数t和选择条件个数k，初始化重写查询RJ；外循环次数为关系个数，内循环为选择条件个数；在外循环中，取得临时变量存储产生结果集的别名filter，初始化非连接合取谓词集SCW和连接合取谓词属性集AJ；（1b）在第1个内循环中，如果合取选择谓词中的属性是关系中的属性，则判断是否为连接的；如果为非连接合取谓词，则把合取选择谓词中的属性加入到非连接合取谓词属性集SCW中，否则加入到连接合取谓词属性集AJ中；（1c）在第2个内循...

【技术特征摘要】
1.一种基于聚类的非一致性数据库查询方法，其特征在于:具体包括: (1)多个关系的可信聚类概率的查询重写算法，详细的步骤如下: (Ia)在给定的ー个SPJ查询中，首先得到查询中的关系个数t和选择条件个数I初始化重写查询皮/;外循环次数为关系个数，内循环为选择条件个数；在外循环中，取得临时变量存储产生结果集的别名filter,初始化非连接合取谓词集和连接合取谓词属性集AJ； (Ib)在第I个内循环中，如果合取选择谓词中的属性是关系中的属性，则判断是否为连接的；如果为非连接合取谓词，则把合取选择谓词中的属性加入到非连接合取谓词属性集中，否则加入到连接合取谓词属性集中； (Ic)在第2个内循环中，如果合取选择谓词中的属性是查询中投影属性，把合取选择谓词中的属性加入到连接合取谓词属性集中； (Id)在外循环的最后取得该次循环产生的过滤查询ガブ;连接合取谓词属性集5Tゾ等于合取谓词属性集减去非连接合取谓词属性集SCW ； (Ie)通过已经取得的产生过滤查询ガブ、连接合取谓词属性集5Tゾ和结果集别名A7 ter，最终输出查询重写语句； (2)无连接聚集查询重写算法，具体算法的基本步骤如下: (2a)首先对初始分组属性G和聚类属性cluster进行分组求聚集属性的最大值、最小值以及期望值和，得到结果集^/7ゴ； (2b)如果同一聚类内分组属性值不相同，则最小值为O，因此需要去掉这种情况的元组，在产生的结果集cmd上对初始分组属性G进行分组求最小值和，得到包含最小值的结果集min_cand ； (2c )在结果集cmd上对初始分组属性G进行分组求最大值和期望值和，得到包含最大值和期望值的结果集max_ cand ； (2d)在外查询中，对已经产生的包含最大值和期望值的结果集左连接到包含最小值的的结果集;如果连接得到最小值为空，则最小值为O ;最终产生初始分组属性G的最值...

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：湖南人文科技学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人