一种代表性函数依赖的发现方法技术

技术编号：40540168 阅读：4 留言：0更新日期：2024-03-05 18:55

本发明专利技术公开了一种代表性函数依赖的发现方法，包括如下步骤：获取原始数据集，基于所述原始数据集中的每个属性构建属性幂集格的单个属性生成分区集并为所述属性幂集格中的每个节点生成Rhs<supgt;+</supgt;集；对所述属性幂集格进行层级由下至上的遍历，在当前层遍历结束后对当前层节点进行剪枝，基于剪枝后节点的超集节点生成上一层的节点，直至当前层的剪枝后节点不存在超集节点，其中，在遍历过程中进行每个节点所对应的候选函数依赖的代表性判断和验证，所述剪枝基于当前层节点的Rhs<supgt;+</supgt;集和分区集进行。在大大提高函数依赖发现效率、缩小结果集规模的同时，保证了结果的准确性和代表性，效果优于现有方法，且具有通用性强、使用简便等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据库，尤其涉及一种代表性函数依赖的发现方法。

技术介绍

1、函数依赖在数据库领域有非常重要的应用。自函数依赖的概念被提出(codd ef.further normalization of the data base relational model[j].data basesystems,1972,6:33-64)(weddell g e.reasoning about functional dependenciesgeneralized for semantic data models[j].acm transactions on database systems(tods),1992,17(1):32-64)后，函数依赖的发现方法一直是一个热门的研究课题。

2、函数依赖的发现算法可分为准确发现算法和近似发现算法。当前的传统函数依赖发现算法以准确发现算法为主，许多研究工作针对发现准确、完整的函数依赖集合进行了大量工作，如(huhtala y,j,porkka p,et al.tane:an efficient algorithmfor discovering functional and approximate dependencies[j].the computerjournal,1999,42(2):100-111)(novelli n,cicchetti r.fun:an efficient algorithmfor mining functional and embedded depende

3、其中，格遍历算法，如(huhtala y,j,porkka p,et al.tane:anefficient algorithm for discovering functional and approximate dependencies[j].the computer journal,1999,42(2):100-111)，将函数依赖的左部单位化为一个格，所有的格构成了函数依赖空间，将对于函数依赖的操作抽象化为对于格的遍历、关系检查、删除和添加；依赖归纳算法则以(flach p a,savnik i.database dependency discovery:a machine learning approach[j].ai communications,1999,12(3):139-160.)为代表，先从数据集上得到所有的非函数依赖，再由非函数依赖推导得到所有的函数依赖。混合型算法以(apenbrock t,naumann f.a hybrid approach to functional dependencydiscovery[a].proceedings of the 2016international conference on management ofdata[c].2016：821-833)为代表，采用了多个模块组合以及循环控制的方法来发现准确的函数依赖结果。

4、除以上函数依赖的发现算法之外，代表性函数依赖发现是一个新的课题，旨在从完整的函数依赖结果集中挑选出部分更有代表性的函数依赖，从而在不丢失大量函数依赖相关信息的同时缩小结果集规模，降低理解和应用的难度。(ziheng wei and sebastianlink.2019.discovery and ranking of functional dependencies.in 35th ieeeinternational conference on data engineering，icde 2019，macao，china，april 8-11，2019.ieee，1526-1537.)是唯一一项关于对函数依赖发现的结果集进行排序和选择以减少结果集规模的研究，也是与本方法关系最密切的一个思路。该方法引入了一种动态混合算法dhyfd用于函数依赖发现，并对函数依赖结果进行排名。对于函数依赖排序，dhyfd通过函数依赖引起的冗余值出现的次数来度量其与数据集的相关性。然而，他们只是提供了关于函数依赖导致数据冗余的统计数据和排名的粗略概述作为示例，没有提供关于获得所有函数依赖结果的确切总体排名的方法细节。此外，它们对函数依赖结果的排序仅作为dhyfd运行后的附加处理独立进行，与函数依赖结果发现过程相互独立，且数据冗余的统计需要扫描数据集中的所有值，这意味着除了函数依赖发现之外，还会增加高昂的开销。

技术实现思路

1、本申请实施例的目的是在于针对代表性函数依赖发现问题现有技术的不足，提供一种代表性函数依赖的发现方法。

2、根据本申请实施例的第一方面，提供一种代表性函数依赖的发现方法，包括：

3、(1)获取原始数据集，基于所述原始数据集r＝{a1，a2，a3，…，an}中的每个属性ai构建属性幂集格的初始层，为所述属性幂集格的初始层中的每个节点生成rhs+集，通过聚类得到所述原始数据集中每个属性的剥离分区；

4、(2)对所述属性幂集格进行层级由下至上的遍历，在当前层遍历结束后对当前层节点进行剪枝，基于剪枝后节点的超集节点生成上一层的节点，直至当前层的剪枝后节点不存在超集节点，其中，在遍历过程中进行每个节点所对应的候选函数依赖的代表性判断和验证，所述剪枝基于当前层节点的rhs+集和对应属性或属性集合的剥离分区进行。

5、进一步地，通过聚类得到所述原始数据集中每个属性的剥离分区，包括：

6、(1.1)在原始数据集r＝{a1，a2，a3，…，an}的每个属性ai下进行基于属性值的聚类操作，使得在相同属性上具有相同属性值的元组t被包含于同一簇中，由簇构成各属性所对应的分区πa，即πa＝{[t]a|t∈r}；

7、(1.2)将步骤(1.1)中得到的每个属性分区πa中元素个数为1的簇省略本文档来自技高网...

【技术保护点】

1.一种代表性函数依赖的发现方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，通过聚类得到所述原始数据集中每个属性的剥离分区，包括：

3.根据权利要求1所述的方法，其特征在于，所述Ehs+集由当前节点可能构成的最小非平凡函数依赖的右部组成。

4.根据权利要求2所述的方法，其特征在于，所述步骤(2)中，进行节点所对应的候选函数依赖的代表性判断和验证，具体为：

5.根据权利要求4所述的方法，其特征在于，如果则函数依赖X→A成立，其中

6.根据权利要求4所述的方法，其特征在于，若节点的Rhs+集为空集，则将该节点剪枝。

7.根据权利要求4所述的方法，其特征在于，对于具有代表性且成立的函数依赖，在所述压缩树形结构中寻找是否存在左部为该函数依赖的左部的子集且右部与该函数依赖的右部相同的函数依赖，若存在，则该函数依赖非最小。

8.根据权利要求2所述的方法，其特征在于，使用哈希表结构存储每个层级计算过的剥离分区，每个节点均维护有一个值k以记录该节点的剥离分区从哪个属性子集开始计算，该值

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种代表性函数依赖的发现方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，通过聚类得到所述原始数据集中每个属性的剥离分区，包括：

3.根据权利要求1所述的方法，其特征在于，所述ehs+集由当前节点可能构成的最小非平凡函数依赖的右部组成。

4.根据权利要求2所述的方法，其特征在于，所述步骤(2)中，进行节点所对应的候选函数依赖的代表性判断和验证，具体为：

5.根据权利要求4所述的方法，其特征在于，如果则函数依赖x→a成立，其中

6.根据权利要求4所述的方法，其特征在于，若节点的rhs+集为空集，则将该节点剪枝。

7.根据权利要求4所述的方法，其特征在于，对于...

【专利技术属性】
技术研发人员：赛竞艳，林琼琼，刘金飞，文龙，任奎，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人