一种大规模分布式函数依赖发现方法技术

技术编号：19057388 阅读：20 留言：0更新日期：2018-09-29 12:16

本发明专利技术公开了一种大规模分布式函数依赖发现方法，包括以下步骤：第一步，并行地获取数据集的统计信息、对属性进行排序和对数据进行分布式编码；第二步，依次选取属性，将在该属性上取值相同的数据发送到同一个节点上；第三步，在每个节点上进行候选函数依赖发现。该过程可以分为以下两步：第一步，并行地进行采样，利用采样结果对候选集进行剪枝和生成；第二步，并行地对候选集进行验证，利用验证结果对候选集进行剪枝和生成。每轮采样和验证结束后均需根据其效率来决定是否进行采样和验证的切换。第四步，生成函数依赖结果。本发明专利技术可高效地实现分布式函数依赖发现，解决现有函数依赖求解方法计算量大、内存占用多、无法处理大规模数据集等问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种大规模分布式函数依赖发现方法
本专利技术涉及函数依赖发现与并行计算
，尤其涉及一种大规模分布式函数依赖发现方法。
技术介绍
函数依赖是一种重要的元数据信息，在数据清理、知识发现、数据集成和模式规范化等领域都有着广泛的应用。但是函数依赖发现的计算复杂度非常高，相关的工作中并没有太多并行化的分布式函数依赖发现方法，人们更侧重于研究单机的函数依赖发现方法。前人提出的最优单机函数依赖发现方法HyFD，虽然其性能基本上超越了所有其他单机算法，但事实证明，该方法在执行过程中需要消耗大量的计算资源，主要是面向小规模、集中式存储数据进行函数依赖发现，无法对大规模、分布式数据。在大数据的时代背景下，数据规模不断增大，数据往往被分布存储在多个节点上。此时，在多个节点并行地运行单机算法无法保证函数依赖发现的正确性。面对大数据的挑战，有人提出了将所有数据传输到单个节点进行函数依赖发现的方法，但该方法无法高效地利用计算资源，也不能进行计算和存储的水平扩展。也有人提出了分布式大数据函数依赖发现的方法，旨在解决上述方法的扩展性问题，但是没有一种能够在行和列上拥有较好扩展性的解决方案。因此，如何设计一个面向大规模数据的、高效的、行和列扩展性好的函数依赖发现方法就成为了并行化方法设计的挑战。以往的相关工作中，有以HyFD算法为代表的单机函数依赖发现方法。首先,该方法对数据集进行定制化的采样，减少待处理数据的行数，并利用采样数据和列高效的算法对候选函数依赖进行剪枝和生成。然后，将剩余的候选函数依赖在所有数据上进行验证。这种方法的优势在于利用列高效的算法降低了候选函数依赖的数量，从而...

【技术保护点】
1.一种大规模分布式函数依赖发现方法，包括以下步骤：(1)并行地获取输入数据的统计信息，根据统计信息对属性进行排序，根据统计信息和属性排序结果对数据进行分布式编码；(2)根据步骤(1)中的结果，分多轮执行步骤(3)到步骤(4)；(3)根据步骤(1)的属性排序结果，每次选取一个属性并对步骤(1)中分布式编码的数据进行重分布；(4)根据步骤(3)的结果，分多轮执行步骤(5)到步骤(6)，每一轮对左部中包含被选属性的所有候选函数依赖进行发现，直到左部包含该属性的所有候选函数依赖被排除或者被验证；(5)对步骤(3)中重分布的数据进行并行地采样并根据采样结果对候选集进行剪枝和生成，采样效率低于验证效率时转向步骤(6)；(6)对步骤(3)中重分布的数据进行并行地验证并根据验证结果对候选集进行剪枝和生成，验证效率低于采样效率时转向步骤(4)；(7)删除步骤(4)的结果中非最小的函数依赖并根据步骤(1)中的属性排序结果对函数依赖的属性顺序进行调整，得到所有最小的非平凡的函数依赖。

【技术特征摘要】
1.一种大规模分布式函数依赖发现方法，包括以下步骤：(1)并行地获取输入数据的统计信息，根据统计信息对属性进行排序，根据统计信息和属性排序结果对数据进行分布式编码；(2)根据步骤(1)中的结果，分多轮执行步骤(3)到步骤(4)；(3)根据步骤(1)的属性排序结果，每次选取一个属性并对步骤(1)中分布式编码的数据进行重分布；(4)根据步骤(3)的结果，分多轮执行步骤(5)到步骤(6)，每一轮对左部中包含被选属性的所有候选函数依赖进行发现，直到左部包含该属性的所有候选函数依赖被排除或者被验证；(5)对步骤(3)中重分布的数据进行并行地采样并根据采样结果对候选集进行剪枝和生成，采样效率低于验证效率时转向步骤(6)；(6)对步骤(3)中重分布的数据进行并行地验证并根据验证结果对候选集进行剪枝和生成，验证效率低于采样效率时转向步骤(4)；(7)删除步骤(4)的结果中非最小的函数依赖并根据步骤(1)中的属性排序结果对函数依赖的属性顺序进行调整，得到所有最小的非平凡的函数依赖。2.根据权利要求1所述一种大规模分布式函数依赖发现方法，其特征在于：所述步骤(1)中，每个计算节点获取部分输入数据的统计信息，发送统计信息到控制节点，控制节点汇总统计信息，计算属性的基数、方差和倾斜度，根据属性的基数、方差和倾斜度对属性进行排序，将属性排序结果和统计信息发送到计算节点，计算节点对数据进行编码。3.根据权利要求...

【专利技术属性】
技术研发人员：顾荣，黄宜华，朱光辉，王千，袁春风，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人