System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 分布式数据的概率过滤方法、装置、设备及存储介质制造方法及图纸_技高网

分布式数据的概率过滤方法、装置、设备及存储介质制造方法及图纸

技术编号:44186128 阅读:11 留言:0更新日期:2025-02-06 18:27
本申请涉及一种分布式数据的概率过滤方法、装置、设备以及存储介质。所述方法包括:收集分布式系统中每个局部节点的最高分数,生成原始数据集,并采用基于值的过滤器对所述原始数据集进行剪裁,得到剪裁后的数据集;对于所述剪裁后的数据集,采用泊松过滤器生成随机样本,并利用所述随机样本向查询发起者发送响应消息;所述查询发起者接收到响应消息后,根据所述泊松过滤器的规则构建第一候选列表C<subgt;1</subgt;,并使用裁剪后的数据集对所述第一候选列表C<subgt;1</subgt;进行细化,生成第二候选列表C<subgt;2</subgt;;通过所述原始数据集对第二候选列表C<subgt;2</subgt;进行验证后,输出查询结果。本申请利用泊松过滤器以低通信成本处理分布式系统的top‑k聚合查询,降低了整体的计算成本和通信成本。

【技术实现步骤摘要】

本申请属于计算机,特别涉及一种分布式数据的概率过滤方法、装置、设备以及存储介质。


技术介绍

1、在查询大规模数据时,通常使用top-k聚合查询为用户提供简洁而有意义的查询结果。给定一个由m个局部节点组成的分布式系统,top-k聚合查询的目标是找到一个大小为k的子集t。这种类型的查询聚合了来自不同来源的同一组项目的分数,并识别出组合分数最高的前k个项目。当数据量很小时,通过检索所有数据并集中处理它们,可以简单地回答分布式数据上的top-k聚合问题。然而,在处理更大量的数据时,有限的通信带宽和计算资源需要更复杂的查询方案。

2、为了解决上述问题,许多方法通过使用一组条件作为过滤器来增强查询过程,以防止局部节点发送低质量数据。该方法通过采用一组条件作为过滤器来限制分布式系统中每个局部节点传输的信息量,从而增强查询过程,降低通信开销和查询发起者(中心)的计算成本。这些过滤器包括基于值的过滤、基于位置的过滤以及基于生成信息的过滤等。然而,对于tput、ta及其变体的简单基于值和基于位置的过滤方法,仍然允许过多不相关的数据通过,导致执行成本较高。相比之下,诸如klee、伯努利采样等基于生成信息的过滤在限制通信成本方面要高效得多,但它们在每个局部节点中需要更多的计算资源,且有效性还有很大的提升空间。


技术实现思路

1、本申请提供了一种分布式数据的概率过滤方法、装置、设备以及存储介质,旨在至少在一定程度上解决现有技术中的上述技术问题之一.

2、为了解决上述问题,本申请提供了如下技术方案:

3、一种分布式数据的概率过滤方法,包括:

4、接收到查询发起者发送的top-k聚合查询请求后,收集分布式系统中每个局部节点的最高分数,生成原始数据集,并采用基于值的过滤器对所述原始数据集进行剪裁,得到剪裁后的数据集;

5、对于所述剪裁后的数据集,采用泊松过滤器生成随机样本,并利用所述随机样本向查询发起者发送响应消息;

6、所述查询发起者接收到响应消息后,根据所述泊松过滤器的规则构建第一候选列表c1,并使用裁剪后的数据集对所述第一候选列表c1进行细化,生成第二候选列表c2;

7、通过所述原始数据集对第二候选列表c2进行验证后,输出查询结果。

8、本申请实施例采取的技术方案还包括:所述采用基于值的过滤器对所述原始数据集进行剪裁,得到剪裁后的数据集,具体为:

9、将所述原始数据集中缺失的分数替换为零,并计算部分总分数,将top-k聚合查询的第k个最高部分总分数设置为τ;

10、将值τ1=f-1(τ)广播给所有局部节点,并采用基于值的过滤器过滤掉所有局部节点中低于值τ1的分数,得到剪裁后的数据集;其中f-1是单调聚合函数f的逆函数,如果单调聚合函数是求和,则m为所述分布式系统中局部节点的数量。

11、本申请实施例采取的技术方案还包括:所述对于所述剪裁后的数据集,采用泊松过滤器生成随机样本,并利用所述随机样本向查询发起者发送响应消息,具体为:

12、对于剪裁后的数据集中的所有局部节点lj,通过泊松分布pois(sijλ)生成随机样本rij,并通过所述局部节点发送生成的不为零的正随机样本。

13、本申请实施例采取的技术方案还包括:所述所述查询发起者接收到响应消息后,根据所述泊松过滤器的规则构建第一候选列表c1,具体为:

14、计算所述响应消息中在局部节点lj中存储的每个项目的聚合样本分数,r(k)←第k个最高的聚合样本分数;

15、是伽马分布的分位数函数;

16、是泊松分布的分位数函数;

17、将聚合样本分数不小于α2的所有项目添加到第一候选列表c1中;其中,当存在s(k)的较低阈值τ可用时,λ值设置为α2的值为

18、本申请实施例采取的技术方案还包括:所述使用裁剪后的数据集对所述第一候选列表c1进行细化,生成第二候选列表c2之前,还包括:

19、判断所述第一候选列表c1的大小是否超过设定上限,如果超过设定上限,执行所述使用裁剪后的数据集对所述第一候选列表c1进行细化的步骤。

20、本申请实施例采取的技术方案还包括:所述所述使用裁剪后的数据集对所述第一候选列表c1进行细化,生成第二候选列表c2,具体为:

21、检索所述第一候选列表c1中所有分数不小于τ1的项目,并计算所述第一候选列表c1中项目的总得分上限,去除总得分上限小于第k个最高聚合样本分数下限的项目,生成第二候选列表c2。

22、本申请实施例采取的另一技术方案为:一种分布式数据的概率过滤装置,包括:

23、数据剪裁模块:用于在接收到查询发起者发送的top-k聚合查询请求后,收集分布式系统中每个局部节点的最高分数,生成原始数据集,并采用基于值的过滤器对所述原始数据集进行剪裁,得到剪裁后的数据集;

24、随机样本生成模块:用于采用泊松过滤器对所述剪裁后的数据集生成随机样本,并利用所述随机样本向查询发起者发送响应消息;

25、列表生成模块:用于在所述查询发起者接收到响应消息后,根据所述泊松过滤器的规则构建第一候选列表c1,并使用裁剪后的数据集对所述第一候选列表c1进行细化,生成第二候选列表c2;

26、列表验证模块:用于通过所述原始数据集对第二候选列表c2进行验证后,输出查询结果。

27、本申请实施例采取的技术方案还包括:所述列表生成模块在所述查询发起者接收到响应消息后,根据所述泊松过滤器的规则构建第一候选列表c1,具体为:

28、计算所述响应消息中在局部节点lj中存储的每个项目的聚合样本分数,r(k)←第k个最高的聚合样本分数;

29、是伽马分布的分位数函数;

30、是泊松分布的分位数函数;

31、将聚合样本分数不小于α2的所有项目添加到第一候选列表c1中;其中,当存在s(k)的较低阈值τ可用时,λ值设置为α2的值为

32、本申请实施例采取的又一技术方案为:一种设备,所述设备包括处理器、与所述处理器耦接的存储器,其中,

33、所述存储器存储有用于实现所述分布式数据的概率过滤方法的程序指令;

34、所述处理器用于执行所述存储器存储的所述程序指令以控制分布式数据的概率过滤方法。

35、本申请实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行所述分布式数据的概率过滤方法。

36、相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的分布式数据的概率过滤方法、装置、设备以及存储介质利用泊松随机样本的特性,以低通信成本处理分布式系统的top-k聚合查询,利用从原始数据生成的随机样本有效过滤局部节点传输的低质量数据,从而降低整体通信成本,同时保持查询结果的概率保证,并允许用户控制准确性和查询效率之间的权衡,增加了方法的灵活性。并在初始裁剪本文档来自技高网...

【技术保护点】

1.一种分布式数据的概率过滤方法,其特征在于,包括:

2.根据权利要求1所述的分布式数据的概率过滤方法,其特征在于,所述采用基于值的过滤器对所述原始数据集进行剪裁,得到剪裁后的数据集,具体为:

3.根据权利要求2所述的分布式数据的概率过滤方法,其特征在于,所述对于所述剪裁后的数据集,采用泊松过滤器生成随机样本,并利用所述随机样本向查询发起者发送响应消息,具体为:

4.根据权利要求3所述的分布式数据的概率过滤方法,其特征在于,所述所述查询发起者接收到响应消息后,根据所述泊松过滤器的规则构建第一候选列表C1,具体为:

5.根据权利要求1至4任一项所述的分布式数据的概率过滤方法,其特征在于,所述使用裁剪后的数据集对所述第一候选列表C1进行细化,生成第二候选列表C2之前,还包括:

6.根据权利要求5所述的分布式数据的概率过滤方法,其特征在于,所述所述使用裁剪后的数据集对所述第一候选列表C1进行细化,生成第二候选列表C2,具体为:

7.一种分布式数据的概率过滤装置,其特征在于,包括:

8.根据权利要求7所述的分布式数据的概率过滤装置,其特征在于,所述列表生成模块在所述查询发起者接收到响应消息后,根据所述泊松过滤器的规则构建第一候选列表C1,具体为:

9.一种设备,其特征在于,所述设备包括处理器、与所述处理器耦接的存储器,其中:

10.一种存储介质,其特征在于,存储有处理器可运行的程序指令,所述程序指令用于执行权利要求1至6任一项所述分布式数据的概率过滤方法。

...

【技术特征摘要】

1.一种分布式数据的概率过滤方法,其特征在于,包括:

2.根据权利要求1所述的分布式数据的概率过滤方法,其特征在于,所述采用基于值的过滤器对所述原始数据集进行剪裁,得到剪裁后的数据集,具体为:

3.根据权利要求2所述的分布式数据的概率过滤方法,其特征在于,所述对于所述剪裁后的数据集,采用泊松过滤器生成随机样本,并利用所述随机样本向查询发起者发送响应消息,具体为:

4.根据权利要求3所述的分布式数据的概率过滤方法,其特征在于,所述所述查询发起者接收到响应消息后,根据所述泊松过滤器的规则构建第一候选列表c1,具体为:

5.根据权利要求1至4任一项所述的分布式数据的概率过滤方法,其特征在于,所述使用裁剪后的数据集对所述第一候选列表c1进行...

【专利技术属性】
技术研发人员:曲强黄文东
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1