分布式数据的概率过滤方法、装置、设备及存储介质制造方法及图纸

技术编号:44186128 阅读:17 留言:0更新日期:2025-02-06 18:27
本申请涉及一种分布式数据的概率过滤方法、装置、设备以及存储介质。所述方法包括:收集分布式系统中每个局部节点的最高分数,生成原始数据集,并采用基于值的过滤器对所述原始数据集进行剪裁,得到剪裁后的数据集;对于所述剪裁后的数据集,采用泊松过滤器生成随机样本,并利用所述随机样本向查询发起者发送响应消息;所述查询发起者接收到响应消息后,根据所述泊松过滤器的规则构建第一候选列表C<subgt;1</subgt;,并使用裁剪后的数据集对所述第一候选列表C<subgt;1</subgt;进行细化,生成第二候选列表C<subgt;2</subgt;;通过所述原始数据集对第二候选列表C<subgt;2</subgt;进行验证后,输出查询结果。本申请利用泊松过滤器以低通信成本处理分布式系统的top‑k聚合查询,降低了整体的计算成本和通信成本。

【技术实现步骤摘要】

本申请属于计算机,特别涉及一种分布式数据的概率过滤方法、装置、设备以及存储介质。


技术介绍

1、在查询大规模数据时,通常使用top-k聚合查询为用户提供简洁而有意义的查询结果。给定一个由m个局部节点组成的分布式系统,top-k聚合查询的目标是找到一个大小为k的子集t。这种类型的查询聚合了来自不同来源的同一组项目的分数,并识别出组合分数最高的前k个项目。当数据量很小时,通过检索所有数据并集中处理它们,可以简单地回答分布式数据上的top-k聚合问题。然而,在处理更大量的数据时,有限的通信带宽和计算资源需要更复杂的查询方案。

2、为了解决上述问题,许多方法通过使用一组条件作为过滤器来增强查询过程,以防止局部节点发送低质量数据。该方法通过采用一组条件作为过滤器来限制分布式系统中每个局部节点传输的信息量,从而增强查询过程,降低通信开销和查询发起者(中心)的计算成本。这些过滤器包括基于值的过滤、基于位置的过滤以及基于生成信息的过滤等。然而,对于tput、ta及其变体的简单基于值和基于位置的过滤方法,仍然允许过多不相关的数据通过,导致执行成本较高。相比之下,本文档来自技高网...

【技术保护点】

1.一种分布式数据的概率过滤方法,其特征在于,包括:

2.根据权利要求1所述的分布式数据的概率过滤方法,其特征在于,所述采用基于值的过滤器对所述原始数据集进行剪裁,得到剪裁后的数据集,具体为:

3.根据权利要求2所述的分布式数据的概率过滤方法,其特征在于,所述对于所述剪裁后的数据集,采用泊松过滤器生成随机样本,并利用所述随机样本向查询发起者发送响应消息,具体为:

4.根据权利要求3所述的分布式数据的概率过滤方法,其特征在于,所述所述查询发起者接收到响应消息后,根据所述泊松过滤器的规则构建第一候选列表C1,具体为:

5.根据权利要求1至4任一...

【技术特征摘要】

1.一种分布式数据的概率过滤方法,其特征在于,包括:

2.根据权利要求1所述的分布式数据的概率过滤方法,其特征在于,所述采用基于值的过滤器对所述原始数据集进行剪裁,得到剪裁后的数据集,具体为:

3.根据权利要求2所述的分布式数据的概率过滤方法,其特征在于,所述对于所述剪裁后的数据集,采用泊松过滤器生成随机样本,并利用所述随机样本向查询发起者发送响应消息,具体为:

4.根据权利要求3所述的分布式数据的概率过滤方法,其特征在于,所述所述查询发起者接收到响应消息后,根据所述泊松过滤器的规则构建第一候选列表c1,具体为:

5.根据权利要求1至4任一项所述的分布式数据的概率过滤方法,其特征在于,所述使用裁剪后的数据集对所述第一候选列表c1进行...

【专利技术属性】
技术研发人员:曲强黄文东
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1