一种基于布谷鸟过滤器的近似成员查询优化方法技术

技术编号:36083176 阅读:26 留言:0更新日期:2022-12-24 10:57
本发明专利技术公开了一种基于布谷鸟过滤器的近似成员查询优化方法,首先是要根据存储集合的大小使用“Balls in Bins”模型计算应该对过滤器分成几个子过滤器,每个元素的所有操作都在其所在的子过滤器内。对于后续元素插入无限循环情况的判定也在此时依据集合元素个数进行计算。在元素插入时,首先利用基于位移操作的随即映射方式计算元素的两个候选桶,随后使用“积极主动”的插入策略将元素第一个候选桶的最后一个槽预留给其他元素进行重定位。重定位时从后向前检查同种的空槽,减少检查槽的个数。同时,在元素重定位的过程中,使用计算所得的动态阈值来对无限循环问题进行判定。本发明专利技术具有更高效的空间使用效率、更优良的元素插入操作和更快的无限循环判定。操作和更快的无限循环判定。操作和更快的无限循环判定。

【技术实现步骤摘要】
一种基于布谷鸟过滤器的近似成员查询优化方法


[0001]本专利技术涉及大数据存储与高性能计算
,具体涉及一种基于布谷鸟过滤器的近似成员查询优化方法。

技术介绍

[0002]随着互联网在社会各个行业中的发展,整个社会进入了一个大数据的时代。海量的数据对于存储系统底层的处理技术要求越来越高,只有快速高效地处理底层的数据才能保证上层的高性能服务。成员查询即查询一个对象是否属于被存储的系统之中,是存储系统中一个最常见的请求。在优化成员查询时,现有的优化方案用“查询准确率换空间”的方法,在内存中维护一个以布隆过滤器为代表的近似成员查询结构,在具有极小的单向误判率下,提高整体的成员查询操作性能。
[0003]然而,目前的近似成员查询结构存在很大的问题。大多无法兼容高效的空间效率、较低的查询误判率和良好的操作性能。近似成员查询结构按照元素表示方法分为“离散bit”法和“元素指纹”法,“离散bit”法有较高的空间效率,但是查询误判率表现不佳。在众多的方案中,布谷鸟过滤器是一个综合表现较好的近似成员查询结构。
[0004]传统布谷鸟过滤器(本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于布谷鸟过滤器的近似成员查询优化方法,其特征在于,包括如下步骤:步骤一、根据集合的元素数量计算无限循环阈值;步骤二、对布谷鸟过滤器进行分块,划分为各子过滤器;步骤三、在用户发起请求之前,将集合中的元素插入到过滤器中,每个元素随机映射到一个子过滤器中的两个映射候选桶中,所有元素的映射候选桶都受限于一个子过滤器中,使用基于位移操作的随机映射方式为元素计算其两个候选桶的索引位置;步骤四、使用“积极主动”的元素插入策略把元素插入到映射桶中;步骤五、对于使用“积极主动”插入策略未能插入成功的元素,进入元素重定位阶段,在动态重定位阈值的检测下,从后向前探测每一个重定位桶中是否存在“空槽”;当元素重定位的次数达到重定位阈值时,则认为该元素陷入了无限循环中,元素插入失败;步骤六、插入结束后,接受外部的用户请求,用户的外部请求可以直接在内存中的过滤器中完成,无需进入真正的集合中去操作。2.根据权利要求1所述的基于布谷鸟过滤器的近似成员查询优化方法,其特征在于:在步骤二中,采用“Balls in Bins”模型对布谷鸟过滤器进行分块,每个分块大小相同,桶数为2
m
;分块的策略是让每个块中的最大元素个数在小于设定的空间效率的情况下,让块的大小最小,尽可能多的对过滤器进行分块。3.根据权利要求1所述的基于布谷鸟过滤器的近似成员查询优化方法,其特征在于:所述“积极主动”的元素插入策略具体是:设每个映射桶共有b个槽,插入元素时,对于第一个候选桶仅检查前b

【专利技术属性】
技术研发人员:谢平华文镝
申请(专利权)人:青海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1