当前位置: 首页 > 专利查询>中山大学专利>正文

一种重复数据删除方法和过滤器技术

技术编号:42531438 阅读:20 留言:0更新日期:2024-08-27 19:39
本申请提供一种重复数据删除方法和过滤器,该方法包括步骤:对数据块进行哈希计算,获取指纹信息;计算向量和候选桶;查询向量是否存在于结构数据库中;若未存在,则将向量插入到候选桶中;若存在,则查询指纹信息是否存在于磁盘数据库中;若存在,则将向量的副本删除;若未存在,则将向量插入到候选桶中。本申请通过第一空槽索引为空插槽指示位置,在插入向量时能快速分辨插槽是否为空,提高了插入效率;本申请的候选桶与插槽数组、BitSet组和CountingSet组关联,当处理数据量逐渐增大时,在BitSet组或CountingSet组中进行查询,提供了稳定的高查询效率,显著降低了内存开销;且本申请通过判断空间利用率,适时的对插槽数组进行扩容,避免了重定位操作,提高了插入性能。

【技术实现步骤摘要】

本专利技术涉及数据存储与处理,尤其涉及一种重复数据删除方法和过滤器


技术介绍

1、目前,网络中的数据总量呈现指数级增长,这不仅需要耗费越来越多的网络带宽传输数据,同时还需占用巨大的数据存储空间。为降低计算机数据存储系统和计算机网络的总体拥有成本,企业纷纷开始采用重复数据删除技术。

2、重复数据删除(data deduplication)技术目前已成为计算机系统领域的一项主流且极为重要的技术。其工作原理为从数据流中识别出重复数据,只保留重复数据的一个备份,删除其它冗余数据,在删除重复数据的位置以指针引用,从而节约大量的数据存储空间或网络带宽。

3、为了满足海量数据备份可扩展的性能需求,在内存中使用高效的数据结构或算法加速索引查询、避免访问磁盘,实现快速的重复数据删除起到至关重要的作用。

4、然而现有的加速索引查询的技术在重复数据删除系统中工作时存在很多问题:如插入向量时无法分辨插槽是否为空;查询效率低下且不稳定;大量的重定位操作导致插入性能的下降;内存开销过大等。


技术实现思路

本文档来自技高网...

【技术保护点】

1.一种重复数据删除方法,其特征在于,包括步骤:

2.根据权利要求1所述的重复数据删除方法,其特征在于,所述查询所述向量是否存在于与所述候选桶相关联的结构数据库中,包括步骤:

3.根据权利要求2所述的重复数据删除方法,其特征在于,将所述向量插入到对应的所述候选桶中的方法包括步骤:

4.根据权利要求3所述的重复数据删除方法,其特征在于,选择其中一个所述候选桶作为目标插入桶的方法包括步骤:

5.根据权利要求4所述的重复数据删除方法,其特征在于,将所述向量插入到对应的所述候选桶中的方法还包括步骤:

6.根据权利要求4所述的重复数据删除...

【技术特征摘要】

1.一种重复数据删除方法,其特征在于,包括步骤:

2.根据权利要求1所述的重复数据删除方法,其特征在于,所述查询所述向量是否存在于与所述候选桶相关联的结构数据库中,包括步骤:

3.根据权利要求2所述的重复数据删除方法,其特征在于,将所述向量插入到对应的所述候选桶中的方法包括步骤:

4.根据权利要求3所述的重复数据删除方法,其特征在于,选择其中一个所述候选桶作为目标插入桶的方法包括步骤:

5.根据权利要求4所述的重复数据删除方法,其特征在于,将所述向量插入到对应的所述候选桶中的方法还包括步骤:

6.根据权利要求4所述的重复数据删除方法,其特征在于,将所述向量插入到对应的所述候选桶中的方法还包括步骤:

...

【专利技术属性】
技术研发人员:苏俊付印金卢宇彤
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1