当前位置: 首页 > 专利查询>湖南大学专利>正文

一种高精度多维计数布鲁姆过滤器及其大数据处理方法技术

技术编号:8533127 阅读:186 留言:0更新日期:2013-04-04 16:19
本发明专利技术公开了一种高精度多维计数布鲁姆过滤器及其大数据处理方法,在高精度多维计数布鲁姆过滤器中存储一定规模或具有相应特性的多维属性数据集;读取需要处理的多维属性大数据集;进行高精度多维计数布鲁姆过滤器处理,包括多维元素查询和更新等;输出经过处理后的多维属性数据集。本发明专利技术大大减少误判发生的几率,处理精度大幅度提高。通过本发明专利技术提供的大数据处理方法,更迅速地完成数据的价值“提纯”,快速有效地对大数据进行加工处理,让数据产生经济和社会价值。本发明专利技术广泛应用于分布式系统、网络等领域内大数据处理。

【技术实现步骤摘要】

本专利技术涉及分布式系统、网络等领域大数据处理,具体是指基于高精度多维计数布鲁姆过滤器的大数据处理方法。
技术介绍
未来的十年将是一个大数据引领的时代。大数据有三个典型特征1)数据结构复杂,元素属性多维化。如数字城市中空间数据具有三维坐标、地形等多维属性;网络Trace海量数据包具有源IP、目的IP、协议等多维属性;2)数据价值密度低。价值密度的高低与 数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒;3)数据动态变化更新快。如何在快速变化的海量数据中通过高精度的数据处理方法迅速地完成数据的价值“提纯”,成为有效进行大数据处理过程中极具挑战性的问题。布鲁姆过滤器(B F,Bloom Filter)是一种结构精简的数据过滤方法,虽然它存在稍许查询误判,但由于其哈希查找的常数时间和存储空间开销较小,从而使它具有很好的实用价值,已广泛应用于网络、分布式计算等领域。BF采用长度为m的比特向量V表示η个元素集合S = Is1, s2,...,sj,采用k个相互独立的哈希函数h” h2,. .,hk,其函数取值均匀分布在范围为[1. . . m]。插入元素s时,设置V中第!^(Shh2(S)VMhk(S)位为I。查询元素u时,检查V中第Ii1 (u),h2 (U),. . .,hk(u)位是否全为I,如果全为I,则元素u在S中;否则,元素u不在S中。后面章节中采用三元组In,m,k,}形式化表示单维属性布鲁姆过滤器,用四元组In,m, k, L}表示多维属性布鲁姆过滤器。η为集合S中元素个数,m为向量V的长度,k为哈希函数的个数,L为元素属性维数。但目前布鲁姆过滤器的研究主要集中在单维元素的处理,如标准布鲁姆过滤器、计数布鲁姆过滤器、光谱布鲁姆过滤器,拆分型布鲁姆过滤器、分档布鲁姆过滤器、索引拆分布鲁姆过滤器等。这些算法从不同角度讨论和优化布鲁姆过滤器的设计以满足实际应用的不同需求。目前存在少数针对多维元素处理的布鲁姆过滤器方法,如MDBF(Mult1-Dimension Bloom Filte)、CMDBF (Combined Mult1-Dimension Bloom Filter))和PBF-BF (Parallel Bloom Filter-Bloom Filter),但是这些方法由于没有对多维属性进行有效的关联,仍然存在误判率高的缺点,无法应用于未来大数据环境下多维数据处理精度需求。因此,针对大数据特点,设计出高精度的多维布鲁姆过滤器来完成多维元素过滤和更新等大数据处理方法,成为大数据处理中迫切解决的问题。
技术实现思路
本专利技术所要解决的技术问题是,针对现有技术不足,提供,更迅速地完成数据的价值“提纯”,快速有效地对大数据进行加工处理。为解决上述技术问题,本专利技术所采用的技术方案是,高精度多维计数布鲁姆过滤器的结构由两部分组成,即第一部分是用来存储多维元素各个属性的高精度计数布鲁姆过滤器,高精度计数布鲁姆过滤器是一种基于分层结构的计数布鲁姆过滤器,通过高效利用计数器的存储空间来降低假阳性,提升其处理精度;第二部分是用来存储元素整体信息的联合计数布鲁姆过滤器,采用双射函数将元素多维属性转换为一维数值来表示元素整体信息,将这个一维数值映射到联合计数布鲁姆过滤器中,联合元素各属性值利用联合计数布鲁姆过滤器进行确认。下面分别介绍这两部分详细设计。( I)高精度计数布鲁姆过滤器设计标准布鲁姆过滤器不支持删除操作,从而不支持集合的动态变化,CBF被提出以解决此问题,用计数器替代标准BF中的每个bit位,一般情况下,每个计数器由4个bit组成,最大值为16。CBF使用时,首先将m个计数器初始化为O。元素的插入操作和删除操作分别将对应的k个计数器加I或者减I。进行元素是否在集合中的判断时,只需要判断这k个计数器的值是否都大于I。在CBF实际应用中,本专利技术发现大部分计数器的值只需1-2个bit来表示,从而造成内存空间浪费。本专利技术随机产生30组10万个元素插入CBF中,哈希函数个数为3,存储空间m与插入元素个数η比值c (c = m/n)分别设置为8、12,统计插入元素后CBF中计数器值分别等于(Γ15的计数器个数,结果(30组平均值)如表I所示。表I值分别等于(Γ15的计数器个数分布本文档来自技高网
...

【技术保护点】
一种高精度多维计数布鲁姆过滤器,其特征在于,由用于存储多维元素各个属性的基于分层结构的高精度计数布鲁姆过滤器和用于存储元素整体信息的联合计数布鲁姆过滤器组成;所述基于分层结构的计数布鲁姆过滤器由空间不等的多层bit位组成,即L1,…,LN,其中第1层L1长度固定,其值为4m?kn;第2层L2长度等于L1层中bit位为1的个数,第3层长度等于第2层中bit位为1的个数,以此类推;其中,m为标准计数布鲁姆过滤器中的计数器个数,N为高精度计数布鲁姆过滤器的层数,k为高精度多维计数布鲁姆过滤器采用的哈希函数的个数,n为存入高精度多维计数布鲁姆过滤器中元素的个数。

【技术特征摘要】
1.一种高精度多维计数布鲁姆过滤器,其特征在于,由用于存储多维元素各个属性的基于分层结构的高精度计数布鲁姆过滤器和用于存储元素整体信息的联合计数布鲁姆过滤器组成;所述基于分层结构的计数布鲁姆过滤器由空间不等的多层bit位组成,gp L1,…,Ln,其中第I层L1长度固定,其值为4m-kn;第2层L2长度等于L1层中bit位为I 的个数,第3层长度等于第2层中bit位为I的个数,以此类推;其中,m为标准计数布鲁姆过滤器中的计数器个数,N为高精度计数布鲁姆过滤器的层数,k为高精度多维计数布鲁姆过滤器采用的哈希函数的个数,η为存入高精度多维计数布鲁姆过滤器中元素的个数。2.一种基于权利要求1所述的高精度多维计数布鲁姆过滤器的大数据处理方法,其特征在于,该方法为O读入具有相应特性的多维属性数据集;2)将具有相应特性的多维属性数据集中每个元素的各属性哈希映射到各自对应的高精度计数布鲁姆过滤器中;同时将具有相应特性多维属性数据集中每个元素的所有属性通过...

【专利技术属性】
技术研发人员:张大方李玮黄昆谢鲲
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1