【技术实现步骤摘要】
本专利技术涉及分布式系统、网络等领域大数据处理,具体是指基于高精度多维计数布鲁姆过滤器的大数据处理方法。
技术介绍
未来的十年将是一个大数据引领的时代。大数据有三个典型特征1)数据结构复杂,元素属性多维化。如数字城市中空间数据具有三维坐标、地形等多维属性;网络Trace海量数据包具有源IP、目的IP、协议等多维属性;2)数据价值密度低。价值密度的高低与 数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒;3)数据动态变化更新快。如何在快速变化的海量数据中通过高精度的数据处理方法迅速地完成数据的价值“提纯”,成为有效进行大数据处理过程中极具挑战性的问题。布鲁姆过滤器(B F,Bloom Filter)是一种结构精简的数据过滤方法,虽然它存在稍许查询误判,但由于其哈希查找的常数时间和存储空间开销较小,从而使它具有很好的实用价值,已广泛应用于网络、分布式计算等领域。BF采用长度为m的比特向量V表示η个元素集合S = Is1, s2,...,sj,采用k个相互独立的哈希函数h” h2,. .,hk,其函数取值均匀分布在范围为[1. . . m]。插入元素s时,设置V中第!^(Shh2(S)VMhk(S)位为I。查询元素u时,检查V中第Ii1 (u),h2 (U),. . .,hk(u)位是否全为I,如果全为I,则元素u在S中;否则,元素u不在S中。后面章节中采用三元组In,m,k,}形式化表示单维属性布鲁姆过滤器,用四元组In,m, k, L}表示多维属性布鲁姆过滤器。η为集合S中元素个数,m为向量V的长度, ...
【技术保护点】
一种高精度多维计数布鲁姆过滤器,其特征在于,由用于存储多维元素各个属性的基于分层结构的高精度计数布鲁姆过滤器和用于存储元素整体信息的联合计数布鲁姆过滤器组成;所述基于分层结构的计数布鲁姆过滤器由空间不等的多层bit位组成,即L1,…,LN,其中第1层L1长度固定,其值为4m?kn;第2层L2长度等于L1层中bit位为1的个数,第3层长度等于第2层中bit位为1的个数,以此类推;其中,m为标准计数布鲁姆过滤器中的计数器个数,N为高精度计数布鲁姆过滤器的层数,k为高精度多维计数布鲁姆过滤器采用的哈希函数的个数,n为存入高精度多维计数布鲁姆过滤器中元素的个数。
【技术特征摘要】
1.一种高精度多维计数布鲁姆过滤器,其特征在于,由用于存储多维元素各个属性的基于分层结构的高精度计数布鲁姆过滤器和用于存储元素整体信息的联合计数布鲁姆过滤器组成;所述基于分层结构的计数布鲁姆过滤器由空间不等的多层bit位组成,gp L1,…,Ln,其中第I层L1长度固定,其值为4m-kn;第2层L2长度等于L1层中bit位为I 的个数,第3层长度等于第2层中bit位为I的个数,以此类推;其中,m为标准计数布鲁姆过滤器中的计数器个数,N为高精度计数布鲁姆过滤器的层数,k为高精度多维计数布鲁姆过滤器采用的哈希函数的个数,η为存入高精度多维计数布鲁姆过滤器中元素的个数。2.一种基于权利要求1所述的高精度多维计数布鲁姆过滤器的大数据处理方法,其特征在于,该方法为O读入具有相应特性的多维属性数据集;2)将具有相应特性的多维属性数据集中每个元素的各属性哈希映射到各自对应的高精度计数布鲁姆过滤器中;同时将具有相应特性多维属性数据集中每个元素的所有属性通过...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。