一种面向高速数据流的通用流级过滤方法技术

技术编号:38846020 阅读:16 留言:0更新日期:2023-09-17 09:57
本发明专利技术涉及高速数据流(如网络流)中的大小流分离,是一种面向高速数据流的通用流级过滤方法,包括实时编码过滤和阈值估计两部分,所述实时编码过滤部分,用于获得通过过滤结构的大流;所述阈值估计部分用于获得大流初始到达时为了集齐赠券而未能通过过滤结构的部分数据项。本发明专利技术提供的一种面向高速数据流的通用流级过滤结构,能够灵活地根据不同的测量目标(如流的大小测量,基数测量,以及持续性测量)有效实现数据流中大流和小流的分离。量)有效实现数据流中大流和小流的分离。量)有效实现数据流中大流和小流的分离。

【技术实现步骤摘要】
一种面向高速数据流的通用流级过滤方法


[0001]本专利技术涉及高速数据流(如网络流)中的大小流分离,具体涉及一种面向高速数据流的通用流级过滤方法。

技术介绍

[0002]对高速数据流的实时处理一直以来都是一个热门的研究课题,也是分析现实世界中如网络流量、谷歌搜索关键词以及推特推文这样规模庞大且迅速的数据流的基本任务。不失一般性地,数据流可以被定义为一串连续不断的数据项集合,其中的每个数据项<f,e,t>都带有表示流归属关系的流标签f、用于标识的元素标签e和表示到达时间的时间窗口索引t。通常,数据流处理任务有三种典型的测量目标:流大小(带有相同流标签的数据项的数量)、流基数(带有相同流标签的独立元素的数量)和流持续性(流在不同时间窗口出现的数量)。测量结果可为诸如Web缓存、网络管理、异常检测等应用提供必要决策依据,因此数据流处理是实现应用多样化不可或缺的环节。
[0003]尽管已有诸多数据流处理相关的研究被提出,现有的工作依旧存在很多不足之处。一方面,受数据流流速以及存储资源的限制,现有数据流处理机制在吞吐性能和测量准确性上仍然存在较大的改进空间;另一方面,实际场景的数据流通常存在显著的偏斜性,这使得现有数据流处理机制未能充分地利用有限的片上存储空间。因此,部分工作如Cold Filter和LogLog Filter提出通过一个过滤结构按照流大小对数据流中的小流过滤,并将通过的大流对应的数据项传至后续的数据流测量模块,实现数据流中大小流的分离测量。然而,这些过滤结构仅能够在以流大小为测量目标的数据流处理任务下实现大小流的分离,未不能在更加多变的测量目标下实现一种通用流级过滤结构设计。
[0004]为了解决上述流级过滤结构设计中存在的问题,本专利技术旨在设计一种面向高速数据流的通用流级过滤结构,能够灵活地根据不同的测量目标(如流的大小测量,基数测量,以及持续性测量)有效实现数据流中大流和小流的分离。

技术实现思路

[0005]鉴于上述问题,本专利技术提供了一种面向高速数据流的通用流级过滤方法,包括实时编码过滤和阈值估计两部分,
[0006]所述实时编码过滤部分,根据当前测量周期下的测量目标对流的统计信息采用不同的编码方式,用于过滤分离数据流中的大、小流;
[0007]所述阈值估计部分,用于获得大流初始到达时为了集齐赠券而未能通过过滤结构的部分数据项的统计信息。
[0008]进一步的,所述实时编码过滤部分,包括,
[0009]设立用于分离数据流大、小流的过滤结构;
[0010]在测量周期内,首先,将到达过滤结构的数据项根据其流标签,通过流

过滤单元映射函数随机映射到过滤结构的任意过滤单元中;
[0011]其次,根据当前周期的测量目标选择对应的数据项

比特位映射编码函数,将该数据项映射到过滤器单元中的比特位并置位;
[0012]之后,根据数据项获得的比特位的置位情况,判断该数据项是否通过过滤结构,将通过过滤结构的大流作为数据流测量任务中主要被关注的对象。
[0013]进一步的,所述过滤结构包含了m个过滤单元的数组R,每个过滤器单元包含l个比特位;在每个测量周期的初始时刻过滤结构内的所有比特位的值均设置为0;l表示赠券类型数量的预设值,每个过滤器单元的l个比特位与需要集齐的l种赠券类型相关对应。
[0014]进一步的,所述流

过滤单元映射函数H
m
(
·
)通过哈希计算得到:H
m
(f)=H

(f)mod m,且H

(
·
)为一个均匀分布的独立哈希函数。
[0015]进一步的,当到达的数据项使对应流的实际测量结果发生变化时,存在一个预设的概率p(0<p≤1/l)使得该数据项能够以l
×
p的概率在被映射到的过滤器单元R[H
m
(f)]中将任意一个比特位置1,在此过程中被映射单元的每一个比特位被置1的概率都是p;其中对于在测量周期内设定的完全不同的测量目标,包括流的大小测量,基数测量,以及持续性测量,数据项在过滤器单元的概率置位存在不同的计算方式:
[0016]1)当测量目标为流大小测量时,所述数据项

比特位映射编码函数H
c
=H

c
;具体的,
[0017]在以流大小为测量目标的测量周期下,当任意数据项<f,e,t>的到达时,与流存在映射关系的过滤器单元R[H
m
(f)]的第H

c
(f,e,t)个比特位将被置1,其中H

c
(f,e,t)是基于流大小测量目标的赠券抽取函数,计算方式为:
[0018][0019]其中,r是当一个数据项到达时,在[0,1)之间随机生成的数值;
[0020]2)当测量目标为流基数测量时,所述数据项

比特位映射编码函数H
c
=H

c
;具体的,
[0021]在以流基数为测量目标的测量周期下,当任意数据项<f,e,t>的到达时,与流存在映射关系的过滤器单元R[H
m
(f)]的第H

c
(f,e,t)个比特位将被置1,其中H

c
(f,e,t)是基于流基数测量目标的赠券抽取函数,计算方式为:
[0022][0023]其中,H(
·
)为一个值域范围在[0,X)之间的均匀分布的独立哈希函数,符号为异或运算符;
[0024]3)当测量目标为流持续性测量时,所述数据项

比特位映射编码函数H
c
=H
″′
c
,具体的,
[0025]在以流持续性为测量目标的测量周期下,当任意数据项<f,e,t>的到达时,与流存在映射关系的过滤器单元R[H
m
(f)]的第H
″′
c
(f,e,t)个比特位将被置1,其中H
″′
c
(f,e,t)是基于流持续性测量目标的赠券抽取函数,计算方式为:
[0026][0027]其中,H(
·
)为一个值域范围在[0,X)之间的均匀分布的独立哈希函数,符号为异或运算符。
[0028]进一步的,数据项是否通过过滤结构依据如下,
[0029]获取到达的数据项<f,e,t>被哈希映射到的过滤器单元R[H
m
(f)]中各比特位的置位情况,当且仅当过滤器单元中的比特位都被置为1时,允许数据项<f,e,t>通过过滤结构;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向高速数据流的通用流级过滤方法,其特征在于:包括实时编码过滤和阈值估计两部分,所述实时编码过滤部分,根据当前测量周期下的测量目标对流的统计信息采用不同的编码方式,用于过滤分离数据流中的大、小流;所述阈值估计部分,用于获得大流初始到达时为了集齐赠券而未能通过过滤结构的部分数据项的统计信息。2.如权利要求1所述的一种面向高速数据流的通用流级过滤方法,其特征在于:所述实时编码过滤部分,包括,设立用于分离数据流大、小流的过滤结构;在测量周期内,首先,将到达过滤结构的数据项根据其流标签,通过流

过滤单元映射函数随机映射到过滤结构的任意过滤单元中;其次,根据当前周期的测量目标选择对应的数据项

比特位映射编码函数,将该数据项映射到过滤器单元中的比特位并置位;之后,根据数据项获得的比特位的置位情况,判断该数据项是否通过过滤结构,将通过过滤结构的大流作为数据流测量任务中主要被关注的对象。3.如权利要求2所述的一种面向高速数据流的通用流级过滤方法,其特征在于:所述过滤结构包含了m个过滤单元的数组R,每个过滤器单元包含l个比特位;在每个测量周期的初始时刻过滤结构内的所有比特位的值均设置为0;l表示赠券类型数量的预设值,每个过滤器单元的l个比特位与需要集齐的l种赠券类型相关对应。4.如权利要求2所述的一种面向高速数据流的通用流级过滤方法,其特征在于:所述流

过滤单元映射函数H
m
(
·
)通过哈希计算得到:H
m
(f)=H

(f)mod m,且H

(
·
)为一个均匀分布的独立哈希函数。5.如权利要求2所述的一种面向高速数据流的通用流级过滤方法,其特征在于:当到达的数据项使对应流的实际测量结果发生变化时,存在一个预设的概率p(0<p≤1/l)使得该数据项能够以l
×
p的概率在被映射到的过滤器单元R[H
m
(f)]中将任意一个比特位置1,在此过程中被映射单元的每一个比特位被置1的概率都是p;其中对于在测量周期内设定的完全不同的测量目标,包括流的大小测量,基数测量,以及持续性测量,数据项在过滤器单元的概率置位存在不同的计算方式:1)当测量目标为流大小测量时,所述数据项

比特位映射编码函数H
c
=H

c
;具体的,在以流大小为测量目标的测量周期下,当任意数据项<f,e,t>的到达时,与流存在映射关系的过滤器单元R[H
m
(f)]的第H

c
(f,e,t)个比特位将被置1,其中H

c
(f,e,t)是基于流大小测量目标的赠券抽取函数,计算方式为:其中,r是当一个数据项到达时,在[0,1)之间随机生成的数值;2)当测量目标为流基数测量时,所述数据项

比特位映射编码函数H
c
=H

c
;具体的,在以流基数为测量目标的测量周期下,当任意数据项<f,e,t>的到达时,与流存在映射关系的过滤器单元R[H
m
(f)]的第H

c
(f,e,t)个比特位将被置1,其中H

c
(f,e,t)是基于流基数测量目标的赠券抽取函数,计算方式为:
其中,H(
·
)为一个值域范围在[0,X)之间的均匀分布的独立哈希函数,符号为异或运算符;3)当测量目标为流持续性测量时,所述数据项

比特位映射编码函数H
c
=H

【专利技术属性】
技术研发人员:卜霄菲吴晓灿黄河孙玉娥
申请(专利权)人:沈阳师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1