当前位置: 首页 > 专利查询>东南大学专利>正文

一种面向资源约束环境的百万数据流top-k测量方法技术

技术编号:37428214 阅读:19 留言:0更新日期:2023-04-30 09:48
本发明专利技术公开了一种面向资源约束环境的百万数据流top

【技术实现步骤摘要】
一种面向资源约束环境的百万数据流top

k测量方法


[0001]本专利技术属于网络测量领域,具体涉及一种资源约束下的百万数据流top

k测量方法。

技术介绍

[0002]测量top

k大象流,是高速网络流量测量任务中一项基础且关键性的任务。所谓大象流一般是指流大小超过给定阈值的流,或者是在测量间隔中占总网络流量百分比达到特定值的流。通常,高速链路上的网络流量被视为一组流序列,并且符合重尾分布模型:80%的网络流量由20%的流量组成,其余80%的流量仅占网络流量的20%。换言之,大象流的测量可以很好地表示网络真实特性。运营商或者网络空间安全监管部门,可以通过对大象流的测量来分析流量的不同统计特征,进而实现对高质量运营服务(如QoS管理、QoE改善等)的提供、网络异常的检测、网络拥塞的控制、DDoS攻击的检测等。
[0003]然而,网络链路速率与网络流量数据规模与日俱增,给网络流量测量任务带来了诸如极高计算资源、存储资源等方面的更多技术挑战。例如,OC

3072(160Gbps)技术已经逐渐成熟,100Gbps以太网链路已经开始应用于大型数据中心以及园区网中,400Gbps以太网硬件设备已经开始量产。目前,针对高速网络的流量测量解决方案,主要集中于利用高性能专用硬件(如TCAM、ASIC等)、利用抽样技术和利用数据流技术。
[0004]现有测量top

k大象流方法主要依托于高速流量测量技术,即基于抽样方法或基于数据流方法。其中,基于抽样的top

k大象流测量方法,通常是通过抽取部分有“代表性”的数据包,然后使用概率理论推算出网络总体流量的特征。其中,最典型的应用是Cisco提出并使用的SampledNetFlow方法,以及Sample and hold方法。但是,这两种粗粒度的大象流识别方法的准确性取决于流存储器的大小,无法适用于高速网络中的大象流识别。
[0005]基于数据流方法的top

k大象流测量方法,通常有admit

all

count

some策略和count

all策略。admit

all

count

some策略通常是假设假设每一个新的输入流都是大象流,并剔除现有记录中最小的,为新输入的大象流腾出空间。但实际情况下,大多数流都是老鼠流,这样的假设会导致严重的错误,尤其是在内存不足的情况下。count

all策略主要基于Sketch方法来实现,但这些解决方案不节省内存,尤其需要更多的内存来扫描整个计数器空间,并对元素进行排序,以响应top

k查询。另一方面,由于流量大小是未知的,几乎现有的方法都是将计数器的bit大小设置成一个很大的长度。因此这些解决方案不具有内存效率,难以应对资源约束下的百万数据流的测量需求。
[0006]综上,在大流量和使用的小片上存储器的限制下,实现精度方面受到严重限制,设计准确快速的算法来在线识别大象流量变得越来越具有挑战性。

技术实现思路

[0007]针对以上问题,本专利技术提出一种资源约束下的百万数据流top

k测量方法,该方法能够在硬件资源受限的情况下,完成网络测量任务中top

k大象流的测量任务。该专利技术的核
心问题是利用有限的资源实现对百万数据流的top

k测量任务,并保证一定的精确度。该方法的具体步骤分为u

level多级抽样模块、较小长度bit计数器组成的查找器Finder和流标签记录模块。当测量开始时,在待测量的网络环境中进行流量的分组级处理;u

level多级抽样模块根据初始抽样阈值θ和设定好的u值,生成u个抽样概率;当Finder中流标识对应的计数器计数陆续达到第1级计数区间~第u级计数区间时,启用相应级别对应的抽样概率继续处理到达的分组,并根据抽样的结果来判断该分组是否更新Finder中对应位置的计数器;流标识记录模块在记录流标识时,根据当前计数值及时更新和记录top

k大象流信息。本专利技术可用于各类型网络环境中,为网络服务运营商和网络监管部门提高服务质量、异常检测、攻击检测等测量任务提供依据。
[0008]为实现本专利技术的目的,本专利技术的技术方案如下:一种资源约束下的百万数据流top

k测量方法,利用较小长度bit计数器组成的查找器Finder、u

level多级抽样模块和流标签记录模块,可以获得资源约束环境下百万数据流的top

k测量结果,该方法包括以下步骤:
[0009]步骤(1)在待测量的网络环境中以及相应测量任务下,基于u

level多级抽样模块对到达的分组进行基于流的抽样处理,用于判断该分组是否加入较小长度bit计数器组成的查找器Finder中;
[0010]步骤(2)使用Hash映射和Finder对待测流进行测量计数,随着该流ID的计数增加,当计数到达下一级计数区间,返回步骤(1)生成下一级抽样概率,更新抽样概率,并继续步骤(2);
[0011]步骤(3)流标签记录模块根据Finder的更新结果来动态记录当前top

k元素及其计数,记录新元素的流标识及其当前计数结果,或淘汰剔除信息表中确定淘汰的元素;
[0012]步骤(4)测量结束,输出top

k流标识信息列表。
[0013]进一步的,所述步骤(1)具体包含如下子步骤:
[0014](1.1)确定抽样初始阈值θ、抽样级别u和单个计数器bit位数n;
[0015](1.2)计算第1级抽样概率p1=1/[θ

(2
n

u+1

2)];
[0016](1.3)从第2级开始,选定i∈[1,u

1],i∈N*,N*为正整数集。计算第i+1级抽样概率:p
i+1
=1/{1/p
i
+[(2
n

u+i+1

2)

(2
n

u+i

2)]}=1/(1/p
i
+2
n

u+i
)。
[0017]进一步的,所述步骤(2)具体包含如下子步骤:
[0018](2.1)根据测量需求中所能容忍的最大误差δ,根据公式选定d个Hash函数;
[0019](2.2)根据有限内存资源总量和每个计数器固定的大小n,和Hash函数的个数,确定每个Hash函数拥有的计数器个数w;
[0020]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向资源约束环境的百万数据流top

k测量方法方法,其特征在于,该方法包括以下步骤:步骤(1)在待测量的网络环境中以及相应测量任务下,基于u

level多级抽样模块对到达的分组进行基于流的抽样处理,用于判断该分组是否加入较小长度bit计数器组成的查找器Finder中;步骤(2)使用Hash映射和Finder对待测流进行测量计数,随着该流ID的计数增加,当计数到达下一级计数区间,返回步骤(1)生成下一级抽样概率,更新抽样概率,并继续步骤(2);步骤(3)流标签记录模块根据Finder的更新结果来动态记录当前top

k元素及其计数,记录新元素的流标识及其当前计数结果,或淘汰剔除信息表中确定淘汰的元素;步骤(4)测量结束,输出top

k流标识信息列表。2.根据权利要求1所述的面向资源约束环境的百万数据流top

k测量方法方法,其特征在于,所述步骤(1)具体包含如下子步骤:(1.1)确定抽样初始阈值θ、抽样级别u和单个计数器bit位数n;(1.2)计算第1级抽样概率p1=1/[θ

(2
n

u+1

2)];(1.3)从第2级开始,选定i∈[1,u

1],i∈N*,N*为正整数集,计算第i+1级抽样概率:p
i+1
=1/{1/p
i
+[(2
n

u+i+1

2)

(2
n

u+i

2)]}=1/(1/p
i
+2
n

u+i
)。3.根据权利要求2所述的一种面向资源约束环境的百万数据流top

k测量方法,其特征在于,步骤(2)的具体方法如下:(2.1)根据测量需求中所能容忍的最大误差δ,根据公式选定d个...

【专利技术属性】
技术研发人员:程光戴显龙于子洋
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1