一种基于均匀采样的网络冗余流量识别方法技术

技术编号:12014734 阅读:75 留言:0更新日期:2015-09-06 01:13
本发明专利技术公开了一种基于均匀采样的网络冗余流量识别方法,通过特征指纹均匀采样:按固定大小的窗口连续滑动,选取窗口内最大的特征指纹作为采样特征指纹存入特征指纹库;以及采样特征指纹动态跟踪:查找特征指纹库识别冗余数据块的过程中,更新特征指纹库中匹配的特征指纹指向(映射于)缓冲区中匹配的数据包负载,以防止缓冲区刷新过程清除特征指纹库中高频冗余数据包负载映射的特征指纹,保持冗余流量识别的可持续性。

【技术实现步骤摘要】
一种基于均匀采样的网络冗余流量识别方法
本专利技术属于网络流量管理
,更为具体地讲,涉及一种基于均匀采样的网络冗余流量识别方法,用于识别网络流量中的冗余部分。
技术介绍
受用户兴趣模型驱动,边缘网络中具有相同兴趣的用户访问相似或相同主题的网络资源必然造成大量重复数据传输,形成特定链路相关的冗余流量。冗余流量的存在不仅损耗链路带宽资源利用率,而且影响用户访问网络资源的体验感,在一定程度上打击用户积极性。有效识别网络中的冗余流量是研究冗余流量成因和其带来的一系列并发问题的关键。传统的WEB缓存技术基于对象层识别冗余流量,但是不同应用需要重新设计对应的缓存细节,缺乏应用的灵活性。近年来,基于数据包层的MODP、MAXP、SAMPBYTE和DYNABYTE方法陆续被提出,而且也取得了较好的识别效率。其中MODP基于Rabin多项式方法计算连续数据分块指纹并按指纹值取模为0的策略采样特征指纹,存在采样不均匀和零采样缺陷。MAXP基于固定大小的窗口均匀分块选择最大值作为采样特征指纹,克服了MODP采样不均匀问题,但是不能很好地跟踪真实流量中高频冗余数据块的动态特征。SAMPBYTE和DYNABYTE从统计学角度出发,通过训练样本选择冗余块的典型代表首字符作为采样特征。DYNABYTE的实现细节较SAMPBYTE增加了采样特征的动态调整功能,在一定程度上实现了对真实流量中高频冗余块的动态跟踪能力。但是,SAMPBYTE和DYNABYTE基于样本训练选择特征指纹的方案受样本数据选择的影响较大,部署的灵活性受限。以上方法在均匀采样和高频冗余块动态跟踪两方面都没能很好地同时兼顾。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于均匀采样的网络冗余流量识别方法,在解决真实网络环境中冗余流量的识别问题的同时,兼顾特征指纹的均匀采样和高频冗余块动态跟踪的能力,以提高冗余流量识别的有效性和识别率。为实现上述目的,本专利技术基于均匀采样的网络冗余流量识别方法,其特征在于,包括以下步骤:(1)、特征指纹均匀采样1.1)、对接收的第一个数据包负载t1,t2,t3...tn,按Ω大小的滑动窗口,从起始位置滑动,一个字节为步进,对该数据包负载进行划分,得到连续的大小为Ω的n-Ω+1个数据块t1,t2,t3,...,tΩ、t2,t3,t4,...,tΩ+1、…、tn-Ω+1,tn-Ω+2,tn-Ω+3,...,tn,其中,n为数据包负载字节数;1.2)、对n-Ω+1个Ω大小的数据块,按Rabin多项式,计算数据块映射的特征指纹,数据块与特征指纹映射关系依次为:H1=RF(t1,t2,t3,...,tΩ)=(t1pΩ-1+t2pΩ-2+...+tΩ-1p1+tΩp0)modMH2=RF(t2,t3,t4,...,tΩ+1)=((RF(t1,t2,t3...tΩ)-t1pΩ-1)*p+tΩ+1p0)modM(1)……Hn-Ω+1=RF(tn-Ω+1,tn-Ω+2,tn-Ω+3,...,tn)=((RF(tn-Ω,tn-Ω+1,tn-Ω+2,...,tn-1)-tn-ΩpΩ-1)*p+tnp0)modM其中,H1、H2、…、Hn-Ω+1为n-Ω+1个数据块对应的特征指纹,mod为求余数运算,M为常数,根据具体情况确定,RF表示映射运算;首先按公式(1)计算数据块t1,t2,t3,...,tΩ映射的特征指纹H1,然后根据查找表T,以单字节ti元素值作为查找索引,得到tipΩ-1的值,i=1,2,…,n-Ω;最后按照公式(1),计算出数据块t2,t3,t4,...,tΩ+1、…、tn-Ω+1,tn-Ω+2,tn-Ω+3,...,tn的特征指纹H2,…,Hn-Ω+1,其中,查找表T包括0~255的查找索引,每个查找索引对应的输出值为该查找索引与pΩ-1的乘积;1.3)、步骤1.2)得到的特征指纹进行顺序排列,形成特征指纹序列H1,H2,…,Hn-Ω+1;按w大小的滑动窗口,从起始位置滑动,一个特征指纹为步进,对特征指纹序列H1,H2,…,Hn-Ω+1进行划分,每次滑动都选取滑动窗口内最大值作为采样特征指纹存入特征指纹库中,至最后一个滑动窗口,完成输入数据包的特征指纹采样;不同滑动窗口因重叠部分选中同一采样特征指纹时,只存入第一次选中的采样特征指纹;(2)、采样特征指纹动态跟踪2.1)、建立一个缓冲区,将输入的第一个数据包负载存入,并将特征指纹库中的采样特征指纹映射于第一个数据包负载;2.2)、对接收的第二个数据包负载,首先存入缓冲区,然后按照步骤(1)中的方法提取到采样特征指纹,并逐个在特征指纹库中进行匹配,并进行动态跟踪:如果匹配到采样特征指纹,则将特征指纹库中匹配到的采样特征指纹映射于第二个数据包负载,如果没有匹配到,则将提取的采样特征指纹存入特征指纹库中,并映射于第二个数据包负载;2.3)、对随后接收的数据包负载,按照步骤2.2)方法进行处理;当缓冲区中数据包负载存满后,采用先进先出(FirstInFirstOut,FIFO)的老化机制刷新缓冲区,以便存储后续达到的数据包负载,刷新时,特征指纹库中映射于被移出数据包负载的采样特征指纹被清除;(3)、冗余流量识别对于步骤(2)中提取的采样特征指纹,如果在特征指纹中匹配成功,则采用最大内容匹配法,依据采样特征指纹对应的数据块,对接收的数据包负载与映射于缓存区中的数据包负载进行匹配,并输出匹配字节数即冗余数据块大小;统计出单位时间各个冗余数据块大小之和,得到冗余流量大小即识别出冗余流量。本专利技术的专利技术目的是这样实现的:本专利技术基于均匀采样的网络冗余流量识别方法,通过特征指纹均匀采样:按固定大小的窗口连续滑动,选取窗口内最大的特征指纹作为采样特征指纹存入特征指纹库;以及采样特征指纹动态跟踪:查找特征指纹库识别冗余数据块的过程中,更新特征指纹库中匹配的特征指纹指向(映射于)缓冲区中匹配的数据包负载,以防止缓冲区刷新过程清除特征指纹库中高频冗余数据包负载映射的特征指纹,保持冗余流量识别的可持续性。与现有技术相比,本专利技术具有以下四个方面的有益效果:(1)、本专利技术基于连续滑动窗口的特征指纹均匀采样具有较强的区间代表性,保障本专利技术对冗余流量识别的有效性;(2)、本专利技术采样特征指纹动态跟踪解决了缓冲区老化(刷新)带来的采样特征指纹失效问题,有效保障对高频冗余数据块的动态跟踪和可持续性识别,进一步提高冗余流量识别率;(3)、本专利技术面向数据包层处理对象,不受应用层协议限制,具有较高的应用灵活性;(4)、本专利技术无需样本训练,采用的特征指纹均匀采样和动态跟踪方法可以自适应任意网络节点环境,部署灵活。附图说明图1是本专利技术基于均匀采样的网络冗余流量识别方法一种具体实施方式流程图;图2是数据包负载划分数据块及特征指纹映射示意图;图3是特征指纹均匀采样示意图;图4是最大内容匹配流程图;图5是冗余流量识别输出的记录格式图;图6是特征指纹动态跟踪示意图。具体实施方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好地理解本专利技术。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本专利技术的主要内容时,这些描述在这里将被忽略。图1是本专利技术基于均匀采样的网络冗余流量识别方法一种具体实施本文档来自技高网
...
一种基于均匀采样的网络冗余流量识别方法

【技术保护点】
一种基于均匀采样的网络冗余流量识别方法,其特征在于,包括以下步骤:(1)、特征指纹均匀采样1.1)、对接收的第一个数据包负载t1,t2,t3...tn,按Ω大小的滑动窗口,从起始位置滑动,一个字节为步进,对该数据包负载进行划分,得到连续的大小为Ω的n‑Ω+1个数据块t1,t2,t3,...,tΩ、t2,t3,t4,...,tΩ+1、…、tn‑Ω+1,tn‑Ω+2,tn‑Ω+3,...,tn,其中,n为数据包负载字节数;1.2)、对n‑Ω+1个数据块的数据块,按Rabin多项式,计算数据块映射的特征指纹,数据块与特征指纹映射关系依次为:H1=RF(t1,t2,t3,...,tΩ)=(t1pΩ‑1+t2pΩ‑2+...+tΩ‑1p1+tΩp0)mod MH2=RF(t2,t3,t4,...,tΩ+1)=((RF(t1,t2,t3...tΩ)‑t1pΩ‑1)*p+tΩ+1p0)mod M         (1)……Hn‑Ω+1=RF(tn‑Ω+1,tn‑Ω+2,tn‑Ω+3,...,tn)=((RF(tn‑Ω,tn‑Ω+1,tn‑Ω+2,...,tn‑1)‑tn‑ΩpΩ‑1)*p+tnp0)mod M其中,H1、H2、…、Hn‑Ω+1为n‑Ω+1个数据块对应的特征指纹;首先按公式(1)计算数据块t1,t2,t3,...,tΩ映射的特征指纹H1,然后根据查找表T,以单字节ti元素值作为查找索引,得到tipΩ‑1的值,i=1,2,…,n‑Ω;最后按照公式(1),计算出数据块t2,t3,t4,...,tΩ+1、…、tn‑Ω+1,tn‑Ω+2,tn‑Ω+3,...,tn的特征指纹H2,…,Hn‑Ω+1,其中,查找表T包括0~255的查找索引,每个查找索引对应的输出值为该查找索引与pΩ‑1的乘积;1.3)、步骤1.2)得到的特征指纹进行顺序排列,形成特征指纹序列H1,H2,…,Hn‑Ω+1;按w大小的滑动窗口,从起始位置滑动,一个特征指纹为步进,对特征指纹序列H1,H2,…,Hn‑Ω+1进行划分,每次滑动都选取滑动窗口内最大值作为采样特征指纹存入特征指纹库中,至最后一个滑动窗口,完成输入数据包的特征指纹采样;不同滑动窗口因重叠部分选中同一采样特征指纹时,只存入第一次选中的采样特征指纹;(2)、采样特征指纹动态跟踪2.1)、建立一个缓冲区,将输入的第一个数据包负载存入,并将特征指纹库中的采样特征指纹映射于第一个数据包负载;2.2)、对接收的第二个数据包负载,首先存入缓冲区,然后按照步骤(1)中的方法提取到采样特征指纹,并逐个在特征指纹库中进行匹配,并进行动态跟踪:如果匹配到采样特征指纹,则将特征指纹库中匹配到的采样特征指纹映射于第二个数据包负载,如果没有匹配到,则将提取的采样特征指纹存入特征指纹库中,并映射于第二个数据包负载;2.3)、对随后接收的数据包负载,按照步骤2.2)方法进行处理;当缓冲区中数据包负载存满后,采用先进先出(First In First Out,FIFO)的老化机制刷新缓冲区,以便存储后续达到的数据包负载,刷新时,特征指纹库中映射于被移出数据包负载的采样特征指纹被清除;(3)、冗余流量识别对于步骤(2)中提取的采样特征指纹,如果在特征指纹中匹配成功,则采样最大内容匹配法,依据采样特征指纹对应的数据块,对接收的数据包负载与映射于缓存区中的数据包负载进行匹配,并输出匹配字节数即冗余数据块大小;统计出单位时间各个冗余数据块大小之和,得到冗余流量大小即识别出冗余流量。...

【技术特征摘要】
1.一种基于均匀采样的网络冗余流量识别方法,其特征在于,包括以下步骤:(1)、特征指纹均匀采样1.1)、对接收的第一个数据包负载t1,t2,t3...tn,按Ω大小的滑动窗口,从起始位置滑动,一个字节为步进,对该数据包负载进行划分,得到连续的大小为Ω的n-Ω+1个数据块t1,t2,t3,...,tΩ、t2,t3,t4,...,tΩ+1、…、tn-Ω+1,tn-Ω+2,tn-Ω+3,...,tn,其中,n为数据包负载字节数;1.2)、对n-Ω+1个数据块的数据块,按Rabin多项式,计算数据块映射的特征指纹,数据块与特征指纹映射关系依次为:其中,H1、H2、…、Hn-Ω+1为n-Ω+1个数据块对应的特征指纹,mod为求余数运算,M为常数,根据具体情况确定,RF表示映射运算;首先按公式(1)计算数据块t1,t2,t3,...,tΩ映射的特征指纹H1,然后根据查找表T,以单字节ti元素值作为查找索引,得到tipΩ-1的值,i=1,2,…,n-Ω;最后按照公式(1),计算出数据块t2,t3,t4,...,tΩ+1、…、tn-Ω+1,tn-Ω+2,tn-Ω+3,...,tn的特征指纹H2,…,Hn-Ω+1,其中,查找表T包括0~255的查找索引,每个查找索引对应的输出值为该查找索引与pΩ-1的乘积;1.3)、步骤1.2)得到的特征指纹进行顺序排列,形成特征指纹序列H1,H2,…,Hn-Ω+1;按w大小的滑动窗口,从起始位置滑动,一个特征指纹为步进,对特征指纹序列H1,H2,…,Hn-Ω...

【专利技术属性】
技术研发人员:邢玲何燕玲马强杨国海
申请(专利权)人:西南科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1