基于动态时间规整算法的网络流量精细化分类方法和装置制造方法及图纸

技术编号:19011604 阅读:66 留言:0更新日期:2018-09-22 11:00
本发明专利技术涉及一种基于动态时间规整算法的网络流量精细化分类方法和装置。该方法包括:1)采集网络流量中的数据包的到达时间序列,对其进行归一化处理并转换为梯度序列,作为模板序列;2)采集待识别网络流量中数据包的到达时间序列,对其进行归一化处理并转换为梯度序列,作为检测序列;3)通过动态时间规整算法规整检测序列和模板序列,并计算其相似度;4)将检测序列和模板序列的相似度与预设的相似度阈值做比较,实现待识别网络流量的分类。本发明专利技术可以应用于高速网络环境下实时自动化的流量精细化分类,可以解决加密流量和网络延迟带来的难以精细化分类的问题。

【技术实现步骤摘要】
基于动态时间规整算法的网络流量精细化分类方法和装置
本专利技术属于信息
,具体涉及一种基于动态时间规整算法的网络流量精细化分类方法和装置。
技术介绍
近年来,随着各种网络应用类型越来越丰富,互联网带宽、用户量呈现出爆发式的增长。加密协议、私有协议得到了越来越广泛的应用,传统的流量分类方法在应用层精细化分类领域全面失效。早期的流量分类主要包括基于数据包头的分类技术、基于载荷的分类技术、基于机器学习的分类技术和基于行为的分类技术。基于数据包头的网络流分类技术是基于包头的五元组信息,以及包头中的标志字段来确定数据包的,主要的方法是基于端口的方法。基于载荷的分类技术,主要是利用数据包的载荷部分对应用层协议进行识别,此方法需要事先详细分析待识别的应用层协议,找出其交互过程中不同于其他任何协议的特定字段,作为该协议的特征。随着传统端口方法、精确特征方法对于随机端口、加密协议的失效,机器学习方法被引入到网络流分类技术中,根据网络流信息具有的统计特征来对网络流量进行分类。基于行为特征的方法将离线网络流量的行为特征进行分析,用于在线的识别。早期的网络协议识别主要采用基于数据包的方法,对协议的识别和判断主要基于固定端口。但是随着网络的广泛使用和相关设备与技术水平的进步,网络多元化成为了互联网的发展趋势。大量新的协议不断出现,协议使用的端口也不再固定,出现大量复用或随机变化的现象。因此后来出现了通过协议中的一些特征使用深度包检测的方法来进行协议识别和分类,这种方法对于使用明文的或者有固定模式的协议确实有效,但是对于载荷加密的协议,却无法进行精确识别。在近几年,出现了很多网络流量识别和分类的新方法,大部分都基于网络流,并采用统计和行为特征等方法来进行协议识别。
技术实现思路
本专利技术目的在于提供一种网络流量的应用层分类方法和装置,以应对加密流量难以精细化分类的挑战。该方法通过采集网络数据包的到达时间序列,进行归一化处理后,通过动态时间规整算法对序列进行整型,并计算检测序列和模板序列的相似度。本专利技术采用的技术方案如下:一种基于动态时间规整算法的网络流量精细化分类方法,包括以下步骤:1)采集网络流量中的数据包的到达时间序列,对其进行归一化处理并转换为梯度序列,作为模板序列;2)采集待识别网络流量中数据包的到达时间序列,对其进行归一化处理并转换为梯度序列,作为检测序列;3)通过动态时间规整算法规整检测序列和模板序列,并计算其相似度;4)将检测序列和模板序列的相似度与预设的相似度阈值做比较,实现待识别网络流量的分类。进一步地,步骤1)和步骤2)将数据包到达的时间间隔序列转换为梯度序列,采用该梯度序列作为时序特性来描述数据包到达时间的梯度变化。进一步地,步骤3)通过计算检测序列与模板序列之间的欧氏距离得到所述相似度。进一步地,步骤4)中,若计算得到的检测序列与模板序列之间的欧氏距离小于所述相似度阈值,则判定属于同一类。一种基于动态时间规整算法的网络流量精细化分类装置,其包括:模板序列获取单元,用于采集网络流量中的数据包的到达时间序列,对其进行归一化处理并转换为梯度序列,作为模板序列;检测序列获取单元,用于采集待识别网络流量中数据包的到达时间序列,对其进行归一化处理并转换为梯度序列,作为检测序列;相似度计算单元,用于通过动态时间规整算法规整检测序列和模板序列,并计算其相似度;分类单元,用于将检测序列和模板序列的相似度与预设的相似度阈值做比较,实现待识别网络流量的分类。进一步地,所述模板序列获取单元和所述检测序列获取单元将数据包到达的时间间隔序列转换为梯度序列,采用梯度序列作为时序特性来描述数据包到达时间的梯度变化。进一步地,所述相似度计算单元通过计算检测序列与模板序列之间的欧氏距离得到所述相似度;若计算得到的检测序列与模板序列之间的欧氏距离小于所述相似度阈值,则判定属于同一类。一种服务器,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上面所述方法中各步骤的指令。本专利技术的有益效果如下:本专利技术可以应用于高速网络环境下实时自动化的流量精细化分类,可以解决加密流量和网络延迟带来的难以精细化分类的问题。附图说明图1是本专利技术方法的步骤流程图。图2是实施例中页面a归一化时间曲线。图3是实施例中页面b归一化时间曲线。具体实施方式下面通过具体实施例和附图,对本专利技术做进一步说明。本专利技术将应用层上加密的流量分类问题当成时间序列的相似度匹配问题进行处理。然而由于受到网络延迟的影响,时间序列需要得到修正才能作为训练与检测的样本。网络延迟是用户与服务器之间来回进行一次交互的持续时间,受网络环境、网络带宽、处理器带宽等因素的影响表现不同,使得用户访问同样内容时产生时间序列差异巨大。为了消除这一差异,本专利技术将数据包到达的时间间隔序列转换成其梯度序列,以消除网络延迟等外部因素的影响。本专利技术采用梯度序列作为时序特性(TimingCharacteristics,TC)来描述指定数据包到达时间的梯度变化。为了表示两个梯度序列之间的相关性,使用相似度来衡量是合理的。以一个HTTPS的链接访问为例,梯度序列被当做该页面的特征序列,可以通过比较相似性来测量两页面的相似性。由于梯度是时间相关的,相似性可以通过其基于时间序列的一定距离度量来描绘。以一个HTTPS链接访问为例,假定时间序列T=(t1,t2,…,ti,…,tL)表示服务器响应客户端访问一个加密网页的所有数据包的时间序列,其中ti代表第i个数据包的到达时间,共计L个数据包。然后设置常量作为数据包的间隔个数。计算出数据包到达时间序列T中每隔C个数据包的时间间隔变化率序列ΔT,该时间间隔变化率序列ΔT的长度N可以由f(L)来表示,如式(1)所示:N=|(L-1)/(C-1)|(1)在时间间隔序列ΔT中,ΔT可以表示成ΔT=(Δt1,Δt2,...,Δti,...,ΔtN),其中Δti可以表示成式(2):Δti=t(C-1)*(i+1)-(C-2)-t(C-1)*i-(C-2),i∈1,2,...,N(2)表示时间间隔变化率序列ΔT的梯度序列M=(m1,m2,...,mk,...,mN-1),可以用式(3)表示:mk=(Δtk+1-Δtk)/(k+1-k)=Δtk+1-Δtk,k∈1,2,...,N-1(3)然后我们用序列M=(m1,m2,...,mk,...,mN-1)来表示访问页面的特征。表1给出算法需要使用到的术语。表1.术语本专利技术提出基于时序特性的算法CTC(CalculationofTimingCharacteristics)计算时序特性TC(TimingCharacteristics),用于产生识别模板序列。该算法如下面表2所示。表2.CTC算法通过CTC算法,可以自动获得的各种不同加密流量的时序特性(由梯度序列M表示),那么它们可以用作页面模板序列。当加密页面的流量需要被分类的时候,使用动态时间规整算法规整并计算检测序列与模板序列之间的欧氏距离,当距离小于某个阈值时,即可判断该页面与模板同属一类,进而达到分类的目的。具体来说,本专利技术的基于动态时间规整算法的网络流量精细化分类方法,包括以下步骤。1、首先采集网络流量中的前L包到达时间序列;对到达本文档来自技高网
...
基于动态时间规整算法的网络流量精细化分类方法和装置

【技术保护点】
1.一种基于动态时间规整算法的网络流量精细化分类方法,其特征在于,包括以下步骤:1)采集网络流量中的数据包的到达时间序列,对其进行归一化处理并转换为梯度序列,作为模板序列;2)采集待识别网络流量中数据包的到达时间序列,对其进行归一化处理并转换为梯度序列,作为检测序列;3)通过动态时间规整算法规整检测序列和模板序列,并计算其相似度;4)将检测序列和模板序列的相似度与预设的相似度阈值做比较,实现待识别网络流量的分类。

【技术特征摘要】
1.一种基于动态时间规整算法的网络流量精细化分类方法,其特征在于,包括以下步骤:1)采集网络流量中的数据包的到达时间序列,对其进行归一化处理并转换为梯度序列,作为模板序列;2)采集待识别网络流量中数据包的到达时间序列,对其进行归一化处理并转换为梯度序列,作为检测序列;3)通过动态时间规整算法规整检测序列和模板序列,并计算其相似度;4)将检测序列和模板序列的相似度与预设的相似度阈值做比较,实现待识别网络流量的分类。2.如权利要求1所述的方法,其特征在于,步骤1)和步骤2)将数据包到达的时间间隔变化率序列转换为梯度序列,采用该梯度序列作为时序特性来描述数据包到达时间的梯度变化。3.如权利要求1或2所述的方法,其特征在于,所述转换为梯度序列包括:a)设数据包的到达时间序列为T=(t1,t2,…,ti,…,tL),其中ti代表第i个数据包的到达时间,共计L个数据包;b)设置常量作为数据包的间隔个数,计算出数据包到达时间序列T中每隔C个数据包的时间间隔变化率序列ΔT,ΔT的长度N为:N=|(L-1)/(C-1)|;时间间隔序列ΔT表示成ΔT=(Δt1,Δt2,…,Δti,…,ΔtN),其中Δti表示为:Δti=t(C-1)*(j+1)-(C-2)-t(C-1)*j-(C-2),i∈1,2,...,N;c)计算ΔT的梯度序列M=(m1,m2,...,mk,...,mN-1),并作为时序特性,其中mk表示为:mk=(Δtk+1-Δtk)/(k+1-k)=Δtk+1-Δtk,k∈1,2,...,N-1。4.如权利要求1所述的方法,其特征在于,步骤3)通过计算检测序列与模板序列之间的欧氏距离得到所述相似度。5.如权利要求1所述的方法,其特征在于,步骤4)中,若计算得到的检测序列与模板序列之间的欧氏距离小于所述相似度阈值,则判定属于同一类。6.一种基于动态时间规整算法的网络流量精细化分类装置,其特征在于,包括:模板序列获取单元,用于采集网络流量中的数据...

【专利技术属性】
技术研发人员:夏葳石俊峥熊刚李镇
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1