当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于网络流行为的内容感知方法技术

技术编号:19598036 阅读:44 留言:0更新日期:2018-11-28 06:32
本发明专利技术提供一种基于网络流行为的内容感知方法,它包括以下步骤:在外部网络环境采集网络流量并提取观测特征作为训练样本;利用训练样本对模型进行训练;将未知类型的网络流输入模型识别其内容;利用识别的网络流数据和历史模型参数进行增量学习,更新模型参数,保证模型分类的连续性。本发明专利技术利用了隐马尔可夫模型的动态建模能力和深度神经网络强大的非线性表示能力,实验结果表明了本方法的可行性,以及对比现有技术方案的性能优势。

【技术实现步骤摘要】
一种基于网络流行为的内容感知方法
本专利技术属于网络
,更具体地,涉及一种基于网络流行为的内容感知方法。
技术介绍
网络流量的分类和识别是很多网络管理问题的基础。通过准确识别网络流量的类型,网络管理员可以根据给定的策略为不同类型的网络应用/服务提供不同的服务质量;其次,通过网络流量的识别,可以掌握当前网络资源的使用状况,为网络基础架构规划提供依据;此外,流量分类也是入侵检测系统的关键部分,通过识别异常的网络流量来阻止攻击,是网络安全领域的重要检测手段。常用的流量分类方法主要由四种:1)基于端口的方法,2)基于分组载荷特征的方法,3)基于流的方法,4)混合特征的方法。1)基于端口的方法基于端口的方法是指利用网络应用在IANA(InternetAssignedNumbersAuthority)注册的端口号来识别流量对应的应用类型。例如,HTTP协议使用80端口,SMTP协议使用25端口,FTP协议使用21端口等。端口识别的方法具有简单高效的特点,不需要复杂的计算,可以部署在高速的网络链路中,实现流量的实时分类。但是端口号方法不能实现对以下几种类型流量的识别:一是使用动态端口进行通信本文档来自技高网...

【技术保护点】
1.一种基于网络流行为的内容感知方法,其特征在于,包括模型训练阶段、内容识别阶段以及模型更新阶段;其中模型训练阶段:从外部网络采集网络流数据,并提取观测特征得到训练样本,然后使用DNN‑HMM模型对网络流行为建模,再利用训练样本对模型进行训练得到模型参数;内容识别阶段:将采集的待检测的实时网络流输入到训练后的DNN‑HMM模型,模型输出该网络流的内容类别;模型更新阶段:把识别的网络流数据反馈回DNN‑HMM模型,对模型的参数进行更新得到新的DNN‑HMM模型。

【技术特征摘要】
1.一种基于网络流行为的内容感知方法,其特征在于,包括模型训练阶段、内容识别阶段以及模型更新阶段;其中模型训练阶段:从外部网络采集网络流数据,并提取观测特征得到训练样本,然后使用DNN-HMM模型对网络流行为建模,再利用训练样本对模型进行训练得到模型参数;内容识别阶段:将采集的待检测的实时网络流输入到训练后的DNN-HMM模型,模型输出该网络流的内容类别;模型更新阶段:把识别的网络流数据反馈回DNN-HMM模型,对模型的参数进行更新得到新的DNN-HMM模型。2.根据权利要求1所述的内容感知方法,其特征在于,获取训练样本包含两步:流量采集和观测特征提取;首先在客户端访问指定类型的内容,同时利用流量采集工具在网络出口节点采集产生的网络流量并标注其类型;然后将采集的流量依据五元组划分成单一的网络流,并提取流的观测特征。3.根据权利要求2所述的内容感知方法,其特征在于,选取网络流中数据包的字节数和到达时间作为观测值。4.根据权利要求1所述的内容感知方法,其特征在于,所述DNN-HMM模型,其HMM用来描述网络流特征的动态变化,DNN模型位于HMM之上;即在给定观测值的条件下,使用DNN的每个输出节点来估计对应状态的后验概率,DNN的每个输出节点与HMM的对应一个状态对应;具体是:由DNN模型对给定观测值进行分类,再用HMM描述网络流特征的动态变化。5.根据权利要求4所述的内容感知方法,其特征在于,在模型训练阶段获取模型参数方式如下:利用采集的网络样本数据,对DNN-HMM模型进行训练;为方便计算,将t时刻的观测值ot进行离散化处理,数据包长度和到达时间分别被量化到对应的区间;模型训练过程可以分成三个步骤:1)为每一种内容类型c建立一个包含Q个状态的HMM,使用对应类型的训练数据输入到模型进行训练,得到相应的HMM的参数λc;为便于计算,首先定义以下辅助变量:αt(i)=P(o1:t,qt=si),1≤t≤T;1≤i≤Qα变量按以下方式迭代求解:α1(i)=πibi(ot)定义辅助变量:βt(i)=P(ot+1:T|qt=si),1≤t<T;1≤i≤Qβ变量按以下方式迭代求解:βT(i)=1定义辅助变量:γt(i)=P(qt=i|OT,λ)γ变量通过变量α和β计算:参数λ估计的具体步骤如下:1、使用类别c对应的观测序列集合{O}作为训练数据;2、使用K-means聚类算法对观测值进行聚类,将观测数据分类为Q个状态;3、初始化HMM参数λ:4、对每一个观测序列OT∈{O},迭代计算变量αt(i)、βt(i);5、计算变量γt(i),并依据以下公式推断观测序列OT对应的最佳状态序列q1,q2,..,qT;6、依据步骤3中公式重新估计HMM参数然后判断是否满...

【专利技术属性】
技术研发人员:谭新城谢逸费星瑞
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1