一种基于主题模型的动态自更新网络流量分类方法技术

技术编号:22081162 阅读:40 留言:0更新日期:2019-09-12 16:04
本发明专利技术公开了基于主题模型的动态自更新网络流量分类方法,包括:初始时刻,利用事先标记好协议类别的数据包集作为初始化数据集,对分类模型进行初始化,以获得时刻1的分类模型;数据包分类:在t时刻,利用时刻t的分类模型对此时收到的待分类数据包进行分类,并输出此时的待分类数据包的协议类别及协议分布信息;分类模型训练更新:利用t时刻输出的已知协议类别的数据包构成训练集,利用t、t‑1、…、t‑(L‑1)共L个历史时刻输出的历史协议分布信息作为主题先验分布,训练时刻t+1的分类模型;t=1,2,3,...,L=1,2,...,δ。本发明专利技术解决效率低、未考虑未知类型流量而影响分类模型准确率、未充分考虑网络流量动态性而使分类准确率降低等问题。

A Dynamic Self-Updating Network Traffic Classification Method Based on Topic Model

【技术实现步骤摘要】
一种基于主题模型的动态自更新网络流量分类方法
本专利技术涉及计算机网络
,具体是流量检测和网络安全领域,尤其是涉及一种基于主题模型的动态自更新网络流量分类方法。
技术介绍
网络协议是指不同的计算机之间进行通信的通信规范,包括流程控制、提供的服务和数据格式等。开放系统互联参考模型(OpenSystemInterconnectionReferenceModel)是国际标准化组织在1978年提出的网络互联模型,该模型共分为七层,每一层都定义了所在层的服务提供和协议规范。对应用层协议的识别可以帮助网络提供商、网络安全管理机构等提供更好的网络服务以及侦测恶意流量。网络流量分类是指将网络流量映射到产生其的应用层协议中。自互联网诞生以来,网络用户以及网络需求都在高速增长。因此,网络应用也随着用户和需求的变化不断地增长。如今的网络应用,数量成千上万,形式也千变万化。近年来,网络发展愈发迅猛,接入带宽几乎按照尼森定律描述的每一年增长百分之五十;而骨干网络带宽则以每12~18个月增长一倍的速度快速增长,远超摩尔定律的预期。高带宽的背后是网络用户数量的飞速增长,据统计,全球互联网用户数量已经超过了2本文档来自技高网...

【技术保护点】
1.一种基于主题模型的动态自更新网络流量分类方法,其特征在于,包括:1)分类模型初始化:初始时刻,利用事先标记好协议类别的数据包集作为初始化数据集,对分类模型进行初始化,以获得时刻1的分类模型;2)数据包分类:在t时刻,利用时刻t的分类模型对此时收到的待分类数据包进行分类,并输出此时的待分类数据包的协议类别以及协议分布信息;3)分类模型训练更新:利用t时刻输出的已知协议类别的数据包构成训练集,利用t、t‑1、…、t‑(L‑1)共L个历史时刻输出的历史协议分布信息作为主题先验分布,训练时刻t+1的分类模型;t=1,2,3,...,L=1,2,...,δ,δ值根据分类精确度要求及模型训练时长要求预...

【技术特征摘要】
1.一种基于主题模型的动态自更新网络流量分类方法,其特征在于,包括:1)分类模型初始化:初始时刻,利用事先标记好协议类别的数据包集作为初始化数据集,对分类模型进行初始化,以获得时刻1的分类模型;2)数据包分类:在t时刻,利用时刻t的分类模型对此时收到的待分类数据包进行分类,并输出此时的待分类数据包的协议类别以及协议分布信息;3)分类模型训练更新:利用t时刻输出的已知协议类别的数据包构成训练集,利用t、t-1、…、t-(L-1)共L个历史时刻输出的历史协议分布信息作为主题先验分布,训练时刻t+1的分类模型;t=1,2,3,...,L=1,2,...,δ,δ值根据分类精确度要求及模型训练时长要求预先设置;其中,某一时刻分类模型输出的所述协议分布信息是指该时刻属于不同协议类别的数据包分布比例。2.如权利要求1所述的动态自更新网络流量分类方法,其特征在于,所述分类模型包括:数据包标准化模块、聚类模块、标记模块和判决模块,所述聚类模块是利用历史协议分布信息作为主题先验分布的动态聚类主题模型进行构建;初始化过程包括:通过数据包标准化模块将初始化数据集中的每个数据包转化为对应的类文本数据序列;通过所述聚类模块对所有类文本数据序列进行聚类;对于每一个聚类,通过所述标记模块将该聚类下数据包数量最多的协议类别分配给该聚类,作为该聚类的标签进行标记;利用带标签的聚类生成所述判决模块的判决规则;分类模型的训练更新过程包括:通过数据包标准化模块将训练集中的每个数据包转化为对应的类文本数据序列;通过所述聚类模块,根据前L个历史时刻输出的历史协议分布信息,对训练集中所有数据包的类文本数据序列进行聚类;对于每一个聚类,通过所述标记模块将该聚类下数据包数量最多的协议类别作为该聚类的标签进行标记;利用带标签的聚类生成判决模块的判决规则;数据包分类过程包括:通过数据包标准化模块将待分类数据包转化为类文本数据序列;对于每一个类文本数据序列,通过判决模块计算该类文本数据序列属于每个聚类的概率,概率最大的聚类所带的标签即为该类文本数据序列对应的数据包所属的协议类别。3.如权利要求2所述的动态自更新网络流量分类方法,其特征在于,还包括:对聚类进行标记时,计算每个聚类的置信度,并舍弃置信度低于第一预设值的聚类。4.如权利要求3所述的动态自更新网络流量分类方法,其特征在于,聚类的置信度计算公式为:其中,C表示当前聚类的置信度,Pmax表示当前聚类中被分配的协议类别下数据包的数量,Ptotal表示当前聚类中数据包总数。5.如权利要求2所述的动态自更新网络流量分类方法,其特征在于,将数据包转化为类文本数据序列的步骤包括:去除数据包的链路层、网络层及传输层的包头信息;对二进制的数据包应用层内容进行N-gram转化,得到数据包对应的类文本数据序列。6.如权利要求5所述的动态自更新网络流量分类方法,其特征在于,所述聚类模块对t时刻数据包的类文本数据序列进行聚类的步骤包括:(1)给t时刻的每个数据包随机分配一个主题,并默认每个数据包的所有N-gram字段均属于为该数据包分配的主题,从而得到初始化的主题多项式分布;(2)采用基于主题先验分布的吉布斯采样,...

【专利技术属性】
技术研发人员:李睿肖喜夏树涛郑海涛江勇
申请(专利权)人:清华大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1