基于流量重构与继承学习的匿名网络流量识别方法及装置制造方法及图纸

技术编号:33795276 阅读:17 留言:0更新日期:2022-06-12 14:57
本发明专利技术公开了一种基于流量重构与继承学习的匿名网络流量识别方法及装置,方法包括:采集原始网络流量,并进行流量初筛,剔除非Tor流量;对初筛后的流量进行重构,将流量转化为灰度特征图;利用卷积神经网络和循环神经网络模型处理流量重构后的特征图,提取出交互信息特征向量、包空间特征向量、流时序特征向量,并将三种特征向量进行融合;将融合特征输入多分类器进行应用分类,所述多分类器在检测到流量新类别时通过继承学习机制更新分类器参数;基于多数原则确定流量的归属应用。本发明专利技术简化了特征设计过程,同时丰富了特征的全面性,满足模型参数在线更新的需求,使模型保持对过去训练的记忆,每次增加新类别只需要进行小规模训练。练。练。

【技术实现步骤摘要】
基于流量重构与继承学习的匿名网络流量识别方法及装置


[0001]本专利技术涉及网络流量识别及网络应用分类,具体涉及一种基于流量重构与继承学习的匿名网络流量识别方法及装置。

技术介绍

[0002]随着互联网的不断发展,网络流量种类逐渐复杂,不同类型的应用程序不断涌现。应用程序会产生大量的网络流量,而不同类型的流量会呈现出不同的特征。流量分类的目标就是根据流量的区分性特征识别流量的类别,网络流量分类对网络运营商是必不可少的。包括以下两个方面的原因,一方面,从用户服务质量的角度来说,流量分类是保障服务质量的第一步,是根据不同业务类型的要求为业务提供区分服务的前提,另一方面,从安全的角度来说,流量分类是异常网络流量检测的第一步,可以更好地保护网络安全。近几年,随着用户对隐私保护需求的不断增加,以及匿名化加密技术的不断发展,越来越多的流量被特殊处理,这对网络流量分类提出了新的挑战。
[0003]流量识别领域的分类方法已经经历了多次变革,传统的流量分类方法主要分为两类:一类是基于端口号的方法,根据端口号对应的协议号进行识别,但随着匿名网络端口混淆技术的出现,这种方法渐渐失效。另一类是基于深度包检测(deep packet inspection,DPI)的识别方法,基于不同类别的正则表达式,匹配数据包负载以确定类别。但这种方法随着流量匿名化加密技术的日渐成熟也不再可行。随着传统方法的失去作用,研究者开始寻找流量分类新方法。近年来发展迅速的机器学习方法受到了研究者的广泛关注。机器学习技术相较于传统分类方法更加智能与便捷,根据流的统计特征分类,可以有效避免流量加密的影响。因此,研究者提出了基于机器学习的流量分类算法,目前广泛使用的机器学习算法有支持向量机、决策树、随机森林、XGBoost方法等。这些分类方法都具有良好的分类准确性,并且得到了社会各界的广泛认可。但是基于机器学习的流量分类方法需要专家经验提取和筛选流量的特征,耗费时间与精力的同时特征也不够全面,对特征的代表性要求很高,分类准确率不够高。基于深度学习的模型目前成为研究热点,端到端模型受到研究人员的青睐,但是在实际部署中,遇到新型流量识别场景时模型需要重新训练,耗费大量的时间,这是目前在匿名网络流量应用分类中遇到的难题。

技术实现思路

[0004]专利技术目的:本专利技术的目的是提供一种基于流量重构与继承学习的匿名网络流量识别方法及装置,至少部分地解决
技术介绍
中的问题。
[0005]技术方案:一种基于流量重构与继承学习的匿名网络流量识别方法,包括以下步骤:采集原始网络流量,并进行流量初筛,剔除非Tor流量;对初筛后的流量进行重构,将流量转化为灰度特征图,包括:原始字节特征重构:取标准字节为L,对少于L个字节的数据包进行补零操作,超过L个字节的数据包进行截断处
理,归一化之后生成i*i的包字节矩阵从而转化为灰度图像;以及,上下行交互行为特征重构:根据数据包大小、方向与时间间隔构造横纵坐标,每个时间间隔内的数据包数量作为像素点灰度值,形成模拟上下行交互行为的特征图;以数据包为单位,将相对应的上下行交互行为特征图输入到卷积神经网络提取得到交互信息特征向量,将原始字节特征图输入到卷积神经网络提取得到包空间特征向量,将包空间特征向量分组后输入循环神经网络提取得到流时序特征向量,并将三种特征向量进行融合;将融合特征输入多分类器进行应用分类,所述多分类器在检测到流量新类别时通过继承学习机制更新分类器参数;基于多数原则确定流量的归属应用。
[0006]本专利技术还提供一种基于流量重构与继承学习的匿名网络流量识别装置,包括:数据采集与过滤模块,采集原始网络流量,并进行流量初筛,剔除非Tor流量;流量重构模块,对初筛后的流量进行重构,将流量转化为灰度特征图,包括:原始字节特征重构单元:取标准字节为L,对少于L个字节的数据包进行补零操作,超过L个字节的数据包进行截断处理,归一化之后生成i*i的包字节矩阵从而转化为灰度图像;以及,上下行交互行为特征重构单元:根据数据包大小、方向与时间间隔构造横纵坐标,每个时间间隔内的数据包数量作为像素点灰度值,形成模拟上下行交互行为的特征图;特征提取与融合模块,以数据包为单位,将相对应的上下行交互行为特征图输入到卷积神经网络提取得到交互信息特征向量,将原始字节特征图输入到卷积神经网络提取得到包空间特征向量,将一组包空间特征向量输入循环神经网络提取得到流时序特征向量,并将三种特征向量进行融合;应用分类模块,将融合特征输入多分类器进行应用分类,所述多分类器在检测到流量新类别时通过继承学习机制更新分类器参数;类别判定模块,基于多数原则确定流量的归属应用。
[0007]本专利技术还提供一种计算机设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如上所述的基于流量重构与继承学习的匿名网络流量识别方法的步骤。
[0008]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于流量重构与继承学习的匿名网络流量识别方法的步骤。
[0009]有益效果:本专利技术通过对流量特征图的重构,提取出包含不同维度的交互信息、包级空间信息、以及流级时序信息的特征向量,进行应用分类,克服了当特征代表性不足时分类准确率不高的问题,简化了特征设计过程,同时丰富了特征的全面性,满足模型参数在线更新的需求。同时本专利技术利用继承学习机制使分类器模型保持对过去训练的记忆,每次增加新类别只需要进行小规模训练。利用本专利技术的方法能够高效、准确、低成本地实现匿名网
络流量的应用分类。
附图说明
[0010]图1为本专利技术的Tor流量识别方法总体流程图;图2为本专利技术的Tor流量应用识别方法具体实施流程图;图3为本专利技术交互行为流量重构示意图;图4为本专利技术采用的卷积神经网络结构示意图;图5为本专利技术采用的循环神经网络结构示意图;图6为本专利技术中继承学习机制参数在线更新方法示意图;图7为本专利技术中确定流归属类别的多数原则示意图。
具体实施方式
[0011]下面将结合附图对本专利技术实施例中的技术方案进行清楚、完整的描述。
[0012]参照图1和图2,本专利技术提供的一种基于流量重构与继承学习的匿名网络流量识别方法,包括以下步骤:步骤1,采集原始网络流量,并进行流量初筛,剔除非Tor流量。
[0013]根据本专利技术实施方式,在网络中部署流量探测器,建立各类应用程序的账户,使用Tor(The Onion Router,洋葱路由器)网络模拟用户使用各类应用的行为,产生Tor流量,即匿名网络流量。由Wireshark进行流量抓取,以PCAP形式存在,按照{SrcIP、SrcPort、DstIP、DstPort、Protocol}五元组形式对原始流量进行划分为双向流后保存的。五元组中,SrcIP为源IP地址,SrcPort为源端口,DstIP为目的IP地址,DstPort为目的端口,Protocol表示协议类型。具有相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于流量重构与继承学习的匿名网络流量识别方法,其特征在于,所述方法包括以下步骤:采集原始网络流量,并进行流量初筛,剔除非Tor流量;对初筛后的流量进行重构,将流量转化为灰度特征图,包括:原始字节特征重构:取标准字节为L,对少于L个字节的数据包进行补零操作,超过L个字节的数据包进行截断处理,归一化之后生成i*i的包字节矩阵从而转化为灰度图像;以及,上下行交互行为特征重构:根据数据包大小、方向与时间间隔构造横纵坐标,每个时间间隔内的数据包数量作为像素点灰度值,形成模拟上下行交互行为的特征图;以数据包为单位,将相对应的上下行交互行为特征图输入到卷积神经网络提取得到交互信息特征向量,将原始字节特征图输入到卷积神经网络提取得到包空间特征向量,将一组包空间特征向量输入循环神经网络提取得到流时序特征向量,并将三种特征向量进行融合;将融合特征输入多分类器进行应用分类,所述多分类器在检测到流量新类别时通过继承学习机制更新分类器参数;基于多数原则确定流量的归属应用。2.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法,其特征在于,所述采集原始网络流量,并进行流量初筛包括:利用网络流量采集工具抓取原始流量,按照五元组形式对原始流量进行划分;利用特征提取工具对划分好的网络流进行特征提取,对特征进行直方图等深离散化处理,输入到极限梯度提升决策树中,通过由损失函数与正则化惩罚项组成的目标函数对每个特征的取值依次遍历计算,找到最小化目标函数的特征点,从而过滤掉非Tor流量。3.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法,其特征在于,根据数据包大小、方向与时间间隔构造横纵坐标包括:以数据包大小作为横坐标,找出流样本中数据包最大值与最小值,作为横坐标的起始与结束位置,将所有数据包的大小归一化到整个横坐标中,纵坐标等分为两部分,分别为上行包与下行包的到达时间,横纵坐标交叉像素点的深度代表数据包数量。4.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法,其特征在于,所述卷积神经网络结构为输入层

卷积层CONV1

池化层POOL1

卷积层CONV2

池化层POOL2

卷积层CONV3

全连接层FC1

全连接层FC2;所述交互信息特征向量根据以下方法得到:将上下行交互行为特征图输入到卷积神经网络中,由前两个卷积层与池化层运算提取空间特征图,经卷积层CONV3的Flatten函数将特征图转为一维向量从而输入全连接层,从全连接层FC2中提取出1*s的一维特征向量,s为全连接层FC2的神经元数目;所述包空间特征向量根据以下方法得到:将包原始字节处理后转为的灰度图像输入到卷积神经网络模型中训练,由前两个卷积层与池化层运算提取空间特征图,经卷积层CONV3的Flatten函数将特征图转为一维向量从而输入全连接层,从全连接层FC2中提取出1*n的一维特征向量,n=s。5.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法,其特征
在于,所述循环神经网络模型的结构为BiGRU层BiGRU1

【专利技术属性】
技术研发人员:肖滕龙翟江涛许成程
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1