基于流量重构与继承学习的匿名网络流量识别方法及装置制造方法及图纸

技术编号：33795276 阅读：17 留言：0更新日期：2022-06-12 14:57

本发明专利技术公开了一种基于流量重构与继承学习的匿名网络流量识别方法及装置，方法包括：采集原始网络流量，并进行流量初筛，剔除非Tor流量；对初筛后的流量进行重构，将流量转化为灰度特征图；利用卷积神经网络和循环神经网络模型处理流量重构后的特征图，提取出交互信息特征向量、包空间特征向量、流时序特征向量，并将三种特征向量进行融合；将融合特征输入多分类器进行应用分类，所述多分类器在检测到流量新类别时通过继承学习机制更新分类器参数；基于多数原则确定流量的归属应用。本发明专利技术简化了特征设计过程，同时丰富了特征的全面性，满足模型参数在线更新的需求，使模型保持对过去训练的记忆，每次增加新类别只需要进行小规模训练。练。练。

全部详细技术资料下载

【技术实现步骤摘要】
基于流量重构与继承学习的匿名网络流量识别方法及装置

[0001]本专利技术涉及网络流量识别及网络应用分类，具体涉及一种基于流量重构与继承学习的匿名网络流量识别方法及装置。

技术介绍

[0002]随着互联网的不断发展，网络流量种类逐渐复杂，不同类型的应用程序不断涌现。应用程序会产生大量的网络流量，而不同类型的流量会呈现出不同的特征。流量分类的目标就是根据流量的区分性特征识别流量的类别，网络流量分类对网络运营商是必不可少的。包括以下两个方面的原因，一方面，从用户服务质量的角度来说，流量分类是保障服务质量的第一步，是根据不同业务类型的要求为业务提供区分服务的前提，另一方面，从安全的角度来说，流量分类是异常网络流量检测的第一步，可以更好地保护网络安全。近几年，随着用户对隐私保护需求的不断增加，以及匿名化加密技术的不断发展，越来越多的流量被特殊处理，这对网络流量分类提出了新的挑战。
[0003]流量识别领域的分类方法已经经历了多次变革，传统的流量分类方法主要分为两类：一类是基于端口号的方法，根据端口号对应的协议号进行识别，但随着匿名网络端口混淆技术的出现，这种方法渐渐失效。另一类是基于深度包检测（deep packet inspection，DPI）的识别方法，基于不同类别的正则表达式，匹配数据包负载以确定类别。但这种方法随着流量匿名化加密技术的日渐成熟也不再可行。随着传统方法的失去作用，研究者开始寻找流量分类新方法。近年来发展迅速的机器学习方法受到了研究者的广泛关注。机器学习技术相较于传统分类方法更加智能与便捷，根据...

【技术保护点】

【技术特征摘要】
1.一种基于流量重构与继承学习的匿名网络流量识别方法，其特征在于，所述方法包括以下步骤：采集原始网络流量，并进行流量初筛，剔除非Tor流量；对初筛后的流量进行重构，将流量转化为灰度特征图，包括：原始字节特征重构：取标准字节为L，对少于L个字节的数据包进行补零操作，超过L个字节的数据包进行截断处理，归一化之后生成i*i的包字节矩阵从而转化为灰度图像；以及，上下行交互行为特征重构：根据数据包大小、方向与时间间隔构造横纵坐标，每个时间间隔内的数据包数量作为像素点灰度值，形成模拟上下行交互行为的特征图；以数据包为单位，将相对应的上下行交互行为特征图输入到卷积神经网络提取得到交互信息特征向量，将原始字节特征图输入到卷积神经网络提取得到包空间特征向量，将一组包空间特征向量输入循环神经网络提取得到流时序特征向量，并将三种特征向量进行融合；将融合特征输入多分类器进行应用分类，所述多分类器在检测到流量新类别时通过继承学习机制更新分类器参数；基于多数原则确定流量的归属应用。2.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法，其特征在于，所述采集原始网络流量，并进行流量初筛包括：利用网络流量采集工具抓取原始流量，按照五元组形式对原始流量进行划分；利用特征提取工具对划分好的网络流进行特征提取，对特征进行直方图等深离散化处理，输入到极限梯度提升决策树中，通过由损失函数与正则化惩罚项组成的目标函数对每个特征的取值依次遍历计算，找到最小化目标函数的特征点，从而过滤掉非Tor流量。3.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法，其特征在于，根据数据包大小、方向与时间间隔构造横纵坐标包括：以数据包大小作为横坐标，找出流样本中数据包最大值与最小值，作为横坐标的起始与结束位置，将所有数据包的大小归一化到整个横坐标中，纵坐标等分为两部分，分别为上行包与下行包的到达时间，横纵坐标交叉像素点的深度代表数据包数量。4.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法，其特征在于，所述卷积神经网络结构为输入层
‑
卷积层CONV1
‑
池化层POOL1
‑
卷积层CONV2
‑
池化层POOL2
‑
卷积层CONV3
‑
全连接层FC1
‑
全连接层FC2；所述交互信息特征向量根据以下方法得到：将上下行交互行为特征图输入到卷积神经网络中，由前两个卷积层与池化层运算提取空间特征图，经卷积层CONV3的Flatten函数将特征图转为一维向量从而输入全连接层，从全连接层FC2中提取出1*s的一维特征向量，s为全连接层FC2的神经元数目；所述包空间特征向量根据以下方法得到：将包原始字节处理后转为的灰度图像输入到卷积神经网络模型中训练，由前两个卷积层与池化层运算提取空间特征图，经卷积层CONV3的Flatten函数将特征图转为一维向量从而输入全连接层，从全连接层FC2中提取出1*n的一维特征向量，n=s。5.根据权利要求1所述的基于流量重构与继承学习的匿名网络流量识别方法，其特征
在于，所述循环神经网络模型的结构为BiGRU层BiGRU1
‑

【专利技术属性】
技术研发人员：肖滕龙，翟江涛，许成程，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人