一种基于小样本机器学习的匿名网络流量分类方法技术

技术编号：37155166 阅读：39 留言：0更新日期：2023-04-06 22:16

本发明专利技术公开一种基于小样本机器学习的匿名网络流量分类方法，将采集的流量数据与待分类的数据通过深度神经网络映射到特征空间，原始标注数据用于深度分类模型预训练，少量新采集的标注数据用于在特征空间中计算流量数据特征的类别中心，以该类别中心作为待分类目标流量数据的聚类中心进行聚类，对待分类的目标流量数据赋予伪标签，通过优化原始标注流量数据的和目标伪标注数据的分类损失函数，完成原始标注数据的知识迁移，从而降低数据时效对模型的影响，消除因数据时效性带来的训练数据和待分类数据分布差异问题。本发明专利技术解决了由于匿名系统更新而导致原始采集的流量序列数据时效性降低，从而使得匿名网络流量分类算法性能下降的问题。下降的问题。下降的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于小样本机器学习的匿名网络流量分类方法

[0001]本专利技术涉及网络安全技术，具体涉及一种基于小样本机器学习的匿名网络流量分类方法。

技术介绍

[0002]随着互联网的发展，人们设计和开发了多种匿名通信系统，相应的攻击方法也出现了。网站指纹(Website Fingerprinting,WF)攻击方法可有效破坏Tor匿名网络的匿名性。在网站加载过程中，由于不同网站的加载项等内容，客户端与服务器间的流量序列存在不同的模式信息，这为攻击者破坏匿名性提供了便利。基于深度学习的匿名网络流量分类方法在性能上显著优于非深度匿名网络流量分类方法，深度匿名网络流量分类需要大量标注的数据作为训练集，当数据集发生变化，如Tor浏览器版本的更新导致的不同版本Tor流量数据，这些变化将导致匿名网络流量分类算法的性能下降。
[0003]当前在解决由于标注流量数据稀缺，导致匿名网络流量分类性能下降上有两个方法，TF(Triplet Fingerprinting)[1]和TLFA(Transfer Learning Fingerprinting Attack本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于小样本机器学习的匿名网络流量分类方法，其特征在于：包括以下步骤：步骤（1）、收集网络流量，得到原始流量序列、新采集的少量标注流量以及待分类流量序列；其中，原始流量序列的数据均带有标注：，是指原始流量序列数据的个数，和分别表示流量序列的记录和对应标注；新采集的少量标注流量表示为：，待分类流量序列表示为：，分别为新采集的少量标注样本的数据和待分类的数据样本数目；步骤（2）、构建分类模型将特征提取器G与任务分类器C拼接构成分类模型，其中特征提取器G采用深度卷积网络，任务分类器C包括两层全连接的神经网络；步骤（3）、预训练分类模型将带标注的原始流量序列的数据输入到分类模型，基于得到的原始流量数据类别预测概率和真实标签计算分类损失函数，对上步构建的深度分类模型进行预训练；步骤（4）、训练分类模型步骤（4.1）将有标注的原始流量序列和新采集的少量标注流量通过神经网络映射到特征空间中，计算新采集的少量标注流量序列特征的各个类别中心点；步骤（4.2）以得到的类别中心点作为新采集的待分类流量序列特征的聚类中心点，计算各个待分类的流量序列特征到各个聚类中心点距离，赋予待分类序列特征最近类别中心的类别标签，该类别标签作为待分类流量序列的伪标签；步骤（4.3）将特征空间的特征经过分类器映射后得到类别预测概率，通过伪标签和预测概率计算聚类损失函数；根据得到的聚类适配损失，更新特征提取器G与任务分类器C的网络权重；循环步骤（4.1）至步骤（4.3）多次以完成模型训练。2.根据权利要求1所述的基于小样本机器学习的匿名网络流量分类方法，其特征在于：所述步骤（2）中特征提取器G和任务分类器C的结构如下：所述特征提取器G有三个卷积模块，第一个卷积模块含有两个卷积层，后两个卷积模块均含有三个卷积层，每个卷积模块后均采...

【专利技术属性】
技术研发人员：周强，王良民，路通，朱会娟，冯丽，宋香梅，申屠浩，
申请(专利权)人：江苏大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人