一种采样时间不敏感频率维度可配置的网络特征提取方法技术

技术编号:39514474 阅读:29 留言:0更新日期:2023-11-25 18:51
本发明专利技术公开了一种采样时间不敏感频率维度可配置的网络特征提取方法,首先采集已标注的加密网络流量,对原始流量包进行清洗并保存为

【技术实现步骤摘要】
一种采样时间不敏感频率维度可配置的网络特征提取方法


[0001]本专利技术属于网络流量分类
,具体涉及一种采样时间不敏感频率维度可配置的网络特征提取方法


技术介绍

[0002]随着加密技术在网络应用中的广泛应用,加密流量在网路传输中的比重越来越高

现如今如何对加密流量进行分类并用于网络资源调度

入侵检测已经成为巨大挑战

[0003]传统基于明文的分析方法在加密流量大势所趋的环境下已基本失效,现有的加密流量分类方法流程大多是从原始流量中进行特征提取,一般为流级(
flow
)特征,然后送入分类器进行分类

然而,现有流特征中有大量特征是基于数据包的硬件时间戳进行计算的,比如流持续时间,流到达时间,流间隔时间等

由于硬件架构不同,在不同设备上采集的硬件时间戳会存在差异

同时在路由设备上因为调度问题,会出现乱序丢包的现象,这也会使时间戳产生变化

由于在现实场景中,硬件时间戳很难和训本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种采样时间不敏感频率维度可配置的网络特征提取方法,其特征在于,该方法具体包括如下步骤:步骤1,采集已标注的加密网络流量,对该加密网络流量进行清洗并保存为数据集;步骤2,根据五元组将数据集中的所有数据包按照流进行分组,一个组作为一条流,对每条流中的数据包按照时间戳进行排序,保留每条流中前
N1
个数据包;步骤3,提取每条流的统计特征,包括数据包间隔统计特征和数据包大小统计特征;步骤4,提取网络协议特征;步骤5,采用
SIF
处理和主成分分析提取每条流的负载特征,具体为:步骤
5.1
,为每个流设置流段落:若某个流中不存在数据包,则该流的流段落为空,为该流段落赋值
‑1;若某个流中存在数据包,则将数据包载荷中的每个字节转换成
10
进制,并将每个字节定义为包词语,将载荷中所有的包词语按照顺序组成包句子,将包句子拼接形成流段落;步骤
5.2
,针对任意一个流段落,计算该流段落中每个包词语的
SIF
权重;步骤
5.3
,根据
SIF
权重计算每个流段落的加权平均词向量;步骤
5.4
,针对任意一个流段落,将该流段落中的词向量组合成句向量矩阵,将流段落的加权平均词向量减去该加权平均词向量在相应句向量矩阵第一个主成分上的投影,从而得到每条流的负载特征,该负载特征的纬度为
N2
;所述第一主成分为采用主成分分析法收集流段落中数据包的所有特征,并对特征进行分类,将最主要的特征作为第一主成分;步骤6,把统计特征

协议特征和负载特征拼接制作为最终的网络特征
。2.
根据权利要求1所述的一种采样时间不敏感频率维度可配置的网络特征提取方法,其特征在于,所述步骤3具体为:将流中每个数据包按照时间戳排序,然后计算数据包的时间间隔均值

再根据该均值计算方差,根据方差计算标准差,将得到的时间间隔均值

方差和标准差作为相应流的数据包间隔统计特征;统计每条流中数据包的总长度,并计算数据包的长度均值

长度方差和长度标准差,将该长度均值

长度方差和长度标准差作为相应流的数据包大小统计特征
。3.
根据权利要求1所述的一种采样时间不敏感频率维度可配置的网络特征提取方法,其特征在于,所述步骤4具体为:去除
IP
...

【专利技术属性】
技术研发人员:王攀金凯威
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1