当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于三重特征选择和增量学习的在线流分类方法技术

技术编号:34925416 阅读:18 留言:0更新日期:2022-09-15 07:19
本申请涉及一种基于三重特征选择和增量学习的在线流分类方法,所述方法包括:基于预先采集的网络流量样本数据,采用三重特征选择方案进行特征选择,并使用霍夫丁任意时间树增量学习方法离线训练模式构建初始的决策模型;基于实时的流量,获取用于在线训练的特征数据集合,对所述特征数据集合中的特征数据进行处理,并基于处理后的特征数据集合通过霍夫丁任意时间树的在线模式更新初始的决策模型,获得用于对网络流量进行在线分类的决策模型。通过本申请中的方法,可以实现实时地对长短流进行细粒度的流分类,识别类型包括猎豹流、乌龟流、豪猪流和大象流,提供了一种通用的在线流分类框架。框架。框架。

【技术实现步骤摘要】
一种基于三重特征选择和增量学习的在线流分类方法


[0001]本申请属于数据处理
,具体涉及一种基于三重特征选择和增量学习的在线流分类方法。

技术介绍

[0002]网络流具有显著的重尾分布特征,数量较少的长流占据了网络流量的大部分。因此掌握长流信息就可以对链路上经过的所有网络流量有个整体的认识,便于对网络流量进行管理和监测分析,对网络流量计费、安全检测、流量调控等工程应用起着重大作用,并且对长流进行识别可以有效缩减处理和存储的数据量,提高系统处理效率和资源利用率。
[0003]第一方面,在传统的长短流分类方案中,基于抽样的方法虽然实现简单,但是存在较大的误差。基于LRU的长短流分类方案基于长流持续时间长、长度大、访问缓存频繁的特性,将长流留在LRU缓存中,但是在实际测量过程中,当大量突发性的短流到达时,由于短流的数量较多,会充满LRU的缓存空间,这样会致长流对象被置换出LRU缓存空间。基于哈希表的长短流分类方案则可能发生哈希冲突,另外,哈希表的维护也需要很大的开销。
[0004]第二方面,基于人工智能技术的流分类方案对于快速精准的流识别有一定优势,但是对于目前提出的高效采样和流分类方案、基于朴素贝叶斯和C4.5的大象流和老鼠流分类算法,以及基于门控循环单元的长短流分类均通过离线训练得到决策模型,上述方法均要求所有的训练示例都同时存储在内存中,因此其训练样本的数量受到了严重的限制。随着数据规模的增加,它无法实时更新现有模型,只能通过重新训练获得新的决策模型。如果网络环境发生很大变化,而且模型的泛化能力不足,那么原始模型就不一定能够有效地进行流量识别和分类。
[0005]鉴于此,本申请提供一种三重特征选择和增量学习的在线流分类方法,能够基于构建的决策模型对流量进行实时在线分类,以满足服务质量的需求。

技术实现思路

[0006](一)要解决的技术问题
[0007]鉴于现有技术的上述缺点、不足,本申请提供一种基于三重特征选择和增量学习的在线流分类方法。
[0008](二)技术方案
[0009]为达到上述目的,本申请采用如下技术方案:
[0010]第一方面,本申请提供一种基于三重特征选择和增量学习的在线模型获取方法,包括:
[0011]S10、基于预先采集的网络流量样本数据,采用三重特征选择方案进行特征选择,并使用霍夫丁任意时间树增量学习方法离线训练模式构建初始的决策模型;
[0012]S20、基于实时的流量,获取用于在线训练的特征数据集合,对所述特征数据集合中的特征数据进行处理,并基于处理后的特征数据集合通过霍夫丁任意时间树的在线模式
更新初始的决策模型,获得用于对网络流量进行在线分类的决策模型;
[0013]其中,网络流量样本数据为采用软件工具FNP

flowmeter的离线模式处理,并构建的离线特征数据集合;
[0014]在线训练的特征数据集合为在预设的计时时间段内,采用FNP

flowmeter在线模式对实时的流量进行分析,提取的在线特征数据集合。
[0015]可选的,所述S10包括:
[0016]S11、基于预先采集的网络流量样本数据,采用FNP

flowmeter离线模式处理,构建离线特征数据集合,并根据流的字节数和流的持续时长划分流的类型,并标记流的类型;
[0017]S12、基于已标记流类别的离线特征数据,根据三重特征选择算法构建已标记的特征数据集,采用霍夫丁任意时间树增量学习方法离线训练模式构建初始的决策模型。
[0018]可选的,所述S12中的根据三重特征选择算法构建已标记的特征数据集,包括:
[0019]S12

1、对已标记流类别的离线特征数据进行预处理;
[0020]所述预处理包括:采用对称不确定性计算每个特征数据与类别之间的相关性,以得到关联性的特征数据子集;
[0021]对与类别有关联性的特征数据子集进行去除冗余特征的处理,以获得没有冗余特征的特征数据子集;
[0022]S12

2、采用顺序特征选择器,将没有冗余的特征数据子集中初始d维特征空间缩减为k维特征子空间,得到降维后的特征数据子集;
[0023]S12

3、采用特征出现频率选择器,在阈值m内筛选降维后的特征数据子集中所有的特征序列,并统计所选取的所有特征序列中各个特征出现的频率,返回降序排列的且出现频率大于1的特征序列SF以及各个特征出现的频次FQ,标记通过筛选得到的特征,基于标记出的特征构建已标记的特征数据集。
[0024]可选的,所述S11之后,S12之前,还包括:对所述离线特征数据集合进行平衡化处理。
[0025]可选的,所述S20包括:
[0026]S21:初始化计时器;
[0027]S22:通过FNP

flowmeter在线模式对实时的流量进行分析,提取在线特征数据;
[0028]S23:基于在线特征数据,根据流的字节数和流的持续时长划分流的类型,获得已标记的在线特征数据;
[0029]S24:判断计时器是否超过时限,若没有,则重复步骤S22

S23,否则,执行S25;
[0030]S25:将已标记的在线特征数据通过霍夫丁任意时间树的在线模式更新初始的决策模型,获得用于对网络流量进行在线分类的决策模型。
[0031]可选的,根据流的字节数和流的持续时长划分流的类型,包括:
[0032]若S
l
<S且T
l
<T,则流类型为猎豹流;
[0033]若S
l
<S且T
l
≥T,则流类型为乌龟流;
[0034]若S
l
≥S且T
l
<T,则流类型为豪猪流;
[0035]若S
l
≥S且T
l
≥T,则流类型为大象流;
[0036]其中,S
l
表示在线特征数据中的流字节数,S表示流字节数阈值,T
l
表示在线特征数据中的流持续时间,T表示流持续时间阈值。
[0037]第二方面,本申请提供一种基于三重特征选择和增量学习的在线流分类方法,包括:
[0038]A01、基于预先采集的网络流量和在线的网络流量,获取训练的用于对网络流量进行在线分类的决策模型;
[0039]A02、实时捕获流量,并将捕获的流量按照预设的五元组方式归类;
[0040]所述五元组包括:源IP地址、目的IP地址、源端口号、目的端口号、传输层协议;
[0041]A03、对归类后的数据包进行特征预处理,得到预处理后的特征数据;
[0042]A04、采用所述决策模型对预处理后的特征数据进行分类,获取实时捕获流量的流类型,输出归类的五元组和每一组所属的类别信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于三重特征选择和增量学习的在线模型获取方法,其特征在于,包括:S10、基于预先采集的网络流量样本数据,采用三重特征选择方案进行特征选择,并使用霍夫丁任意时间树增量学习方法离线训练模式构建初始的决策模型;S20、基于实时的流量,获取用于在线训练的特征数据集合,对所述特征数据集合中的特征数据进行处理,并基于处理后的特征数据集合通过霍夫丁任意时间树的在线模式更新初始的决策模型,获得用于对网络流量进行在线分类的决策模型;其中,网络流量样本数据为采用软件工具FNP

flowmeter的离线模式处理,并构建的离线特征数据集合;在线训练的特征数据集合为在预设的计时时间段内,采用FNP

flowmeter在线模式对实时的流量进行分析,提取的在线特征数据集合。2.根据权利要求1所述的在线模型获取方法,其特征在于,所述S10包括:S11、基于预先采集的网络流量样本数据,采用FNP

flowmeter离线模式处理,构建离线特征数据集合,并根据流的字节数和流的持续时长划分流的类型,并标记流的类型;S12、基于已标记流类别的离线特征数据,根据三重特征选择算法构建已标记的特征数据集,采用霍夫丁任意时间树增量学习方法离线训练模式构建初始的决策模型。3.根据权利要求1所述的在线模型获取方法,其特征在于,所述S12中的根据三重特征选择算法构建已标记的特征数据集,包括:S12

1、对已标记流类别的离线特征数据进行预处理;所述预处理包括:采用对称不确定性计算每个特征数据与类别之间的相关性,以得到关联性的特征数据子集;对与类别有关联性的特征数据子集进行去除冗余特征的处理,以获得没有冗余特征的特征数据子集;S12

2、采用顺序特征选择器,将没有冗余的特征数据子集中初始d维特征空间缩减为k维特征子空间,得到降维后的特征数据子集;S12

3、采用特征出现频率选择器,在阈值m内筛选降维后的特征数据子集中所有的特征序列,并统计所选取的所有特征序列中各个特征出现的频率,返回降序排列的且出现频率大于1的特征序列SF以及各个特征出现的频次FQ,标记通过筛选得到的特征,基于标记出的特征构建已标记的特征数据集。4.根据权利要求1所述的在线模型获取方法,其特征在于,所述S11之后,S12之前,还包括:对所述离线特征数据集合进行平衡化处理。5.根据权利要求1所述的在线模型获取方法,其特征在于,所述S20包括:S21:初始化计时器;S22:通过FNP

flowmeter在线模式对实时的流量进行分析,提取在线特征数据;S23:基于在线...

【专利技术属性】
技术研发人员:王兴伟赵伟莨王卓楠贾杰
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1