基于极限学习机算法的网络流量在线分类的学习模型制造技术

技术编号:38359925 阅读:9 留言:0更新日期:2023-08-05 17:29
本发明专利技术公开了基于极限学习机算法的网络流量在线分类的学习模型,按照如下步骤实现:S1:提取网络流量数据的统计特征并使用皮尔森相关系数进行筛选;步骤S2:将统计特征输入预训练模型;步骤S3:在测试过程中加入新类样本,通过基于ELM的距离度量进行新类检测,筛选出新类样本,根据新类样本筛选出对应辅助训练样本,训练识别该新类的二分类器,加入系统模型,步骤S4:当满足一定条件时,对模型进行整体更新。基于ELM算法的距离度量和辅助训练样本,根据经验阈值进行新类检测,采用串联结构包含新的类别,降低在线分类的时间,在后续分类过程中,不断优化调整识别参数,在保证模型识别性能以及在线分类的前提下,使可检测类别数目翻倍。倍。倍。

【技术实现步骤摘要】
基于极限学习机算法的网络流量在线分类的学习模型


[0001]本专利技术涉及网络流量分类
,尤其涉及基于极限学习机算法的网络流量在线分类的学习模型。

技术介绍

[0002]近些年,互联网的迅速发展使得活跃在网络上的用户不断增加,不断增长的数据量为网络流分类(Network traffic classification,NTC)带来了困难和挑,网络流分类在网络入侵检测、恶意软件检测等领域都有着广泛的应用。
[0003]随着机器学习(Machine Learning,ML)和深度学习(Deep Learning,DL)技术的快速,网络流分类在闭集问题中取得了优秀的分类性能。但在真实场景下,网络应用程序层出不穷,需要检测的类别越来越多,对网络流分类提出了新的挑战。对于这些包含未知类的流识别问题,称为开集流识别(Open set flow recognition,OSFR)。
[0004]开集流识别同其它的开放世界识别(Open set flow recognition,OSR)问题一样,希望完成三个过程:首先,该系统能够检测新类;其次,对识别的新类进行标记然后将其纳入已知类中;最后是一个增量学习的阶段,根据新的已知类对模型进行更新。当然,这些过程应当是自动完成的。
[0005]最早和新类检测问题相关的是Palatucci et al提出零样本学习(ZSL)概念,在一些特殊环境下,某些类的训练样本难以获得,但是可以通过特殊途径获得相关辅助信息(语义和属性信息等)来帮助识别这些类。但在真实情况下进行新类检测,我们无法提前获取新类的辅助信息。
[0006]针对测试集中出现新类提出的方法,其目的是基于某些度量拒绝不属于已知类的样本,与异常检测问题相似,但是它不能对已知类进行分类。不过一类样本分类问题为OSR开拓了新思路。
[0007]文献"Yu Y,Qu W Y,Li N,et al.Open

category classification by adversarial sample generation[J].arXiv preprint arXiv:1705.08722,2017."提出了使用ASG(Adversarial Sample Generation)策略,以无监督/半监督的方式为一类分类问题生成负类样本,负类样本接近但不属于已知类,并且为每个已知类训练了一个SVM分类器。实验表明该方法在新类检测方面具有不错的分类性能,不过容易将已知类分类到新类中去,并且负类样本的生成时间较长,不能满足OSFR在线更新的要求。
[0008]其它方法还有文献"Geng C,Chen S.Collective decision for open set recognition[J].IEEE Transactions on Knowledge and Data Engineering,2020,34(1):192

204."提出的CD

OSR(Collective Decision

based OSR)模型,不需要使用阈值,依靠自动聚类为新类留出空间。不过该方法分类性能还有待提高,基于聚类的方法,时间消耗也较多。
[0009]目前,已有大量方法被探索用于OSFR,不过这些工作大部分都集中在新类检测方法,检测性能不佳,并且没有涉及后续的模型更新方面。面临的主要问题有:(1)如何有效进
行新类检测;(2)用于更新的新类样本的选择;(3)模型更新方法

技术实现思路

[0010]本专利技术的目的是为了解决现有技术中存在的缺陷,而提出的基于极限学习机算法的网络流量在线分类的学习模型。
[0011]为了实现上述目的,本专利技术采用了如下技术方案:
[0012]基于极限学习机算法的网络流量在线分类的学习模型,步骤1:提取网络流量数据的统计特征并使用皮尔森相关系数进行筛选;
[0013]步骤2:将统计特征输入预训练模型,训练模型;
[0014]步骤3:在测试过程中加入新类样本,通过基于ELM的距离度量进行新类检测,筛选出新类样本,根据新类样本筛选出对应辅助训练样本,训练识别该新类的二分类器,加入系统模型。
[0015]步骤4:当满足一定条件时,对模型进行整体更新。重训练新类检测二分类器和已知类分类器。
[0016]作为本专利技术的进一步改进,所述步骤1具体包括:
[0017]步骤11:通过软件捕获网络流量数据,所述网络流量数据包括无标签数据和有标签数据,所述无标签数据的数量大于所述有标签数据的数量;
[0018]步骤12:提取所述网络流量数据中每一个数据包的关键信息;
[0019]步骤13:根据所述网络流量数据中每条流的前10个数据包的关键信息计算得到统计特征;
[0020]步骤14:进行时间复杂度和皮尔森相关系数筛选,从所述流的统计特征中筛选出能有效识别网络流量类别的关键统计特征,并将其分为有标签和无标签两部分。
[0021]作为本专利技术的更进一步的改进,所述步骤2具体包括:
[0022]步骤21:使用初始已知类的样本训练一个ELM分类器H
E
,并且统计已知类输出的d
min
分布。
[0023]步骤22:使无标签数据集样本通过ELM分类器H
E
,筛选出符合要求的可以帮助已知类的辅助训练样本
[0024]步骤23:已知类样本打上同一标签,辅助训练样本打上同一标签,训练一个二分类器H0。
[0025]步骤24:将二分类器H0和多分类器H
E
以及新类处理模块连接起来,搭建出模型基本框架。
[0026]作为本专利技术的更进一步的改进,所述步骤3具体包括:
[0027]步骤31:测试分成多个阶段进行,每个阶段增加一个新类。
[0028]步骤32:第一阶段,测试样本经过H0,判定为正样本且d
min
<β,作为已知类样本进入H
E
进行输出结果判别,负样本作为新类样本被收集起来
[0029]步骤33:收集的新类样本数量满足训练要求,暂停在线分类,从无标签数据中收集符合条件的辅助训练样本,筛选条件为β<d
min
<β+ε,为的是筛选出符合接近该样本但不属于这类的样本作为辅助训练样本,训练一个二分类器,串联在H0与新类处理模块中,进入下一阶段。
[0030]步骤34:重复步骤31

33,直到触发整体更新条件。
[0031]作为本专利技术的更进一步的改进,所述步骤4具体包括:
[0032]当前可识别的流量类别数目=2*初始可识别流量类别时,触发整体更新条件。更新方法,使用新类处理模块中的缓存区存储的样本和已知类样本,训练H0*和HE*来代替H0和HE,同时清空HO*和新类处理模块之间的所有二分类器。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于极限学习机算法的网络流量在线分类的学习模型,其特征在于,按照以下步骤实现:步骤S1:提取网络流量数据的统计特征并使用皮尔森相关系数进行筛选;步骤S2:将统计特征输入预训练模型,训练模型;步骤S3:在测试过程中加入新类样本,通过基于ELM的距离度量dmin进行新类检测,筛选出新类样本,根据新类样本筛选出对应辅助训练样本,训练识别该新类的二分类器,加入系统模型;步骤S4:当满足一定条件时,对模型进行整体更新,重训练新类检测二分类器和已知类分类器。2.根据权利要求1所述的基于极限学习机算法的网络流量在线分类的学习模型,其特征在于,在步骤S1中,具体还包括:步骤11:通过软件捕获网络流量数据,所述网络流量数据包括无标签数据和有标签数据,所述无标签数据的数量大于所述有标签数据的数量;步骤12:提取所述网络流量数据中每一个数据包的关键信息;步骤13:根据所述网络流量数据中每条流的前10个数据包的关键信息计算得到统计特征;步骤14:进行时间复杂度和皮尔森相关系数筛选,从所述流的统计特征中筛选出能有效识别网络流量类别的关键统计特征,并将其分为有标签和无标签两部分。3.根据权利要求1所述的基于极限学习机算法的网络流量在线分类的学习模型,其特征在于,在步骤S2中,具体还包括:步骤21:使用初始已知类的样本训练一个ELM分类器H
E
,并且统计已知类输出的d
min
分布;步骤22:使无标签数据集样本通过ELM分类器H
E
,筛选出符合要求的可以帮助已知类的辅助训练样本;步骤23:已知类样本打上同一标签,辅助训练样本打上同一标签,训练一个二分类器H0;步骤24:将二分类器H0和多分类器H
E
以及新类处理模块连接起来,搭建出模型基本框架。4.根据权利要求1所述的基于极限学习机算法的网络流量在线分类的学习模型,其特征在于,在步骤S3中,具体还包括:步骤31:测试分成多个阶段进行,每个阶段增加一个新类;步骤32:第一阶段,测试样本经过H0,判定为正样本且d
min
<β,作为已知类样本进入H
E
进行输出结果判别,负样本作为新类样本被收集起来;步骤33:收集的新类样本数量满足训练要求,暂停在线分类,从无标签数据中收集符合条件的辅助训练样本,筛选条件为β<d
min

【专利技术属性】
技术研发人员:陈山杉吕超
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1