基于不可靠伪标签半监督学习的恶意流量分类方法和设备技术

技术编号:38380532 阅读:8 留言:0更新日期:2023-08-05 17:39
本发明专利技术的实施例提供了基于不可靠伪标签半监督学习的恶意流量分类方法和设备。所述方法包括获取流量数据样本,进行预处理,得到标记样本和未标记样本;将标记样本输入第一网络模型进行训练;通过训练后的第一网络模型对部分未标记样本进行预测,将预测结果作为伪标签对部分未标记样本进行标记;将具有伪标签的未标记样本与标记样本混杂后输入第二网络模型进行训练,通过训练后的第二网络模型对网络流量数据进行恶意流量分类。以此方式,可以在恶意流量分类任务中,减少对标注数据集的依赖程度,最大程度利用流量样本,增加模型对于恶意流量的识别能力,提高模型的学习性能,从而增强模型对恶意流量识别分类的效率和准确率。强模型对恶意流量识别分类的效率和准确率。强模型对恶意流量识别分类的效率和准确率。

【技术实现步骤摘要】
基于不可靠伪标签半监督学习的恶意流量分类方法和设备


[0001]本专利技术一般涉及网络安全领域,并且更具体地,涉及基于不可靠伪标签半监督学习的恶意流量分类方法和设备。

技术介绍

[0002]随着互联网技术的蓬勃发展,网络技术已经成为生产生活必不可少的工具,如电子支付,工业网络,网络会议等。同时,网络也带来了一些风险,黑客可以通过网络漏洞对特定的服务器或终端发起攻击。传统的方法难以对多样化的恶意流量进行全面防御,使用深度学习方法可以很方便的对恶意流量进行检测和分类。
[0003]关于检测恶意流量的方法,通常采用深度学习技术,其中监督学习、无监督学习和半监督学习等方式被广泛应用。监督学习需要大量标注数据集,这需要网络安全专业人士对数据进行手工判别,需要大量的精力投入。相比之下,无监督学习容易陷入局部最优,检测效率低,准确率也不尽人意。采用半监督学习的方法检测恶意流量,通常需要在预测结果中进行样本筛选,以去除低置信度的预测结果,而选择高置信度的预测结果作为伪标签。然而,这种方法可能会去除大量无标签数据,导致训练数据不足,阻碍模型的充分训练。同时,对于某些模型难以预测的分类,该方法可能无法准确地为该类别的流量样本分配伪标签,从而导致模型对该分类的预测能力无法得到有效优化。

技术实现思路

[0004]根据本专利技术的实施例,提供了一种基于不可靠伪标签半监督学习的恶意流量分类方案。本方案能够在恶意流量分类任务中,减少对标注数据集的依赖程度,最大程度利用流量样本,增加模型对于恶意流量的识别能力,提高模型的学习性能,从而增强模型对恶意流量识别分类的效率和准确率。
[0005]在本专利技术的第一方面,提供了一种基于不可靠伪标签半监督学习的恶意流量分类方法。该方法包括:获取流量数据样本,对所述流量数据样本进行预处理,得到标记样本和未标记样本;将所述标记样本输入第一网络模型,对所述第一网络模型进行训练;通过训练后的第一网络模型对部分未标记样本进行预测,将预测结果作为伪标签对所述部分未标记样本进行标记;将具有伪标签的未标记样本与所述标记样本混杂后输入第二网络模型,对所述第二网络模型进行训练,根据训练后的第二网络模型的参数对所述第一网络模型的参数进行更新,以及通过训练后的第二网络模型对网络流量数据进行恶意流量分类。
[0006]进一步地,所述对所述流量数据样本进行预处理,包括:将所述流量数据样本按五元组形式分割为多个网络流;根据样本流量类型对所述多个网络流中的一部分进行标记,得到标记样本和未标
记样本;对所述标记样本和未标记样本进行脱敏处理、样本清洗、切片处理、归一化处理中的一种或几种,得到预处理后的流量数据样本。
[0007]进一步地,所述第一网络模型和第二网络模型均为CNN网络模型,所述CNN网络模型的分类预测输出为:所述CNN网络模型的表征输出为:其中,为输入样本;为权重;为分类预测输出模块;为分类预测输出;为特征提取模块;为表征输出模块;为表征输出;表示复合映射。
[0008]进一步地,利用信息熵将所述伪标签区分为可靠伪标签和不可靠伪标签;当信息熵大于阈值时,伪标签为不可靠伪标签;当信息熵不大于阈值时,伪标签为可靠伪标签。
[0009]进一步地,所述信息熵为:其中,为信息熵;为类别数量;为第i个样本分为类别的概率。
[0010]进一步地,所述第二网络模型的损失函数为:其中,为标记样本对应的监督损失;为标记可靠伪标签的未标记样本对应的无监督学习的损失;为充分利用不可靠伪标签的对比损失;为未标记样本对应的无监督学习的损失所对应的权重;为充分利用不可靠伪标签的对比损失所对应的权重。
[0011]进一步地,还包括:在计算所述第二网络模型的损失函数时,选择正样本表征和负样本表征;所述正样本表征为:其中,为类别的锚点样本表征集合;为类别的正样本表征;为锚点样本表征;所述负样本表征为:其中,为类别的负样本表征;为标记样本中属于类别的负样本表征的集合;为未标记样本中属于类别的负样本表征的集合。
[0012]进一步地,所述根据训练后的第二网络模型的参数对所述第一网络模型的参数进行更新,包括:将训练后的第二网络模型的参数通过指数移动平均的方式赋予所述第一网络模型,对所述第一网络模型的参数进行更新。
[0013]进一步地,在一次训练中,使用分类存储库存储所述负样本表征。
[0014]在本专利技术的第二方面,提供了一种电子设备。该电子设备至少一个处理器;以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术第一方面的方法。
[0015]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本专利技术的实施例的关键或重要特征,亦非用于限制本专利技术的范围。本专利技术的其它特征将通过以下的描述变得容易理解。
附图说明
[0016]结合附图并参考以下详细说明,本专利技术各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了根据本专利技术的实施例的基于不可靠伪标签半监督学习的恶意流量分类方法的流程图;图2示出了能够实施本专利技术的实施例的示例性电子设备的方框图;其中,200为电子设备、201为计算单元、202为ROM、203为RAM、204为总线、205为I/O接口、206为输入单元、207为输出单元、208为存储单元、209为通信单元。
具体实施方式
[0017]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本专利技术保护的范围。
[0018]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0019]图1示出了本专利技术实施例的基于不可靠伪标签半监督学习的恶意流量分类方法的流程图。
[0020]该方法包括:S101、获取流量数据样本,对所述流量数据样本进行预处理,得到标记样本和未标记样本。
[0021]在本实施例中,获取流量数据样本可以收集包含恶意流量和常规流量的开源数据集,例如CIC

IDS

2017数据集,包含良性流量和常见攻击流量,攻击流量有DoS攻击、Web攻击等。
[0022]在本实施例中,获取流量数据样本还可以直接对现实网络流量数据进行采集。
[0023]在本实施例中,预处理主要用于将流量数据样本进行转换,使其变为模型可以接收的固定格式的矩阵输出。
[0024]所述对所述流量数据样本进行预处理,包括:将所述流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于不可靠伪标签半监督学习的恶意流量分类方法,其特征在于,包括:获取流量数据样本,对所述流量数据样本进行预处理,得到标记样本和未标记样本;将所述标记样本输入第一网络模型,对所述第一网络模型进行训练;通过训练后的第一网络模型对部分未标记样本进行预测,将预测结果作为伪标签对所述部分未标记样本进行标记;将具有伪标签的未标记样本与所述标记样本混杂后输入第二网络模型,对所述第二网络模型进行训练,根据训练后的第二网络模型的参数对所述第一网络模型的参数进行更新,以及通过训练后的第二网络模型对网络流量数据进行恶意流量分类。2.根据权利要求1所述的方法,其特征在于,所述对所述流量数据样本进行预处理,包括:将所述流量数据样本按五元组形式分割为多个网络流;根据样本流量类型对所述多个网络流中的一部分进行标记,得到标记样本和未标记样本;对所述标记样本和未标记样本进行脱敏处理、样本清洗、切片处理、归一化处理中的一种或几种,得到预处理后的流量数据样本。3.根据权利要求1所述的方法,其特征在于,所述第一网络模型和第二网络模型均为CNN网络模型,所述CNN网络模型的分类预测输出为:所述CNN网络模型的表征输出为:其中,为输入样本;为权重;为分类预测输出模块;为分类预测输出;为特征提取模块;为表征输出模块;为表征输出;表示复合映射。4.根据权利要求1所述的方法,其特征在于,利用信息熵将所述伪标签区分为可靠伪标签和不可靠伪标签;当信息熵大于阈值时,伪标签为不可靠伪标签;当信息熵不大于阈值时,伪标签为可靠伪标签。5.根据权利要...

【专利技术属性】
技术研发人员:曲武
申请(专利权)人:金睛云华沈阳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1