基于不可靠伪标签半监督学习的恶意流量分类方法和设备技术

技术编号：38380532 阅读：8 留言：0更新日期：2023-08-05 17:39

本发明专利技术的实施例提供了基于不可靠伪标签半监督学习的恶意流量分类方法和设备。所述方法包括获取流量数据样本，进行预处理，得到标记样本和未标记样本；将标记样本输入第一网络模型进行训练；通过训练后的第一网络模型对部分未标记样本进行预测，将预测结果作为伪标签对部分未标记样本进行标记；将具有伪标签的未标记样本与标记样本混杂后输入第二网络模型进行训练，通过训练后的第二网络模型对网络流量数据进行恶意流量分类。以此方式，可以在恶意流量分类任务中，减少对标注数据集的依赖程度，最大程度利用流量样本，增加模型对于恶意流量的识别能力，提高模型的学习性能，从而增强模型对恶意流量识别分类的效率和准确率。强模型对恶意流量识别分类的效率和准确率。强模型对恶意流量识别分类的效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于不可靠伪标签半监督学习的恶意流量分类方法和设备

[0001]本专利技术一般涉及网络安全领域，并且更具体地，涉及基于不可靠伪标签半监督学习的恶意流量分类方法和设备。

技术介绍

[0002]随着互联网技术的蓬勃发展，网络技术已经成为生产生活必不可少的工具，如电子支付，工业网络，网络会议等。同时，网络也带来了一些风险，黑客可以通过网络漏洞对特定的服务器或终端发起攻击。传统的方法难以对多样化的恶意流量进行全面防御，使用深度学习方法可以很方便的对恶意流量进行检测和分类。
[0003]关于检测恶意流量的方法，通常采用深度学习技术，其中监督学习、无监督学习和半监督学习等方式被广泛应用。监督学习需要大量标注数据集，这需要网络安全专业人士对数据进行手工判别，需要大量的精力投入。相比之下，无监督学习容易陷入局部最优，检测效率低，准确率也不尽人意。采用半监督学习的方法检测恶意流量，通常需要在预测结果中进行样本筛选，以去除低置信度的预测结果，而选择高置信度的预测结果作为伪标签。然而，这种方法可能会去除大量无标签数据，导致训练数据不足，阻碍模型的充分训练。同时，对于某些模型难以预测的分类，该方法可能无法准确地为该类别的流量样本分配伪标签，从而导致模型对该分类的预测能力无法得到有效优化。

技术实现思路

[0004]根据本专利技术的实施例，提供了一种基于不可靠伪标签半监督学习的恶意流量分类方案。本方案能够在恶意流量分类任务中，减少对标注数据集的依赖程度，最大程度利用流量样本，增加模型对于恶意流量的识别能力，提高模型的学...

【技术保护点】

【技术特征摘要】
1.一种基于不可靠伪标签半监督学习的恶意流量分类方法，其特征在于，包括：获取流量数据样本，对所述流量数据样本进行预处理，得到标记样本和未标记样本；将所述标记样本输入第一网络模型，对所述第一网络模型进行训练；通过训练后的第一网络模型对部分未标记样本进行预测，将预测结果作为伪标签对所述部分未标记样本进行标记；将具有伪标签的未标记样本与所述标记样本混杂后输入第二网络模型，对所述第二网络模型进行训练，根据训练后的第二网络模型的参数对所述第一网络模型的参数进行更新，以及通过训练后的第二网络模型对网络流量数据进行恶意流量分类。2.根据权利要求1所述的方法，其特征在于，所述对所述流量数据样本进行预处理，包括：将所述流量数据样本按五元组形式分割为多个网络流；根据样本流量类型对所述多个网络流中的一部分进行标记，得到标记样本和未标记样本；对所述标记样本和未标记样本进行脱敏处理、样本清洗、切片处理、归一化处理中的一种或几种，得到预处理后的流量数据样本。3.根据权利要求1所述的方法，其特征在于，所述第一网络模型和第二网络模型均为CNN网络模型，所述CNN网络模型的分类预测输出为：所述CNN网络模型的表征输出为：其中，为输入样本；为权重；为分类预测输出模块；为分类预测输出；为特征提取模块；为表征输出模块；为表征输出；表示复合映射。4.根据权利要求1所述的方法，其特征在于，利用信息熵将所述伪标签区分为可靠伪标签和不可靠伪标签；当信息熵大于阈值时，伪标签为不可靠伪标签；当信息熵不大于阈值时，伪标签为可靠伪标签。5.根据权利要...

【专利技术属性】
技术研发人员：曲武，
申请(专利权)人：金睛云华沈阳科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人