一种恶意流量识别方法和系统技术方案

技术编号：40594302 阅读：5 留言：0更新日期：2024-03-12 21:56

本发明专利技术公开了一种恶意流量识别方法，包括以下步骤：S1:从恶意流量数据集中获取有标签的数据，创建文本语料库；S2:将文本语料库作为输入数据输入到bert模型进行预训练；S3:将预训练后的数据输入到Bi‑GRU；S4:将带有标签的数据集输入到bert模型中进行微调，并通过反向传播和优化算法调整模型参数；S5:使用微调后的bert模型对新的、未见过的网络流量进行识别。一种恶意流量识别系统，应用于一种恶意流量识别方法。本发明专利技术在少量有标记的数据集上微调，只需少量标记数据，大大减少了标记数据的工作量，有效地利用未标记数据进行模型的训练和优化，并且拥有极高的准确率，提高恶意流量的识别准确性和效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及流量检测数据领域，尤其涉及一种恶意流量识别方法及系统。

技术介绍

1、目前，卷积神经网络(cnn)和循环神经网络(rnn)，在恶意流量识别中得到广泛应用。这些模型可以从原始流量数据中学习表示和特征，具有较强的表征能力。然而，深度学习方法需要大量的标记数据和计算资源进行训练，并且模型的解释性相对一般，难以解释模型对恶意流量的判定过程。

2、然而，深度学习方法需要大量的标记数据和计算资源进行训练，并且模型的解释性相对较差，难以解释模型对恶意流量的判定过程，未标记的数据往往被忽视。

技术实现思路

1、专利技术目的：本专利技术的目的是提供能够利用未标记数据进行模型训练和优化，提高恶意流量识别效果和准确率的一种恶意流量识别方法及系统。

2、技术方案：为了实现上述专利技术目的，本专利技术的一种恶意流量识别方法，其特征在于，包括以下步骤：

3、s1:从恶意流量数据集中获取有标签的数据，创建文本语料库；

4、s2:将文本语料库作为输入数据输入到bert模型进行预训练；

5、s3:将预训练后的数据输入到bi-gru；

6、s4:将带有标签的数据集输入到bert模型中进行微调，并通过反向传播和优化算法调整模型参数；

7、s5:使用微调后的bert模型对新的、未见过的网络流量进行识别。

8、进一步地，s1的步骤包括：

9、解析pcap文件，提取数据包；

10、遍历每个数据包，提取所需的信息；

11、组织提取的信息并创建一个文本序列，使用逗号、制表符或其他分隔符来分隔不同的字段；

12、将每个会话的文本序列添加到一个整体的文本语料库中；

13、循环遍历每个数据包直到处理完所有数据包；

14、将生成的文本语料库保存为文本文件。

15、进一步地，所述有标签的数据包括恶意流量和正常流量。

16、进一步地，提取数据包的负载部分转换为16进制字符串形式。

17、进一步地，将文本语料库作为输入数据输入到bert模型进行预训练之前还包括：对文本数据进行预处理以适应bert模型的输入格式。

18、进一步地，将带有标签的数据集输入到bert模型中进行微调包括将流量转化为文本序列，并与其相应的标签一起作为训练集输入到bert模型的编码器上进行微调。

19、进一步地，s4还包括

20、将带有标签的数据集输入到微调后的bert模型，通过前向传播计算预测结果；

21、根据预测结果和真实标签之间的差异，计算损失函数值；

22、使用反向传播算法计算损失函数对模型参数的梯度；

23、根据计算得到的梯度更新模型参数；

24、重复上述，使用下一个批次的数据进行迭代训练；

25、继续迭代多个批次直到达到预定的训练轮数。每个批次都会导致一次参数更新。

26、一种恶意流量识别系统，应用于一种恶意流量识别方法，包括数据收集模块、数据预处理模块、数据加工模块、恶意流量识别模块和数据库系统模块，所述数据收集模块、所述数据预处理模块、所述数据加工模块、所述恶意流量识别模块和所述数据库系统模块交互连接，

27、所述数据收集模块用于收集网络流量数据；

28、所述数据预处理模块用于在将数据输入到bert模型前对数据进行一些预处理；

29、所述数据加工模块用于进一步学习网络流量数据的时序特征和调整模型参数；

30、所述恶意流量识别模块用于训练模型来识别恶意流量；

31、所述数据库系统模块用于对所述数据预处理模块分类后的数据进行存储。

32、bert(bidirectional encoder representations from transformers)是一种自然语言处理领域的深度学习模型。

33、gru(gated recurrent unit)也称门控循环单元结构，它也是传统rnn的变体，能够有效捕捉长序列之间的语义关联,缓解梯度消失或爆炸现象。

34、有益效果：本专利技术用大量无标签恶意流量上进行预训练，学习恶意流量的基本特征，然后在此基础上引入了bi-gru，以更好地捕捉序列模式和局部特征。在少量有标记的数据集上微调。只需少量标记数据，大大减少了标记数据的工作量，有效地利用未标记数据进行模型的训练和优化，并且拥有极高的准确率，提高恶意流量的识别准确性和效果。

本文档来自技高网...

【技术保护点】

1.一种恶意流量识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的恶意流量识别方法，其特征在于，S1的步骤包括：

3.根据权利要求2所述的恶意流量识别方法，其特征在于，所述有标签的数据包括恶意流量和正常流量。

4.根据权利要求3所述的恶意流量识别方法，其特征在于，提取数据包的负载部分转换为16进制字符串形式。

5.根据权利要求1所述的恶意流量识别方法，其特征在于，将文本语料库作为输入数据输入到bert模型进行预训练之前还包括：对文本数据进行预处理以适应bert模型的输入格式。

6.根据权利要求1所述的恶意流量识别方法，其特征在于，将带有标签的数据集输入到bert模型中进行微调包括将流量转化为文本序列，并与其相应的标签一起作为训练集输入到bert模型的编码器上进行微调。

7.根据权利要求6所述的恶意流量识别方法，其特征在于，S4还包括

8.一种恶意流量识别系统，其特征在于，应用于权利1-7任意一项所述的一种恶意流量识别方法，包括数据收集模块、数据预处理模块、数据加工模块、恶意流量识别模块

...

【技术特征摘要】

1.一种恶意流量识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的恶意流量识别方法，其特征在于，s1的步骤包括：

3.根据权利要求2所述的恶意流量识别方法，其特征在于，所述有标签的数据包括恶意流量和正常流量。

4.根据权利要求3所述的恶意流量识别方法，其特征在于，提取数据包的负载部分转换为16进制字符串形式。

6.根...

【专利技术属性】
技术研发人员：蒋晓宁，徐镇业，黄军，黄海峰，何宇宽，刘韩琪，刘伟杰，
申请(专利权)人：浙江工商大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人