System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于改进BERT融合对比学习的流量异常检测方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>暨南大学专利>正文

基于改进BERT融合对比学习的流量异常检测方法及系统技术方案

技术编号:41302783 阅读:4 留言:0更新日期:2024-05-13 14:49
本发明专利技术公开了一种基于改进BERT融合对比学习的流量异常检测方法及系统,该方法包括下述步骤:获取流量数据并进行数据预处理;构建改进BERT模型,包括嵌入层和12个Transformer的编码器网络,对前6个Transformer的编码器和后6个Transformer的编码器网络分别进行权值共享操作;构建分类网络;基于交叉熵损失和对比损失构建总损失函数;改进BERT模型进行无监督预训练;改进BERT模型进行微调训练;通过反向传播更新模型参数,得到训练后的改进BERT模型;将待测试的流量数据输入训练后的改进BERT模型,得到流量检测结果。本发明专利技术能有效提升模型的泛化能力,同时保持稳定准确率。

【技术实现步骤摘要】

本专利技术涉及设备流量检测,具体涉及一种基于改进bert融合对比学习的流量异常检测方法及系统。


技术介绍

1、随着物联网技术的广泛应用,创造了更智能、更高效、更便捷的生活和工作环境,然而,物联网技术的发展也为网络安全带来了严峻挑战,物联网设备的计算和存储资源通常比较有限,因此难以部署如防病毒软件、防火墙等传统防御措施。物联网设备受攻击后,不仅其自身的功能会受到影响,还可能会成为攻击者的跳板,进一步攻击其他设备。因此,通过流量异常检测技术,及时发现网络中的异常行为,提升安全管理能力是当下迫切需求。在过去,基于深度学习的异常流量检测方法主要包括基于cnn的方法和基于rnn的方法,但这两类方法都有一定局限性。网络流量数据通常具有复杂的时空动态特性,基于cnn的方法难以挖掘流量数据全局时序特征,基于rnn的方法可以挖掘全局时序特征,但是无法实现并行计算。近年来,基于bert的方法能够捕捉流量数据中的长距离依赖关系,因此能取得优异的检测性能,但其需要较多的计算资源和内存,无法在资源受限的环境中使用。


技术实现思路

1、为了克服现有技术存在的缺陷与不足,本专利技术提供一种基于改进bert融合对比学习的流量异常检测方法及系统,本专利技术对bert模型进行改进,利用权值共享,解决了使用bert模型资源消耗过大的问题,有效提升模型的泛化能力,同时保持稳定准确率。

2、为了达到上述目的,本专利技术采用以下技术方案:

3、本专利技术提供一种基于改进bert融合对比学习的流量异常检测方法,包括下述步骤:

4、获取流量数据,对流量数据进行数据预处理,得到字节序列;

5、构建改进bert模型,所述改进bert模型包括嵌入层和12个transformer的编码器网络,所述字节序列输入嵌入层,将字节序列作为一段文本,每个字节作为一个词,提取词的token embedding、segment embedding、position embedding表示并相加得到对应向量,对前6个transformer的编码器和后6个transformer的编码器网络分别进行权值共享操作,改进bert模型输出每个字节含流量上下文特征信息的向量表示;

6、构建分类网络;

7、基于交叉熵损失和对比损失构建总损失函数;

8、对所述字节序列进行掩码处理后输入改进bert模型进行无监督预训练,前向计算被掩码位置的字节的概率分布,基于交叉熵损失函数计算预测的概率分布与真实标签之间的差异;

9、将改进bert模型第12层transformer的编码器网络输出向量传递给分类网络,分类网络输出与类别标签数量相同的概率分布,基于对比损失,根据改进bert模型第10层transformer的编码器网络输出向量计算对比损失;

10、通过反向传播更新模型参数,得到训练后的改进bert模型;

11、获取待测试的流量数据,将待测试的流量数据输入训练后的改进bert模型,得到流量检测结果。

12、作为优选的技术方案,所述对流量数据进行数据预处理,包括切分数据、扩充词表、数据清洗、统一数据长度;

13、在切分数据的步骤中,将原始流量数据集以网络会话作为分割条件,将数据集分割,得到数据流集合,其中,数据流是由多个数据包组成的序列,数据流中的每个数据包具有相同五元组{源ip、目的ip、源端口、目的端口、网络协议},且按时间顺序排列,数据包是由多个字节组成的序列;

14、在扩充词表的步骤中,往bert词表内添加新词;

15、在数据清洗的步骤中,删除不满足设定条件的信息;

16、所述统一数据长度包括统一数据流长度步骤和统一数据包长度步骤。

17、作为优选的技术方案,所述分类网络包括若干个全连接层和softmax层;

18、将改进bert模型输出的向量表示输入分类网络,通过若干个全连接层生成流量分类的数值分布列表;

19、所述softmax层对数值分布列表进行softmax计算,转化为流量分类的概率分布。

20、作为优选的技术方案,所述基于交叉熵损失和对比损失构建总损失函数,具体表示为:

21、loss=λ·celoss+(1-λ)·scloss

22、

23、

24、其中,celoss表示交叉熵损失,scloss表示对比损失,λ表示用于控制交叉熵损失和对比损失之间的权重,t为网络流的真实标签,y为softmax层计算得到的概率结果,σ表示sigmoid函数,x表示改进bert模型输出的隐层向量的第10层向量,s表示求衡量xi、xj之间的相似度函数,y表示xi、xj是否属于同一个类别的判定结果,τ是超参数。

25、作为优选的技术方案,在得到训练后的改进bert模型步骤之后,还包括模型评估步骤,采用准确率、召回率、精确度以及f1分数评估模型性能,具体表示为:

26、

27、

28、

29、

30、其中,accuracy表示准确率,recall表示召回率,precision表示精确度,f1_score表示f1分数,tp表示改进bert模型正确地将实际异常流量正确预测为异常流量,tn表示改进bert模型正确地将实际正常流量正确预测为正常流量,fp表示改进bert模型错误地将实际正常流量错误预测为异常流量,fn表示改进bert模型错误地将实际异常流量错误预测为正常流量。

31、本专利技术还提供一种基于改进bert融合对比学习的流量异常检测系统,包括:流量数据获取模块、数据预处理模块、改进bert模型构建模块、分类网络构建模块、总损失函数构建模块、无监督预训练模块、微调训练模块、流量检测结果输出模块;

32、所述流量数据获取模块用于获取流量数据;

33、所述数据预处理模块用于对流量数据进行数据预处理,得到字节序列;

34、所述改进bert模型构建模块用于构建改进bert模型,所述改进bert模型包括嵌入层和12个transformer的编码器网络,所述嵌入层将字节序列作为一段文本,每个字节作为一个词,提取词的token embedding、segment embedding、position embedding表示并相加得到对应向量,所述改进bert模型前6个transformer的编码器和后6个transformer的编码器网络分别进行权值共享操作,所述改进bert模型输出每个字节含流量上下文特征信息的向量表示;

35、所述分类网络构建模块用于构建分类网络;

36、所述总损失函数构建模块用于基于交叉熵损失和对比损失构建总损失函数;

37、所述无监督预训练模块用于将所述字节序列进行掩码处理后输入改进bert模型进行无监督预训练,前向计算被掩码位置的字节的概率分布,基于交叉熵损失函数计算预测的概率分布与真实标签之间本文档来自技高网...

【技术保护点】

1.一种基于改进BERT融合对比学习的流量异常检测方法,其特征在于,包括下述步骤:

2.根据权利要求1所述基于改进BERT融合对比学习的流量异常检测方法,其特征在于,所述对流量数据进行数据预处理,包括切分数据、扩充词表、数据清洗、统一数据长度;

3.根据权利要求1所述基于改进BERT融合对比学习的流量异常检测方法,其特征在于,所述分类网络包括若干个全连接层和softmax层;

4.根据权利要求1所述基于改进BERT融合对比学习的流量异常检测方法,其特征在于,所述基于交叉熵损失和对比损失构建总损失函数,具体表示为:

5.根据权利要求1所述基于改进BERT融合对比学习的流量异常检测方法,其特征在于,在得到训练后的改进BERT模型步骤之后,还包括模型评估步骤,采用准确率、召回率、精确度以及F1分数评估模型性能,具体表示为:

6.一种基于改进BERT融合对比学习的流量异常检测系统,其特征在于,包括:流量数据获取模块、数据预处理模块、改进BERT模型构建模块、分类网络构建模块、总损失函数构建模块、无监督预训练模块、微调训练模块、流量检测结果输出模块;

7.根据权利要求6所述基于改进BERT融合对比学习的流量异常检测系统,其特征在于,所述数据预处理模块用于对流量数据进行数据预处理,得到字节序列,具体包括切分数据、扩充词表、数据清洗、统一数据长度;

8.根据权利要求6所述基于改进BERT融合对比学习的流量异常检测系统,其特征在于,所述分类网络包括若干个全连接层和softmax层;

9.根据权利要求6所述基于改进BERT融合对比学习的流量异常检测系统,其特征在于,所述总损失函数构建模块用于基于交叉熵损失和对比损失构建总损失函数,总损失函数具体表示为:

10.根据权利要求6所述基于改进BERT融合对比学习的流量异常检测系统,其特征在于,还包括模型评估模块,采用准确率、召回率、精确度以及F1分数评估模型性能,具体表示为:

...

【技术特征摘要】

1.一种基于改进bert融合对比学习的流量异常检测方法,其特征在于,包括下述步骤:

2.根据权利要求1所述基于改进bert融合对比学习的流量异常检测方法,其特征在于,所述对流量数据进行数据预处理,包括切分数据、扩充词表、数据清洗、统一数据长度;

3.根据权利要求1所述基于改进bert融合对比学习的流量异常检测方法,其特征在于,所述分类网络包括若干个全连接层和softmax层;

4.根据权利要求1所述基于改进bert融合对比学习的流量异常检测方法,其特征在于,所述基于交叉熵损失和对比损失构建总损失函数,具体表示为:

5.根据权利要求1所述基于改进bert融合对比学习的流量异常检测方法,其特征在于,在得到训练后的改进bert模型步骤之后,还包括模型评估步骤,采用准确率、召回率、精确度以及f1分数评估模型性能,具体表示为:

6.一种基于改进bert融合对比学习的流量异常检测系统,其特征在于,包括:流量数...

【专利技术属性】
技术研发人员:黄斐然钟锦明杨紫宏刘志全林群雄孙全忠陈志荣
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1