一种基于预训练模型的流谱映射方法及装置制造方法及图纸

技术编号:37439216 阅读:26 留言:0更新日期:2023-05-06 09:11
本发明专利技术提供一种基于预训练模型的流谱映射方法及装置,所述方法的步骤包括:获取相同五元组的多个数据包,基于Bi

【技术实现步骤摘要】
一种基于预训练模型的流谱映射方法及装置


[0001]本专利技术涉及流数据分析
,尤其涉及一种基于预训练模型的流谱映射方法及装置。

技术介绍

[0002]日常生活中数字化程度的显著提高,数据通过网络传输已成为常态,为了保护信息的隐私安全性,VPN、TSL1.3,Tor等流量加密/匿名技术被先后提出,但是这些方法在保护用户隐私的同时,黑客组织也同样利用这些方法来掩盖恶意行为,给网路监管带来了极大的挑战。网络流是网络信息的传输载体,所有网络行为都可以映射成网络流,因此需要针对网络流进行分析,找出基于网络流的网络行为识别方法,及时发现恶意流量与恶意行为,为网络空间管理提供有效支撑,确保网络安全。
[0003]针对流数据的行为分析,当前主要分为基于流数据中的明文负载、或者密文负载两种,其中针对明文负载的分析难以处理加密流量的情况;而基于密文负载的分析,则多采用基于统计特征的机器学习方案,或者基于端到端的深度学习方案。
[0004]现有技术在处理流数据分析的任务中,通常采用端到端的深度学习方案,而端到端的深度学习方案通常需要采用深度学本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型的流谱映射方法,其特征在于,所述方法的步骤包括:获取相同五元组的多个数据包,基于Bi

gram模型将每个数据包的初始字符串转化为包括多个令牌的令牌字符串,基于预设的映射字典将每个令牌映射为对应的字符,得到映射字符串;将所述映射字符串输入到预训练模型中,对映射字符串中每个字符进行升维表达,得到流谱映射矩阵;将每个数据包对应的所述流谱映射矩阵同时输入到预设的多个分类模型中,获取分类结果;将每个分类模型与预训练模型组合为拼接模型,通过每个分类模型对应的分类结果计算损失函数,通过反向传播算法更新每个所述拼接模型的模型参数,得到完成训练的预训练模型。2.根据权利要求1所述的基于预训练模型的流谱映射方法,其特征在于,在基于Bi

gram模型将每个数据包的初始字符串转化为包括多个令牌的令牌字符串的步骤之前还包括,将每个数据包的对应的二级制数据转化为十六进制数据,将得到的十六进制数据作为初始字符串。3.根据权利要求1所述的基于预训练模型的流谱映射方法,其特征在于,在将每个数据包对应的所述流谱映射矩阵同时输入到预设的多个分类模型中的步骤中,所述多个分类模型包括隐状态预测模型,所述隐状态预测模型基于输入的流谱映射矩阵输出预测的隐状态。4.根据权利要求3所述的基于预训练模型的流谱映射方法,其特征在于,在将每个分类模型与预训练模型组合为拼接模型,通过每个分类模型对应的分类结果计算损失函数的步骤中,若所述拼接模型由预训练模型与隐状态预测模型组成,则基于隐状态预测模型输出的预测的隐状态和数据包的隐状态标签计算损失函数。5.根据权利要求4所述的基于预训练模型的流谱映射方法,其特征在于,在基于隐状态预测模型输出的预测的隐状态和数据包的隐状态标签计算损失函数的步骤之前的步骤还包括:获取所述多个数据包中每个数据包的大小和每个数据包与前一个数据包的间隔时间;计算所述间隔时间的对数;基于每个所述数据包的大小和所述间隔时间的对数,构建对于每个数据包的二维坐标;将所述多个数据包对应的二...

【专利技术属性】
技术研发人员:王小娟路子逵苏千叶何明枢俞赛赛郭世泽李海鹰黄元铭阳柳
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1