【技术实现步骤摘要】
一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质
[0001]本申请涉及数据检测方法,尤其涉及一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质,属于数据检测
技术介绍
[0002]随着网络私有协议的增多,网络流量的种类也越来越多同时其相似度也逐渐提高。现如今的许多网络安全问题都需要落脚于网络流量的识别和检测,传统识别和检测技术大都基于机器学习算法或深度学习算法训练分类模型。但有研究表明深度学习模型的分类结果在测试数据中含有分布外数据的情况下置信度很低,在许多网络安全问题中分类错误将导致严重的后果。
[0003]基于机器学习或深度学习算法的分类模型,在分类网络流量任务中,得到的分类结果并不是可信的,原因有两个,其一,当训练模型被投入到实际应用中,不能保证测试数据中的数据全部为分布内数据;其二,若出现分布外数据与分布内数据较为相似的情况时,大部分深度学习模型会将分布外数据以高置信度划分为分布内数据类型。对于网络安全问题来说,分类错误将会导致更加严重的问题。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,包括以下步骤:S1.原始网络流量的预处理和分类模型的预训练;S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别;S3.计算新样本x与最相似类别实例的马氏距离;S4.设定分布外数据阈值,判断是否属于分布外数据。2.根据权利要求1所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,原始网络流量的预处理方法是:S11.对网络流量数据进行特征提取;特征包括IP地址、端口号、网络协议、时间戳,IP地址包括源IP地址和目的IP地址;S12.对IP特征进行分向,包括正向和反向;源IP地址到目的IP地址为正向,目的IP地址到源IP地址反向;S13.为每个数据流构建Flow
‑
ID标志,Flow
‑
ID标志包括源IP地址、目的IP地址和协议号。3.根据权利要求2所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,分类模型的预训练方法是:S14.将网络流量数据输入深度学习模型卷积神经网络CNN中进行前向传播,经感受局部特征、权值共享以及池化层;S15.进行后向传播包括计算实际输出与相应的理想输出的差,即计算损失函数和按照极小化误差的方法更新权值矩阵,计算损失函数的方法是:4.根据权利要求3所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,获取新样本X与已知类别中最相似类别方法是:S21.假设现有已知类别A和B,首先表示出类别A和B概率分布P(A)、P(B),其次计算新样本x分别在类别A和B的概率分布:率分布:其中,X表示新样本,n表示样本特征个数,μ表示均值,C表示协方差矩阵;S22.计算新样本x在两个类别概率分布下的概率:P(A|x)=P(x|A)
×
(1
...
【专利技术属性】
技术研发人员:刘立坤,余翔湛,史建焘,车佳臻,张晓慧,葛蒙蒙,苗钧重,刘凡,李精卫,韦贤葵,石开宇,郭明昊,冯帅,赵跃,宋赟祖,王久金,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。