本发明专利技术提出一种基于计算马氏距离的分布外网络流量数据检测方法,属于数据检测技术领域。包括以下步骤:S1.原始网络流量的预处理和分类模型的预训练;S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别;S3.计算新样本x与最相似类别实例的马氏距离;S4.设定分布外数据阈值,分布外数据阈值采用实验的方式确定,对原网络流量数据加入小量的扰动数据,计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。判断是否属于分布外数据。本发明专利技术提高了分类器分类结果的置信度。解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题。技术问题。技术问题。
【技术实现步骤摘要】
一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质
[0001]本申请涉及数据检测方法,尤其涉及一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质,属于数据检测
技术介绍
[0002]随着网络私有协议的增多,网络流量的种类也越来越多同时其相似度也逐渐提高。现如今的许多网络安全问题都需要落脚于网络流量的识别和检测,传统识别和检测技术大都基于机器学习算法或深度学习算法训练分类模型。但有研究表明深度学习模型的分类结果在测试数据中含有分布外数据的情况下置信度很低,在许多网络安全问题中分类错误将导致严重的后果。
[0003]基于机器学习或深度学习算法的分类模型,在分类网络流量任务中,得到的分类结果并不是可信的,原因有两个,其一,当训练模型被投入到实际应用中,不能保证测试数据中的数据全部为分布内数据;其二,若出现分布外数据与分布内数据较为相似的情况时,大部分深度学习模型会将分布外数据以高置信度划分为分布内数据类型。对于网络安全问题来说,分类错误将会导致更加严重的问题。
[0004]为解决上述问题,有研究人员对此提出以下方案解决:
[0005]基于计算样本间距离的检测方法,通过定义不同样本间距离判断两个样本是否属于同一类别进行检测。
[0006]上述技术仍存在以下问题:
[0007]对于基于计算相似度的检测方法,本质上是通过提取两个类别数据的特征从而计算二者之间的距离来表征相似度。但由于如何提取特征以及提取到的特征会有很大的随意性,并没有一个标准,对于不同类型的数据有大的差距,因此计算出的距离并不具有唯一性。同时,不同特征之间的度量尺度也不相同,计算距离或相似度是一件主观性很强且困难的事情。此外,判断是否为分布外数据的尺度也不容易设置,设置过大或过小都容易造成很高的误报率。
技术实现思路
[0008]在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0009]鉴于此,为解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题,本专利技术提供一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质。目前大部分检测方法中用于表征相似度的距离计算采用欧氏距离计算,即欧几里得度量。欧氏距离可以表示多维空间中两点时间的距离,虽然计
算简单,但是欧氏距离易受到不同量纲以及数据分布的影响,因此欧式距离并不适用于高维数据。因此为了通过度量样本之间距离检测分布外数据,本专利技术将使用马氏距离作为计算样本间距离的方法。
[0010]方案一、一种基于计算马氏距离的分布外网络流量数据检测方法,包括以下步骤:
[0011]S1.原始网络流量的预处理和分类模型的预训练;
[0012]S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别;
[0013]S3.计算新样本x与最相似类别实例的马氏距离;
[0014]S4.设定分布外数据阈值,判断是否属于分布外数据。
[0015]优选的,原始网络流量的预处理方法是:
[0016]S11.对网络流量数据进行特征提取;特征包括IP地址、端口号、网络协议、时间戳,IP地址包括源IP地址和目的IP地址;
[0017]S12.对IP特征进行分向,包括正向和反向;源IP地址到目的IP地址为正向,目的IP地址到源IP地址反向;
[0018]S13.为每个数据流构建Flow
‑
ID标志,Flow
‑
ID标志包括源IP地址、目的IP地址和协议号。
[0019]优选的,分类模型的预训练方法是:
[0020]S14.将网络流量数据输入深度学习模型卷积神经网络CNN中进行前向传播,经感受局部特征、权值共享以及池化层;
[0021]S15.进行后向传播包括计算实际输出与相应的理想输出的差,即计算损失函数和按照极小化误差的方法更新权值矩阵,计算损失函数的方法是:
[0022][0023]优选的,获取新样本X与已知类别中最相似类别方法是:
[0024]S21.假设现有已知类别A和B,首先表示出类别A和B概率分布P(A)、P(B),其次计算新样本x分别在类别A和B的概率分布:
[0025][0026][0027]其中,X表示新样本,n表示样本特征个数,μ表示均值,C表示协方差矩阵;
[0028]S22.计算新样本x在两个类别概率分布下的概率:
[0029]P(A1x)=P(x|A)
×
(1
‑
P(A))
[0030]P(B|x)=P(x|B)
×
(1
‑
P(B))
[0031]S23.比较P(A|x)和P(B|x)大小,概率大的类别为新样本x最为相似类别。
[0032]优选的,计算新样本x与最相似类别实例的马氏距离方法是:
[0033][0034]其中,μ=(μ1,μ2,μ3…
,μ
p
)
T
表示均值,μ=(μ1,μ2,μ3…
,μ
p
)
T
,S表示协方差矩阵为S
的多变量x=(x1,x2,x3…
,x
p
)
T
。
[0035]优选的,设定分布外数据阈值的方法是,采用实验的方式确定,对原网络流量数据加入小量的扰动数据,计算原网络流量数据与处理后的数据的马氏距离作为阈值的值。
[0036]优选的,判断是否属于分布外数据方法是:将新样本x与最相似类别实例的马氏距离与分布外数据阈值进行比较,若新样本x与最相似类别实例的马氏距离大于阈值,则判断该新样本x属于分布外数据,若若新样本x与最相似类别实例的马氏距离小于阈值,则判断该新样本x属于分布内数据。
[0037]方案二、电子设备,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现方案一所述的一种基于计算马氏距离的分布外网络流量数据检测方法的步骤。
[0038]方案三、计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案一所述的一种基于计算马氏距离的分布外网络流量数据检测方法。
[0039]本专利技术的有益效果如下:本专利技术使用马氏距离作为计算样本间距离的方法,首先对分类模型进行预训练,得到一个预训练分类器,再使用高斯判别方法找出最为相似的类别,计算马氏距离并与阈值进行比较,若计算出的距离大于阈值则判断为分布外数据。提高了分类器分类结果的置信度。解决现有技术中存在基于计算相似度的检测方法的计算距离不具有唯一性导致的置信度低的技术问题。
附图说明
[本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,包括以下步骤:S1.原始网络流量的预处理和分类模型的预训练;S2.在预训练分类模型的基础上,获取新样本X与已知类别中最相似类别;S3.计算新样本x与最相似类别实例的马氏距离;S4.设定分布外数据阈值,判断是否属于分布外数据。2.根据权利要求1所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,原始网络流量的预处理方法是:S11.对网络流量数据进行特征提取;特征包括IP地址、端口号、网络协议、时间戳,IP地址包括源IP地址和目的IP地址;S12.对IP特征进行分向,包括正向和反向;源IP地址到目的IP地址为正向,目的IP地址到源IP地址反向;S13.为每个数据流构建Flow
‑
ID标志,Flow
‑
ID标志包括源IP地址、目的IP地址和协议号。3.根据权利要求2所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,分类模型的预训练方法是:S14.将网络流量数据输入深度学习模型卷积神经网络CNN中进行前向传播,经感受局部特征、权值共享以及池化层;S15.进行后向传播包括计算实际输出与相应的理想输出的差,即计算损失函数和按照极小化误差的方法更新权值矩阵,计算损失函数的方法是:4.根据权利要求3所述的一种基于计算马氏距离的分布外网络流量数据检测方法,其特征在于,获取新样本X与已知类别中最相似类别方法是:S21.假设现有已知类别A和B,首先表示出类别A和B概率分布P(A)、P(B),其次计算新样本x分别在类别A和B的概率分布:率分布:其中,X表示新样本,n表示样本特征个数,μ表示均值,C表示协方差矩阵;S22.计算新样本x在两个类别概率分布下的概率:P(A|x)=P(x|A)
×
(1
...
【专利技术属性】
技术研发人员:刘立坤,余翔湛,史建焘,车佳臻,张晓慧,葛蒙蒙,苗钧重,刘凡,李精卫,韦贤葵,石开宇,郭明昊,冯帅,赵跃,宋赟祖,王久金,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。