一种基于高斯混合模型的通信数据异常检测方法技术

技术编号:35861864 阅读:34 留言:0更新日期:2022-12-07 10:51
本申请提供了一种基于高斯混合模型的通信数据异常检测方法,解决了现有的基于统计方法的异常检测预测效果不理想、计算复杂度高的技术问题。其包括以下步骤:输入数据集:输入网络通信行为数据集,数据集为若干条通信在各个阶段的时间成本集合;确定隐变量:每个阶段的数据均来自高斯混合模型,设定隐变量为链路编号Z,且取值范围为[1,K];构成每个高斯混合模型的高斯分布的数量等于链路条数K;参数求解:通过EM算法,进行迭代求解,对该隐变量确定的高斯混合模型进行参数求解;异常检测:新通信行为出现时,通过计算该通信行为的数据点来自高斯混合模型的概率,来预测是否存在异常攻击。本申请广泛应用于通信数据异常检测技术领域。域。域。

【技术实现步骤摘要】
一种基于高斯混合模型的通信数据异常检测方法


[0001]本申请涉及通信数据异常检测
,更具体地说,是涉及一种基于高斯混合模型的通信数据异常检测方法。

技术介绍

[0002]异常检测是指在数据中寻找不符合预期行为的数据的问题。数十年来,异常检测一直是一个活跃的研究领域,早期探索可以追溯到1960年代。由于在广泛领域的需求和应用不断增加,例如风险管理,合规性,安全性,金融监视,健康和医疗风险以及AI安全性。大多数异常检测技术可以分类为基于分类的,基于最近邻的,基于聚类的,基于统计技术的和基于深度学习的。
[0003]分类方法从训练数据中学习得到分类器,然后使用分类器将测试样本分类。基于分类的异常检测技术以类似的两阶段方式运行,培训阶段使用标记的训练数据学习分类器,测试阶段使用分类器将测试样本分类为正常或异常。基于可用于训练阶段的标签,基于分类的异常检测技术可以分为两个主要类别:多类和Oneclass异常检测技术。多类的异常检测技术假设训练数据包含属于多个正常类的标记样本这样的异常检测技术教分类器来区分每个正常类和其他类别。如果任何分类器都不将测试样本分类为正常,则将其视为异常。基于单级分类的异常检测技术假设所有训练样本都只有一个类标签。这样的技术使用一级分类算法在正常样本周围学习一个边界。构建分类器的各种异常检测技术包括基于神经网络的异常检测技术,基于贝叶斯网络的异常检测技术,基于支持向量机的异常检测技术,基于规则的异常检测技术。基于分类的技术依赖于标签的准确度。
[0004]基于最近邻的异常检测技术需要在两个数据样本之间定义的距离或相似性度量。可以以不同的方式计算两个数据样本之间的距离或相似性,可以广泛分为两类:使用数据样本与其K个最近的样本作为异常得分的技术和计算每个数据样本的相对密度以计算其异常得分的技术。最近基于邻居的技术的关键优势是它们在本质上是无监督的,并且对数据的生成分布没有任何假设。但是测试阶段的计算复杂性是一个重大的挑战,因为它涉及计算每个测试样本的距离以及属于测试数据本身或训练数据的所有样本来计算最近的邻居。同时,当数据复杂时,定义样本之间的距离度量可能具有挑战性。
[0005]基于聚类的异常检测技术主要基于以下三个假设:(1)正常数据样本属于数据中的类,而异常样本不属于任何类;(2)正常的数据样本位于其最接近的类的质心附近,而异常远离其最接近的类的质心;(3)正常的数据样本属于大型和密集的簇,而异常属于小或稀疏的簇。几种基于聚类的技术需要两个样本点之间的距离计算,因此,在这方面,它们类似于最近的基于邻居的技术,距离度量的选择对于技术的性能至关重要。但是,这两种技术之间的关键区别在于,基于聚类的技术在类中对每个样本进行评估,而基于最近邻的技术在邻域中对每个样本点进行评估。该方法也是无监督的,但其性能高度取决于聚类算法在该样本集结构中的有效性。且只有在异常中不形成重要的簇的情况下,几种基于聚类的技术才有效。该技术中计算复杂度也常常给解决问题带来困难。
[0006]基于统计方法的异常检测技术基于以下假设:正常的数据样本产生于随机模型的高概率区域中,而异常样本产生于随机模型的低概率区域中。该方法又可分为基于信号处理技术的,基于主成分分析的和基于混合模型的。基于信号处理的技术中的异常行为是通过统计数据中出现的突然变化来确定的,利用基于一般似然比(GLR)的假设检验来检测变化,以在0到1之间提供异常程度。基于主成分分析的方法对原始数据矩阵进行奇异值分解并根据需要设定阈值保留数据主要特征,该方法没有任何统计分布的假设,能够降低数据的维度而不会丢失任何重要信息,并能降低计算复杂度。混合模型方法中,以基于高斯混合模型为例,这样的技术假设数据是从高斯分布生成的。使用最大似然估计(MLE)估算参数,数据样本与估计平均值的距离是该样本的异常得分,将阈值应用于异常得分以确定异常。此类别中的不同技术以不同方式计算到平均值和阈值的距离。一种简单的离群检测技术,是声明所有与分布平均μ距离超过3σ距离的数据样本,其中σ是分布的标准偏差,μ
±
3σ区域包含99.7%的数据样本。然而,该类方法又高度依赖于模型假设,即当模型假设符合数据真实分布时可以得到较高的准确率,但当模型假设不符合数据真实分布时,模型的预测效果将会较差。需要对数据集来源进行一定的分析,构建出符合其规律的模型。此外,该方法计算复杂度较高,在小样本数据集中较为适用,但不适合异常数据过多的场景,过大的样本集将给模型参数求解带来困难。

技术实现思路

[0007]为解决上述技术问题,本申请采用的技术方案是:提供一种基于高斯混合模型的通信数据异常检测方法,其包括以下步骤:
[0008]输入数据集:输入网络通信行为数据集,数据集为若干条通信在各个阶段的时间成本集合;
[0009]确定隐变量:每个阶段的数据均来自高斯混合模型,设定隐变量为链路编号Z,且取值范围为[1,K];构成每个高斯混合模型的高斯分布的数量等于链路条数K;
[0010]参数求解:通过EM算法,进行迭代求解,对该隐变量确定的高斯混合模型进行参数求解;
[0011]异常检测:新通信行为出现时,通过计算该通信行为的数据点来自高斯混合模型的概率,来预测是否存在异常攻击。
[0012]优选地,输入数据集中,数据集还需要经过预处理,将数据集划分为训练集、测试集,训练集包含未受到攻击的数据,测试数据集包含未受到攻击的数据、受到攻击的数据。
[0013]优选地,参数求解的公式如下:
[0014][0015]其中,Y为观测变量,Z为隐变量,取值范围设置为[1,K],K为链路条数,下标k代表第k个高斯分布,下标i代表第i轮迭代,则Z
ik
为该数据点使用第Z条链路进行通信;μ,σ,α分别为高斯分布的均值、标准差和权重系数;
[0016]将训练集代入其中的Y,进行迭代求解;得到各个高斯混合模型的均值矩阵μ、标准
差σ和权重系数α。
[0017]优选地,异常检测中,设定阈值,若概率小于阈值,认为该数据点来自高斯混合模型的概率太小,判定通信行为存在异常,可能受到了攻击;否则,判定通信行为正常,不会受到攻击。
[0018]优选地,K值根据经验值设定;或,为K设置1~100的循环,使用测试集并记录不同K值下的预测准确率,并选择准确率最高的K值。
[0019]优选地,预处理还包括,将数据集中相同加密算法的不同阶段数据列进行合并。
[0020]优选地,异常检测中,概率计算具体是,将新数据点在高斯混合模型中每一分布的概率密度函数值归一化后,取最大值作为概率。
[0021]本专利技术在高斯分布的基础上,又寻找到最贴近的真实数据集分布的链路条数K取值,得到最贴近数据真实分布的模型,从而取得较高的预测准确率。实验结果表明,与基于分类、聚类的异常检测方法相比,本方法具有更高的预测准确率;与基于深度学习异常检测法相比,本方法使用更少的训练资源,在使用高斯混合模型的异常检测基础上,没有使用平均值和标准本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于高斯混合模型的通信数据异常检测方法,其特征在于,包括以下步骤:输入数据集:输入网络通信行为数据集,数据集为若干条通信在各个阶段的时间成本集合;确定隐变量:每个阶段的数据均来自高斯混合模型,设定隐变量为链路编号Z,且取值范围为[1,K];构成每个高斯混合模型的高斯分布的数量等于链路条数K;参数求解:通过EM算法,进行迭代求解,对该隐变量确定的高斯混合模型进行参数求解;异常检测:新通信行为出现时,通过计算该通信行为的数据点来自高斯混合模型的概率,来预测是否存在异常攻击。2.如权利要求1所述的基于高斯混合模型的通信数据异常检测方法,其特征在于:所述输入数据集中,所述数据集还需要经过预处理,将数据集划分为训练集、测试集,所述训练集包含未受到攻击的数据,所述测试数据集包含未受到攻击的数据、受到攻击的数据。3.如权利要求2所述的基于高斯混合模型的通信数据异常检测方法,其特征在于:所述参数求解的公式如下:参数求解的公式如下:参数求解的公式如下:其中,Y为观测变量,Z为隐变量,取值范围设置为[1,K],K为链路条数,下标k代表第k个高斯分布,下标i代表第i轮迭代,则Z
ik

【专利技术属性】
技术研发人员:刘杨朱静宇孙云霄魏玉良王孝朋王佰玲
申请(专利权)人:威海天之卫网络空间安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1