一种基于改进谱聚类变分自编码器的入侵检测方法技术

技术编号：40602921 阅读：4 留言：0更新日期：2024-03-12 22:08

本发明专利技术提出了一种基于改进谱聚类变分自编码器的工控入侵检测方法。本发明专利技术涉及到工业控制系统安全领域。本发明专利技术针对现有的入侵检测方法对工控数据降维方法不够有效、系统开销大等问题，提出了基于改进谱聚类的变分自编码器入侵检测方法。为了解决谱聚类中聚类簇数难以确定、对高斯核尺度参数过于敏感、相似度度量能力不足的问题，提出了自适应的聚类簇数和非参数敏感的暹罗‑高斯相似度度量方法。为了减少入侵检测数据使用量，提出了最小平均暹罗距离的方法选择出关键传感器。最后，利用变分自编码器对降维后的工控数据进行入侵检测。测试结果表明，本发明专利技术提出的方法大幅度降低了工控数据的使用量，同时保持了较高的入侵检测精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于工业控制系统安全领域，具体涉及一种基于改进谱聚类变分自编码器的入侵检测方法，可以有效应对工业控制系统中入侵问题。

技术介绍

1、在工业互联网的迅速兴起下，工业制造领域逐渐融入智能制造和互联概念，传统的工控系统网络与公共网络如互联网深度融合，通用协议的广泛采用大幅提高了生产效率，为工业智能化和数字化转型奠定了基础。然而，随着工控网络与互联网的融合，原本封闭的工控网络逐渐向外开放，带来了入侵行为不断增加的挑战。过去几年间，针对工控系统的入侵数量呈指数级增长，特别是最近两年，全球范围内发生了多起大型工控系统入侵事件，对电力、石油、铁路等领域的工控系统造成了严重影响。这些入侵行为给工业领域带来了巨大的挑战，可能导致设备故障停机、生产数据泄露等经济损失，甚至可能对人身安全构成威胁。

2、基于上述问题，为了提高工控系统的稳定性与健壮性，针对工控系统入侵检测的相关研究成为了十分关键且迫切的需求，也成为了目前工业界和学术界的热点课题。目前，大量研究者致力于工控系统入侵行为检测的研究，探索涵盖统计学习、规则匹配、传统机器学习以及深度学习等多元化技术的方法。这些方法各自具有优势和局限性：基于统计特征或规则匹配的方法在检测速度上有优势但检测精度可能不高；基于机器学习的方法能提取复杂特征但面对大规模高维数据精度可能下降；基于深度学习的方法有着最优越的检测性能，但如果将深度学习网络结构设计得过于复杂，则会造成大量计算资源的消耗以及模型训练速度的下降，无法满足在资源有限的工控设备上实际应用的需求。

3、综上，当前入侵检

技术实现思路

1、工控入侵检测系统中需要处理大规模高维工控数据，然而普通的工控设备由于资源限制无法处理大规模数据，这使得很多基于深度学习的检测方法无法应用于实际场景。因此，需研究工控数据特征降维和特征选择方法，在减少数据维度的同时保留尽可能多的有效信息。

2、本专利技术针对工控数据维数高、规模大、存在大量噪声和冗余信息的问题，提出一种基于改进谱聚类的变分自编码器入侵检测方法。本专利技术提出了基于改进谱聚类的数据降维算法，通过自适应聚类簇数和非参数敏感的暹罗-高斯相似度度量对谱聚类算法进行了改进，并提出基于最小平均暹罗距离的关键传感器选择算法，对工控数据进一步降维。最后，本专利技术提出轻量级的变分自编码器(vae)对降维后的工控数据进行检测，实现入侵检测任务。

3、本专利技术提出的一种基于改进谱聚类的变分自编码器入侵检测方法，包括以下步骤：去除概念漂移数据、改进谱聚类方法对数据进行降维、选择关键传感器、变分自编码器进行入侵检测。

4、去除概念漂移数据的步骤如下：由于工控数据存在概念漂移问题，并且现有的研究对该问题的解决不够充分，本专利技术提出用群体稳定性检验(psi)来解决该问题。在真实工控环境中，测试集通常是未知的，因此本专利技术提出用psi计算训练集和验证集之间的分布差异，将验证集看作是测试集的近似。最后，将psi高于阈值的数据直接从数据集中移除。

5、改进谱聚类的方法步骤如下：

6、1.由于原始谱聚类算法中，聚类簇数k需要提前指定，这会导致人工运维成本增加，因此本专利技术提出采用自适应的聚类簇数来解决这一问题。在原始谱聚类算法中，使用邻接矩阵和度矩阵来构造拉普拉斯矩阵，并对拉普拉斯矩阵进行特征值分解。根据谱聚类算法的基本思想，矩阵中的特征向量可以被看作是原始数据的新表征方式，而矩阵中的特征值则表示了特征向量的重要程度。其中，特征值的数量和特征向量的数量一样多，且特征值和特征向量是成对出现的。如果一个图g可切分为k个完全没有交集的连通子集，那么根据图论的知识，它的拉普拉斯矩阵的前k个特征值将等于0，而第k+1个特征值大于0，因为拉普拉斯矩阵的特征值为0的个数和图的连通块个数是一致的。由于工控数据维数较高、数据关系较复杂，因此在工控环境中很难将数据构成的图切分成完全没有交集的子集，即无法得到多个为0的特征值。因此，提出下述方法取得近似最优解：根据矩阵扰动理论中的davis-kahan原理，当第k+1个特征值与第k个特征差值越大，根据前k个特征向量形成的子空间就越稳定，这里的特征差值被称作本征间隙,当本征间隙越大，表明该处特征值是越不重要的特征，越无法对聚类效果产生正面影响，反之则亦然。一般来说，本征间隙的最大值往往出现在靠后的位置，这会令聚类簇数过多，降维效果不够好。本专利技术基于启发式本征间隙搜索方法提出改进，考虑到本征间隙的变化幅度比原本的本征间隙更能够反映特征值的变化情况，引入绝对中值偏差(median absolute deviation,mad)，mad是数据集中位数与数据集所有数据点的绝对差值的中位数，它是一种用于测量数据集分散性的统计量，mad的值越大，表示数据点的分散程度越大。基于mad，提出当某一处的本征间隙大于r倍本征间隙向量的mad，认为该点在特征值上的变化过大，是对聚类效果没有帮助的特征点，并设该点为截断点，令k值等于该点的索引值.通过上述方法，能够反映本征间隙的突变情况，基于经验准则，将r设置为3时在各个任务中都能够具有较好的效果。因此本专利技术提出一种自适应的聚类簇数来改进谱聚类算法需要手动指定聚类簇数的问题。

7、2.针对谱聚类高斯核函数相似度度量对于尺度参数σ过于敏感、且度量能力不足的问题，提出非参数敏感的暹罗-高斯距离的解决方案。暹罗距离是指利用简单暹罗网络对样本之间的距离进行计算，从原始数据中构建样本对作为简单暹罗网络的输入，经过权重共享的全连接层和激活函数层，得到两样本的低维特征向量，并计算它们之间的距离。提出此度量的可行性在于，低维的特征向量包含原始数据的隐含信息，而这类隐含信息是一般的统计学习无法计算出来的，通过该简单暹罗网络能够让原本相似的样本更为相似，反之亦然。因此本专利技术提出的非参数敏感的暹罗-高斯相似度度量，更为全面地反映了数据之间的距离，并且对于高斯核函数的尺度参数σ值不敏感，比起原始的高斯核函数，更加适用于无标签工控高维数据的降维任务。

8、关键传感器的选择：改进谱聚类算法处理后，得到若干个工控传感器聚类簇，可以认为各个簇内的传感器都拥有相似的信息。将每一簇视为一个强耦合的传感器组，从其中选择一个关键传感器，该传感器便可以被认为是组内所有传感器的代表，只保留该传感器便能反映该簇内所有传感器的状态变化情况，基于此方法，对于k个簇，可以选择共k个关键传感器用入侵检测，大大降低了入侵检测系统需要处理的数据量，降低了系统的资源开销。

9、变分自编码器入侵检测步骤如下：入侵检测采用朴素vae网络，由两个全连接层编码层和两个全连接解码层构成，编码层第一个全连接层用于放大假设空间，第二个全连接层用于进行潜在向量均值和标准差的采样。解码层的第一个全连接层用于将潜在变量恢复到编码器的第一个全连接层的维度，第二个全连接层用于将数据恢复成输入的时间序列维度。将输入数据本文档来自技高网...

【技术保护点】

1.一种基于改进谱聚类变分自编码器的入侵检测方法，其特征在于，所述方法具体分为以下步骤：

2.根据权利要求1所述方法，在所述步骤1中，用群体稳定性算法PSI计算训练集和验证集之间的分布差异，首先选定训练集的样本作为基准样本来作为预期分布Excepted，然后对预期分布进行等距分箱，得到每箱样本占比，即该箱样本数除以总样本数，按预期分布分箱数对实际分布Actual进行分箱，计算每箱样本占比，这里选择验证集的分布作为实际分布，计算每箱的INDEX，并累计每箱的INDEX，得到最后的PSI，公式为其中对于第i个分箱，Ai为实际样本占比，Ei为预期样本占比，最后将PSI值高于阈值的样本从数据集中移除。

3.根据权利要求1所述方法，在所述步骤2中，本专利技术通过自适应聚类簇数改进谱聚类中对参数敏感的缺点，首先根据矩阵扰动理论中的Davis-Kahan原理，当第k+1个特征值与第k个特征差值越大，根据前k个特征向量形成的子空间就越稳定，这里的特征差值被称作本征间隙eigengap，定义如下eigengap＝{|λ2-λ1|,|λ3-λ2|…|λL-λL-1|}＝{Δλ

4.根据权利要求1中步骤2所述改进高斯核函数的方法来度量聚类间的相似性，具体过程如下：首先将Self-Tuning算法，用于解决了谱聚类对于σ值过于敏感的问题，在Self-Tuning中，原始的高斯核函数被修改成其中，δi＝xi-xT，定义为第i个样本到与其最邻近的第T个样本的欧式距离；在此基础上使用暹罗网络对样本之间的距离进行计算如图1所示，从原始数据中构建样本对作为简单暹罗网络的输入，经过权重共享的全连接层和激活函数层，得到两样本的低维特征向量和并计算它们的距离最后使用暹罗距离代替高斯核函数中的欧式距离，即

5.根据权利要求1中的步骤3，通过基于最小平均暹罗距离的关键传感器选择方法，如下式：其中N是簇内样本的个数，1≤i≤N，计算得到的传感器拥有与其他所有传感器之间的最小距离，将其作为关键传感器能取得更鲁棒的结果。

6.根据权利要求1中的步骤4，使用变分自编码器作为入侵检测模型，变分自编码器由两个全连接层编码层和两个全连接解码层构成，编码层第一个全连接层用于将输入膨胀到intermediate_dim维度，放大假设空间，第二个全连接层用于进行潜在向量均值和标准差的采样；解码层的第一个全连接层用于将潜在变量恢复到intermediate_dim维度，第二个全连接层用于将数据恢复成输入的时间序列维度，将输入数据归一化后，利用滑动窗口生成可用于模型训练的时间窗口样本，如图，对于N维的原始训练数据dimi表示第i个维度；以大小为w_size的滑动窗口，对原始数据在时间维度上按步长1逐步滑动，得到若干个大小为N×w_size的多维时间窗，作为输入模型的数据，对于输入模型的任一时间窗样本tNi，有为重构时间窗，为重构时间窗的第j个数据点，设滑动窗口大小w_size设置为4，训练数据时间窗口滑动步长shift设置为1，测试数据shift设置为w_size，最后，用基于重构误差MSE的异常得分来判定入侵行为。

...

【技术特征摘要】

1.一种基于改进谱聚类变分自编码器的入侵检测方法，其特征在于，所述方法具体分为以下步骤：

2.根据权利要求1所述方法，在所述步骤1中，用群体稳定性算法psi计算训练集和验证集之间的分布差异，首先选定训练集的样本作为基准样本来作为预期分布excepted，然后对预期分布进行等距分箱，得到每箱样本占比，即该箱样本数除以总样本数，按预期分布分箱数对实际分布actual进行分箱，计算每箱样本占比，这里选择验证集的分布作为实际分布，计算每箱的index，并累计每箱的index，得到最后的psi，公式为其中对于第i个分箱，ai为实际样本占比，ei为预期样本占比，最后将psi值高于阈值的样本从数据集中移除。

3.根据权利要求1所述方法，在所述步骤2中，本发明通过自适应聚类簇数改进谱聚类中对参数敏感的缺点，首先根据矩阵扰动理论中的davis-kahan原理，当第k+1个特征值与第k个特征差值越大，根据前k个特征向量形成的子空间就越稳定，这里的特征差值被称作本征间隙eigengap，定义如下eigengap＝{|λ2-λ1|,|λ3-λ2|…|λl-λl-1|}＝{δλ1,δλ2,…,δλl-1}，然后根据数据集中位数与数据集所有数据点的绝对差值的中位数mad来测量数据点的分散程度mad＝median(|xi-median(x)|)，xi表示数据集中第i个数据点的值，median(x)表示数据集的中位数，当某一处的本征间隙大于r倍本征间隙向量eigengap的mad，认为该点在特征值上的变化过大，是对聚类效果没有帮助的特征点，并设该点为截断点，令k值等于该点的索引值，基于经验准则，将r设置为3时在各个任务中都能够具有较好的效果。

4.根据权利要求1中步骤2所述改进高斯核函数的方法来度量聚类间的相似性，具体过程如下：首...

【专利技术属性】
技术研发人员：陈良银，张婷，胡斐，向宣奕，金典，任毅，王盛圩，周贤义，陈是澎，陈彦如，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人