【技术实现步骤摘要】
一种面向概念漂移的可适应可解释的工控系统异常检测方法
[0001]本专利技术涉及工控系统无监督异常检测概念漂移解释和适应领域,尤其涉及一种面向概念漂移的可适应可解释的工控系统异常检测方法。
技术介绍
[0002]异常检测(Anomaly Detection),也称为离群点检测(Outlier Detection),是指在数据中寻找与其他数据明显不同或不符合预期行为的数据点。异常检测可以用于数据分析、工业控制、网络安全、金融欺诈检测等领域,是数据分析和机器学习中的一项重要任务。异常检测在工控领域中扮演着重要的角色。在工控领域中,存在着大量现场设备状态数据流,这些数据流可以用于检测异常行为。异常数据可能是故障或攻击的迹象,及时地识别和处理异常数据可以保证工控系统的稳定运行和安全性。近年来,基于深度学习的异常检测算法在检测的准确率和降低误报率方面取得了长足的进步,可以检测工控系统受到的攻击和潜在威胁,以便及时采取必要的措施。
[0003]机器学习算法取得巨大的成功背后是一个中心假设:训练和测试数据是从相同的基础分布中独立抽取的。在工控安全领域中,这个假设往往不成立,因为随着互联网的快速发展,以前相对封闭和独立的工业控制系统正逐渐变得开放化和互联化,会随时涌入新的攻击方式,新的绕过方式,训练集的数据分布并不等同于真实的数据分布,机器学习模型学到的决策边界并不一定适用于真实的外部环境,因此机器学习应用在工控安全领域中最大的障碍就是概念漂移问题。
[0004]由于异常检测方法通过零正例学习来得到预训练模型,即可以 ...
【技术保护点】
【技术特征摘要】
1.一种面向概念漂移的可适应可解释的工控系统异常检测方法,其特征在于,包括:步骤1:获取不同时期的工控数据样本,包括历史数据和新数据,利用归一化处理之后的历史数据对基于深度学习的异常检测模型进行训练,保存异常检测模型的训练参数;步骤2:校准异常检测模型的输出结果,强制异常检测模型输出有意义的概率值,该概率值表示样本属于正常类别的概率;步骤3:漂移检测,通过假设检验对新旧样本分布进行统计比较,用KL散度来衡量两个概率分布之间的差异;步骤4:漂移解释,利用搜索优化算法寻找发生概念漂移的新样本和过时的旧样本,利用SHAP对发生概念漂移的新样本进行解释,找到发生概念漂移的特征维度;步骤5:将发生概念漂移的新样本和旧样本中没有过时的样本组合起来,重新训练异常检测模型,适应漂移;步骤6:将归一化处理后的待检测工控数据输入步骤5处理后的适应漂移的异常检测模型,输出异常检测结果。2.根据权利要求1所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法,其特征在于,步骤1的具体实现过程包括:获取不同时期正常运行的数据,用X
o
来表示过去采集到的旧数据样本即旧样本;用X
n
来表示与旧数据相比有一定时间跨度的新数据样本即新样本;对X
o
和X
n
做归一化处理,按时间顺序分割数据集,用旧样本X
o
中一部分数据作为训练集另一部分数据作为测试集用训练集来训练一个无监督的基于深度学习的异常检测模型f,保存f的训练参数。3.根据权利要求1所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法,其特征在于,异常检测模型是自编码器AutoEncoder。4.根据权利要求1所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法,其特征在于,步骤2的具体实现过程包括:用旧样本X
o
中的测试集来校准异常检测模型的输出;包括:首先,用步骤1训练好的异常检测模型f来评估测试集根均方误差作为异常检测模型f的输出;其次,将未校准的输出按降序排列,未校准的输出是指异常检测模型直接输出的数值,具体是指自编码器的重构误差;将排列后的未校准的输出值作为校准器C的输入x
group
,未校准的输出值即异常检测模型输出的值,生成相应的输出y
group
;y
group
的生成方式是:通过计算每个未校准的输出值在排列后的列表中的位置,除以所有数据点的总数,得到归一化为[0,1]范围内的值;这样,y
group
反映了每个未校准概率值在排序后的列表中的相对位置;具体如式(Ⅰ)、式(II)所示:y
group
=C(x
group
)
ꢀꢀꢀꢀ
(II)式(Ⅰ)、式(II)中,f()是异常检测模型;C()是校准器;最后,将x
group
和y
group
作为训练数据来拟合、校准异常检测模型;
进一步优选的,拟合,是指:学习生成一个单调递增的校准函数,该校准函数将未校准的概率值映射到校准后的概率值;校准,是指:根据校准模型学习到的转换函数,将模型输出映射到校准后的概率值。5.根据权利要求1所述的一种面向概念漂移的可适应可解释的工控系统异常检测方法,其特征在于,步骤3的具体实现过程包括:首先,计算旧样本X
o
中的测试集与新样本X
n
的校准输出,为了表示分布,C(f(x
o
))和C(f(x
n
))的离散分布通过K bins频率直方图来计算,得到旧分布和新分布如式(Ⅲ)和式(Ⅳ)所示:)所示:式(Ⅲ)、式(Ⅳ)中,f()是异常检测模型;C()是校准器;是计算校准输出的离散分布,通过K bins的频率直方图计算出来;P
org
代表旧样本的离散分布;Q
org
代表新样本的离散分布;然后,通过假设检验来对这两个离散分布P
org
和Q
org
进行统计比较,通过置换检验来比较这两个离散分布P
org
和Q
org
之间的差异;具体是指:原假设H0是C(f(X
o
))和C(f(X
n
))来自于同一分布即没有发生概念漂移,备择假设H1是C(f(X
o
))和C(f(X
n
))来自于不同的分布即发生了概念漂移;使用KL散度来衡量这两个离散分布P
org
和Q
org
之间的差异并作为测试统计量;使用置换检验来计算p值:首先,通过式(
Ⅵ
)计算出这两个离散分布P
org
和Q
org
之间的原始检验统计量S
org
,原始检验统计量S
org
用于衡量这两个离散分布P
org
和Q
org
之间的差异或偏移程度;然后,将旧数据样本与...
【专利技术属性】
技术研发人员:徐丽娟,韩梓昱,赵大伟,娄国庆,赵梓程,杨志,宋维钊,
申请(专利权)人:齐鲁工业大学山东省科学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。