一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器技术

技术编号:30825845 阅读:21 留言:0更新日期:2021-11-18 12:22
本发明专利技术提供一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器,采用动态滑动窗口模型来选取有限个数据,对分类模型进行实时更新,充分考虑过期数据和近期数据对整个数据流分类效果的影响,并引入信息熵检测当前分类模型是否发生概念漂移,若判断出发生了概念漂移则及时更新分类模型,反之模型将不会被更新。这样动态地更新窗口大小并通过对比信息熵变化的做法可以防止因模型频繁更新,减少建立模型消耗的时间,提高了工业互联网中检测异常和发现异常的速度。联网中检测异常和发现异常的速度。联网中检测异常和发现异常的速度。

【技术实现步骤摘要】
一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器


[0001]本专利技术涉及工业互联网安全领域,具体地涉及一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器。

技术介绍

[0002]最近几年,传统工业控制系统和互联网、云平台逐渐连接起来,构成了工业互联网平台。工业互联网平台将现场设备、生产物料、网络系统连接成一个整体的系统,实现了工业数据的动态采集和实时分析,用智能控制替换原来的人为操作,提高了工厂生产的效率,是工业生产布局的新方向。
[0003]在大数据环境下,工业互联网的访问信息和操作日志数量呈爆炸式增长,入侵检测技术面临的数据呈现出海量、高速、多样性等特点。工业互联网中产生的动态数据流相对于静态数据集,其特点是无法实现一次性完全获取,而是以流动的形式持续不断的产生和运输,数据流是大量持续到达的、潜在数量无限的有序数据序列,这些数据及其摘要信息按照顺序到达,并且只能被读取一次或限次。但这样也导致入侵检测系统在大数据环境下存在着一些问题,例如数据规模大导致数据挖掘算法效率低下,对高速网络的流量数据适应能力有限。在分析处理动态数据流时,用有限样本建立的数据挖掘模型不能很好地适应数据变化。而可利用的观察样本有限,意味着信息获取相对不足,因而用有限样本建立的数据挖掘模型,可能会在处理新数据时消耗过多的计算资源进行模型更新。
[0004]所以如何在观察样本有限的情况下,提高数据挖掘模型对动态数据流的适应能力,控制模型的计算资源开销是亟需解决的问题。

技术实现思路
r/>[0005]本专利技术目的在于克服目前基于异常的数据流分类方法存在的一些缺陷,提出一种基于滑动窗口的数据流异常检测方法,能够有效提升数据流检测结果的准确性,以适应数据流异常检测的需求。
[0006]一方面,本专利技术提出了一种基于动态滑动窗口的数据流异常检测方法,所述方法包括:
[0007]S100、捕获动态数据流;
[0008]S200、初始化参数;
[0009]S300、更新滑动窗口长度;
[0010]S400、根据当前窗口内的数据建立聚类模型:以决策树算法作为聚类模型的算法;
[0011]S500、判断是否发生概念漂移:若是,则继续更新滑动窗口长度,若否,则通过聚类模型得出当前数据的检测结果,判断是否为异常数据。
[0012]具体的,所述初始化参数包括初始窗口大小,初始窗口内的平均流速,规定窗口大小调节因子。
[0013]具体的,S300具体包括:根据当前数据流速和窗口内已有数据的平均流速更新窗口偏移量,若当前数据流速过快,则将窗口长度加大;若当前数据流速过慢,则将窗口长度减小。
[0014]具体的,所述窗口偏移量的更新公式为:
[0015][0016]其中v
i
为当前新输入的数据的流速,v表示当前窗口内数据的平均流速,σ为窗口大小调节因子。
[0017]具体的,所述概念漂移具体的判断如下:设定滑动窗口固定长度为W,获取窗口内的W个数据,通过KD树将W个数据分成N个向量,计算当前新到的数据信息熵和窗口内所有数据的平均信息熵;若当前数据的信息熵大于窗口内所有数据的平均信息熵,则发生概念漂移,调整窗口大小;若当前数据的信息熵小于或等于于窗口内所有数据的平均信息熵,则插入新数据,删除旧数据,重新计算。
[0018]另一方面,本专利技术还提供一种存储器,用于存储软件,其中,所述软件用于执行上述的方法。
[0019]另一方面,本专利技术还提供一种处理器,用于执行软件,其中,所述软件用于执行上述方法。
[0020]与现有技术相比,本专利技术所提供的一种基于动态滑动窗口的工业互联网数据流异常检测方法,通过引入动态滑动窗口对工业互联网端采集的数据流进行转化,将动态数据流转化为静态数据集,从而进行分类分析。而后本文引入信息熵的概念对整个滑动窗口内的信息进行评估,检测当前的分类模型是否发生概念偏移,及时决定更新分类模型,提高了模型的稳定性和鲁棒性,
附图说明
[0021]图1本专利技术基于动态滑动窗口的异常检测流程图。
具体实施方式
[0022]需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。
[0023]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0024]根据本专利技术实施例,提供了一种基于动态滑动窗口的数据流异常检测方法,所述方法包括:
[0025]S100、捕获动态数据流;
[0026]S200、初始化参数;
[0027]S300、更新滑动窗口长度;
[0028]S400、根据当前窗口内的数据建立聚类模型:以决策树算法作为聚类模型的算法;
[0029]S500、判断是否发生概念漂移:若是,则继续更新滑动窗口长度,若否,则通过聚类
模型得出当前数据的检测结果,判断是否为异常数据。
[0030]本专利技术将动态滑动窗口技术与入侵检测技术相结合,通过分析源源不断到到来的网络数据,不断调整和更新异常检测系统,提高入侵检测技术面对海量数据时的适应性和稳定性,并充分考虑了过期数据和近期数据对整个数据流分类效果的影响,有效地消除传统数据流分析建立的模型的复杂性和不确定性,增强检测过程的智能性。
[0031]上述方法具体包括:
[0032]工业互联网数据的收集包括捕获网络分流器、流量探针等安全设备产生的数据,并根据输入规则过滤网络上的数据流,获取符合条件的数据包,建立数量流采集模型。由于工业互联网数据流具有大量持续到达、潜在数量无限的特点,所建立的模型必须具有稳定性和鲁棒性,能够适应工业互联网复杂的数据流变化特点。
[0033]具体的,使用滑动窗口法,将动态数据流转化为静态数据集。
[0034]初始化参数主要指的是初始窗口大小W,计算初始窗口内的平均流速,规定窗口大小调节因子σ,并设定好后面要用到的决策树分类模型的部分参数。假设捕获的数据流表示为X={x1,x2,x3...},序列具有无限长的特点。设置滑动窗口固定长度为W,其大小固定且需提取人为设定。窗口偏移量Δw,初始值为0。滑动窗口的实际长度为TW=W+Δw。在数据流中截取最近达到的TW个数据转化为静态数据集,即此时的数据集为X={x1,x2,x3...x
TW
}。
[0035]Δw的更新公式为:
[0036][0037]其中v
i
为当前新输入的数据的流速,v表示当前窗口内数据的平均流速,σ为窗口大小调节因子。
[0038]更新滑动窗口长度,根据当前新来的数据流速和窗口内已有数据的平均流速的对比,实时更新窗口大小,其实际意义可以阐述为:若当前数据的流速过快,即数据到达的速度过快,则需要将窗口长度本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于动态滑动窗口的数据流异常检测方法,其特征在于,该方法包括:S100、捕获动态数据流;S200、初始化参数;S300、更新滑动窗口长度;S400、根据当前窗口内的数据建立聚类模型:以决策树算法作为聚类模型的算法;S500、判断是否发生概念漂移:若是,则继续更新滑动窗口长度,若否,则通过聚类模型得出当前数据的检测结果,判断是否为异常数据。2.根据权利要求1所述的方法,其特征在于,所述初始化参数包括初始窗口大小,初始窗口内的平均流速,规定窗口大小调节因子。3.根据权利要求1所述的方法,其特征在于,所述窗口偏移量的更新公式为:其中v
i
为当前新输入的数据的流速,v表示当前窗口内数据的...

【专利技术属性】
技术研发人员:王艺霖龚柱王安平
申请(专利权)人:和中通信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1