基于多RBM网络构建基准模型的工控网络流量异常识别方法技术

技术编号:19219700 阅读:28 留言:0更新日期:2018-10-20 08:12
一种基于多RBM网络构建基准模型的工控网络流量异常识别方法,从工控网络中提取出特征并生成训练数据集,对基准模型进行训练并得到包含多个RBM模型的工控网络正常基准模型和训练数据集中的异常数据簇,用工控网络正常基准模型进行实时网络报文评估,实现流量异常检测;本发明专利技术可以在内部通过参数的设定完成是否降维以及需要降低到的维度且具有更好的鲁棒性,不用提前设定需要聚类的数量,通过模型的相互关联程度来完成,更符合实际应用的情况。

【技术实现步骤摘要】
基于多RBM网络构建基准模型的工控网络流量异常识别方法
本专利技术涉及一种计算机领域的技术,具体涉及一种基于多个RBM网络构建基准模型,并根据基准模型进行网络流量的异常识别方法。
技术介绍
随着攻击手段的不断变化,基于已知攻击特征攻击检测技术已经不能保护网络免遭攻击,对网络流量进行攻击检测非常有必要。攻击网络流量包由海量的流量数据组成,这些流量数据记录了电网终端的所有活动和行为。通过分析和整合这些网络流量包,可以从中提取特征,来发现攻击。但由于网络流量数量巨大,要达成攻击识别,就必须达成实时处理,对检测算法的效率要求很高。传统的神经网络学习方法和大部分机器学习方法往往在处理这方面的问题上会出现捉襟见肘的情况,对于电网网络流量攻击检测系统,如何高效、高精度的处理这些海量数据是一个巨大的挑战。
技术实现思路
本专利技术针对已有技术的不足以及电网工控环境的特殊情况,提出一种基于多RBM网络构建基准模型的工控网络流量异常识别方法,通过对工控网络流量数量与时间的监控,进而聚类出工控网络流量的基准模型,进而由基准模型识别工控网络中工控设备的各种工作状态,从中找出异常状态。本专利技术是通过以下技术方案实现的:本专利技术涉及一种基于多RBM网络构建基准模型的工控网络流量异常识别方法,从工控网络中提取出特征并生成训练数据集,对基准模型进行训练并得到包含多个RBM模型的工控网络正常基准模型和训练数据集中的异常数据簇,用工控网络正常基准模型进行实时网络报文评估,实现流量异常检测。所述的训练数据集,根据工控网络的网络特性进行特征提取和归并后,以时间段划分出数据簇形式的训练数据。所述的工控网络的网络特性包括但不限于:通过工控网络的前置采集机或者网络设备从旁路复制报文。所述的特征提取是指:根据工控网络流量数据传输的协议,提取报文传输的时间、数量、种类等特征进行特征选择,去除数据集中的亢余特征,得到提取后的报文特征。所述的归并是指:按照合并时间段Ta内流量数据的数量进行特征的归并。所述的数据簇,按照工控网络的流量传输时间作为聚类时间段Tb进行时间段划分,数据集划分为各个数据簇。所述的基准模型包括至少一个RBM网络,该基准模型通过输入任一数据簇来完成RBM网络参数的更新且基准模型的初始参数随机设定,通过接受不同规律的数据簇完成RBM网络数量的增加。所述的RBM网络的网络参数包括但不限于:学习速率α、迭代次数n、可见层与隐藏层节点个数、均方根误差阈值e、合并时间段Ta、时间簇的聚类时间段Tb等,其中:学习速率α为RBM模型受到反馈后参数每次改变的范围,学习速率越大,开始收敛的速度越快,但是很难收敛到准确值;迭代次数n为RBM网络训练到收敛的次数,为了防止RBM模型过拟合,因此允许存在一定的误差;可见层的节点个数由输入数据的特征决定,隐藏层的节点个数跟降维后的维度及收敛需要的精度有关,一般需要实验得出合理设定值;均方根误差阈值e是指输入数据与已有的RBM之间的相似程度,均方根误差越大,相似程度越小,聚类后的模型越少,但是误差越大;合并时间段Ta是指工控网络特征提取后的单个数据在该时间内数量的合并,用于表征网段短时间的流量传输特点;时间簇的聚类时间段Tb是指每个RBM模型内的时间段,其中有多个合并时间段的数据,表示网段在一段时间输入输出的流量传输模式。所述的训练是指:将数据簇输入初始化后的基准模型中,测试基准模型中的所有的RBM基准模型,计算该数据簇在基准模型的重构输出,计算重构输出与原始数据的平方根误差,根据与各个模型之间距离的大小,对训练模型参数完善或者对基准模型进行增加,直至所有训练数据集训练完毕后,得到包含多个RBM模型的工控网络正常基准模型和训练数据集中的异常数据簇。所述的模型之间距离,采用但不限于平方根误差进行表征。所述的异常数据簇是指:根据聚类后RBM模型中的数据簇的数量设定每个数据簇的异常度,RBM模型中数据簇的数量越多,说明该模型越符合网段传输规律,对应的数据簇异常度越低,该异常数据簇对应的报文就是异常数据。所述的异常度是模型中异常数据的百分比,由聚类后RBM模型中的数据簇的数量确定,RBM模型中数据簇的数量越多,对应的RBM模型异常度越低,它表征的是RBM模型的异常状态。所述的对基准模型进行增加是指:当训练过程中输出数据与原数据的距离全部超过设定阈值时,则说明该数据簇中的特征与现有的所有RBM网络模式均不吻合即属于新的模式类型,因此需要新建一个RBM网络并将该数据簇输入该RBM网络中进行训练并调整网络参数,最后将该新建并初始化后的RBM网络加入到基准模型中。所述的调整网络参数是指:将符合预设的异常度检测阈值的RBM模型汇总,汇总后为一个多RBM模型集,模型集对应多个RBM模型,RBM模型的个数为K,每个RBM模型对应自己的参数与数据簇。所述的原数据:经过特征提取后的数据,该数据对应在输入RBM网络之前被称为重构输出的原数据。所述的异常度检测阈值为RBM模型跟正常基准模型的误差,阈值设定越小说明误差越小,该RBM就是正常基准模型。所述的训练模型参数完善是指:当训练过程中输出数据与原数据的距离部分在阈值范围内时,选定距离最小的RBM模型集,添加该数据簇所对应的原数据进入对应基准模型的训练数据集,同时重新训练RBM网路,更新模型参数。当模型的训练数据集中数据过多时,根据提前设定的数据集数据量个数随机抛弃部分冗余数据,训练新的数据集并更新对应的基准模型参数。所述的实时网络报文评估是指:将网络报文进行特征提取和归并后,以时间段划分出数据簇形式的检测数据簇并输入到工控网络正常基准模型中,测试其中所有的RBM模型并计算该检测数据簇的输出数据与原数据的距离,当距离大于异常度误差值时,则检测数据簇对应的网络报文为异常报文。技术效果与现有技术相比,本专利技术技术效果包括:1)对于实时流量的运行速度得以提升,当电网工控网络某设定的网络的一小时所有流量进入时,本专利技术可以在一分钟以内完成异常的识别与参数的更新;本专利技术采用RBM网络的构建,可以在内部通过参数的设定完成是否降维以及需要降低到的维度且由于本专利技术可以在参数的更新中舍弃关联不大的数据,保持数据的有效的同时避免亢余因此对硬件要求更低;2)通过RBM方法建立基准模型具有非线性的特点,使得本专利技术所采用的工控网络正常基准模型具有更好的鲁棒性,此外多个RBM建模可以有效避免不同工作状态对数据的影响,有利于把握更多正常工作状态,从而更为准确的识别异常状态。3)本专利技术采用层次聚类,不用提前设定需要聚类的数量,通过模型的相互关联程度来完成,更符合实际应用的情况。附图说明图1为本专利技术工控网络正常基准模型自动构建流程图;图2为本专利技术基于正常基准模型的异常流量检测方法流程图。具体实施方式本实施例操作对象为每天不间断采集全部网段的用电数据采样的报文数据,本实施例采用了15天的数据作为基准模型的构建数据基于某设定网段内的数据dataset,报文数据中前15天数据设定为基准模型训练数据train_data,后8天数据为测试数据test_data。如图1所示,为本实施例涉及的一种在电网工控网络中用电数据采集流量的异常检测方法,具体包括以下步骤:在进行方法检测前初始化和设定一些参数,方法所述的数据预处理包括以下几个部分的内容:根本文档来自技高网...

【技术保护点】
1.一种基于多RBM网络构建基准模型的工控网络流量异常识别方法,其特征在于,从工控网络中提取出特征并生成训练数据集,对基准模型进行训练并得到包含多个RBM模型的工控网络正常基准模型和训练数据集中的异常数据簇,用工控网络正常基准模型进行实时网络报文评估,实现流量异常检测;所述的基准模型包括至少一个RBM网络,该基准模型通过输入任一数据簇来完成RBM网络参数的更新且基准模型的初始参数随机设定,通过接受不同规律的数据簇完成RBM网络数量的增加;所述的RBM网络的网络参数包括:学习速率α、迭代次数n、可见层与隐藏层节点个数、均方根误差阈值e、合并时间段Ta、时间簇的聚类时间段Tb。

【技术特征摘要】
1.一种基于多RBM网络构建基准模型的工控网络流量异常识别方法,其特征在于,从工控网络中提取出特征并生成训练数据集,对基准模型进行训练并得到包含多个RBM模型的工控网络正常基准模型和训练数据集中的异常数据簇,用工控网络正常基准模型进行实时网络报文评估,实现流量异常检测;所述的基准模型包括至少一个RBM网络,该基准模型通过输入任一数据簇来完成RBM网络参数的更新且基准模型的初始参数随机设定,通过接受不同规律的数据簇完成RBM网络数量的增加;所述的RBM网络的网络参数包括:学习速率α、迭代次数n、可见层与隐藏层节点个数、均方根误差阈值e、合并时间段Ta、时间簇的聚类时间段Tb。2.根据权利要求1所述的方法,所述的训练是指:将数据簇输入初始化后的基准模型中,测试基准模型中的所有的RBM基准模型,计算该数据簇在基准模型的重构输出,计算重构输出与原始数据的平方根误差,根据与各个模型之间距离的大小,对训练模型参数完善或者对基准模型进行增加,直至所有训练数据集训练完毕后,得到包含多个RBM模型的工控网络正常基准模型和训练数据集中的异常数据簇。3.根据权利要求1所述的方法,所述的训练数据集,根据工控网络的网络特性进行特征提取和归并后,以时间段划分出数据簇形式的训练数据。4.根据权利要求3所述的方法,所述的特征提取是指:根据工控网络流量数据传输的协议,提取报文传输的时间、数量、种类等特征进行特征选择,去除数据集中的亢余特征,得到提取后的报文特征。5.根据权利要求1或2所述的方法,所述的异常数据簇是指:根据聚类后RBM模型中的数据簇的数量设定每个数据簇的异常度,RBM模型中数据簇的数量越多,说明该模型越符合网段传输规律,对应的数...

【专利技术属性】
技术研发人员:李怡晨马颖华李生红张波梁启联
申请(专利权)人:上海交通大学国家电网公司国网江苏省电力有限公司国网江苏省电力有限公司信息通信分公司全球能源互联网研究院有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1