面向变电站核心工控业务的流量基线模型构造方法技术

技术编号:30088642 阅读:11 留言:0更新日期:2021-09-18 08:49
本发明专利技术公开了一种面向变电站核心工控业务的流量基线模型构造方法,包括解析变电站的数据流获得业务基本特征并得到表示业务流交互的高阶特征;进行同类业务聚类;生成最终的原始输入特征矩阵;构造基于卷积神经网络自编码器并学习得到高维中间层特征;对高维中间层特征降维并得到表示业务交互流程的低维关键特征;针对每一维度计算若干周期内的正态分布参数;构造各业务内多维关键特征联合高斯分布函数并得到业务基线模型。本发明专利技术利用深度学习网络提取业务交互流的关键特征,基于关键特征进行数学建模,从而构造业务基线模型;本发明专利技术从实际应用角度出发,对于变电站内业务监控和异常检测提供了有效的建模方案,而且可靠性高、效率较高且简单易行。效率较高且简单易行。效率较高且简单易行。

【技术实现步骤摘要】
面向变电站核心工控业务的流量基线模型构造方法


[0001]本专利技术属于电气自动化领域,具体涉及一种面向变电站核心工控业务的流量基线模型构造方法。

技术介绍

[0002]工业控制系统作为工业体系的中枢,控制着工业体系中信息的传输和交互,其涵盖了多种类型的控制系统,由各种自动化组件以及用于采集和监控的控制组件共同构成,保障工业基础设施自动化运行。工业控制系统具有结构稳定性,业务有限性和交互周期性特征。工业互联网的发展使得传统工业控制系统与互联网技术实现深度融合,高效共享工业系统中各类生产要素资源,从而通过自动化、智能化的生产方式降低成本、增加效率。
[0003]电网智能化发展,使得信息技术被广泛应用到发电、输电、变电、配电、用电和调度的各个环节,使得电网具有网络更广、用户更泛、交互更多、技术更新的特点。变电站作为电力骨干通信网的向下延伸,承载着分布式能源/储能站遥感、遥信、遥测等业务,具有终端设备复杂,分布广泛、业务连续性要求、业务实时性要求、专用协议传输等特点。变电站内核心业务通过TCP/IP方式按电网专用规约通信,其通信流量数据中“三遥”数据为主要业务,从而周期性获取终端设备状态并返回操作指令;具体表现为大量由时间驱动的状态检测和信息采集业务。通过构造基线模型,并用于描述变电站内各业务轮廓,一方面可为运维人员提供业务实时运行状态;另一方面,面对开放的工业互联网环境,可将基线模型扩展应用于异常行为检测,提供主动防御手段,丰富异常检测方式。
[0004]但是,目前的基线模型的构造方法,不仅费时费力,而且可靠性不高。

技术实现思路

[0005]本专利技术的目的在于提供一种可靠性高、效率较高且简单易行的面向变电站核心工控业务的流量基线模型构造方法。
[0006]本专利技术提供的这种面向变电站核心工控业务的流量基线模型构造方法,包括如下步骤:
[0007]S1.解析变电站的数据流,获得业务基本特征,并根据获取的业务基本特征计算得到表示业务流交互的高阶特征;
[0008]S2.进行同类业务的聚类;
[0009]S3.根据获取的基本特征和高阶特征,生成最终的原始输入特征矩阵;
[0010]S4.构造基于卷积神经网络自编码器,并学习步骤S3得到的原始输入特征矩阵的关联关系,从而得到高维中间层特征;
[0011]S5.对步骤S4得到的高维中间层特征进行降维,并计算得到表示业务交互流程的低维关键特征;
[0012]S6.针对每一维度,计算若干周期内的正态分布参数;
[0013]S7.构造各业务内多维关键特征联合高斯分布函数,最终得到业务基线模型。
[0014]步骤S1所述的解析变电站的数据流,获得业务基本特征,并根据获取的业务基本特征计算得到表示业务流交互的高阶特征,具体为特征提取包括创建流特征、更新流特征和输出流特征;循环读取并解析原始数据流内的基本特征,根据数据流类型初始化流信息,将流信息添加至特征栈中;最后基于基本特征计算高阶特征、更新栈中流特征并输出;
[0015]创建流特征:基于原始流基本特征与特征栈的匹配结果创建流特征;流基本特征为数据流中物理层、链路层、网络层和传输层中配置特征;将基本特征中源IP、源端口、目的IP、目的端口和协议类型构成五元组;若当前流五元组与特征栈中数据不匹配时,则创建流特征:根据首条数据流方向初始化流信息,包括:包大小、包头部长度、流标识和初始化窗口大小等;将初始化信息入栈完成创建流程;
[0016]更新流特征:若当前流五元组与特征栈中数据匹配,且不满足流特征输出条件,则更新流特征:更新流特征包括基本特征更新以及高阶特征更新;基本特征更新包括包大小累计更新、包头长度累计更新、标签数累计更新,包个数累计更新等;然后根据基本特征计算高阶特征,高阶特征包括流激活/空闲时间、流速率、字节速率、流到达时间间隔、有效载荷统计量、子流相关统计量子流数等;基本特征更新通过累加计数实现;高阶特征更新通过基本特征中发送序列、接收序列建立数据流交互关联,并结合时间戳分别计算前向链路与反向链路的特征变化,从而实现高阶特征更新;
[0017]输出流特征:若存在如下情况,则输出栈中的流特征:
[0018]1)根据基本特征TTL判断当前流是否超时;
[0019]2)根据基本特征FIN标识判断当前流是否结束;
[0020]3)当前pcap文件是否遍历完成;
[0021]其中,条件1)和2)需要完成当前数据流的特征栈更新并输出对应的流特征;条件3)表示当前pcap文件已结束,输出栈中所有的流特征。
[0022]步骤S2所述的进行同类业务的聚类,具体为根据业务数据流中提取的五元组进行聚类;聚类规则如下:
[0023]规则一:业务类型按固定目的端口和协议类型联合划分;
[0024]规则二:同类源设备,不同源IP,相同目的IP、目的端口和协议类型的业务流归为同类;
[0025]规则三:相同源IP,同类目的设备,不同目的IP、相同目的端口和协议类型业务归为同类。
[0026]步骤S3所述的根据获取的基本特征和高阶特征,生成最终的原始输入特征矩阵,具体为提取出的基本特征和高阶特征包括包长度特征、包个数特征、包时间特征、包内容特征和配置特征;其中包长度特征表示业务承载内容的信息量;包个数特征表示业务交互方式;包时间特征表示业务交互频次;包内容特征表示基于TCP/IP业务的内容标识;配置特征表示网络设备的配置信息;将前 /反向特征构成业务交互矩阵用以描述业务整体特征;同时,对于包长度特征、包个数特征和包时间特征均包含最大值、最小值、均值和方差四类高阶特征;包内容特征包含了TCP/IP不同内容标识计数值;业务交互矩阵中前/反向特征按序对包长度特征、包个数特征、包时间特征和包内容特征,按属性进行聚类排序,生成最终网络输入原始特征矩阵。
[0027]步骤S4所述的构造基于卷积神经网络自编码器,具体为采用如下步骤构建自编码
器:
[0028]自编码器的输入为2*N维原始特征矩阵x,其中N为业务流单向特征维度;自编码器为基于双层卷积神经网络的自编码器;编码器与解码器的结构镜像对称;编码器中第一卷积层函数为f1(
·
),第二层卷积层函数为f2(
·
),编码器输出为业务中间层特征向量h,编码器建立起中间层特征向量与输入特征矩阵间映射关系为h=f2(f1(x));解码器同样为两层卷积神经网路,其中第一层解码器用以解码第二层码编码器结果,其解码函数为g2(
·
),第二层解码器用以解调第一层编码器结果,其解码函数为g1(
·
),最终解码输出结果为解码器建立输出特征矩阵与中间层特征向量间映射关系为最终利用中间层特征向量h表示原始特征向量关联关系;
[0029]通过最小化平均绝对误差作为损失函数用以训练自编码器网络:
[0030][0031]式中x为原始数据流特征矩阵;为自编码器重构特征矩阵;m为特征矩阵维本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向变电站核心工控业务的流量基线模型构造方法,包括如下步骤:S1.解析变电站的数据流,获得业务基本特征,并根据获取的业务基本特征计算得到表示业务流交互的高阶特征;S2.进行同类业务的聚类;S3.根据获取的基本特征和高阶特征,生成最终的原始输入特征矩阵;S4.构造基于卷积神经网络自编码器,并学习步骤S3得到的原始输入特征矩阵的关联关系,从而得到高维中间层特征;S5.对步骤S4得到的高维中间层特征进行降维,并计算得到表示业务交互流程的低维关键特征;S6.针对每一维度,计算若干周期内的正态分布参数;S7.构造各业务内多维关键特征联合高斯分布函数,最终得到业务基线模型。2.根据权利要求1所述的面向变电站核心工控业务的流量基线模型构造方法,其特征在于步骤S1所述的解析变电站的数据流,获得业务基本特征,并根据获取的业务基本特征计算得到表示业务流交互的高阶特征,具体为特征提取包括创建流特征、更新流特征和输出流特征;循环读取并解析原始数据流内的基本特征,根据数据流类型初始化流信息,将流信息添加至特征栈中;最后基于基本特征计算高阶特征、更新栈中流特征并输出;创建流特征:基于原始流基本特征与特征栈的匹配结果创建流特征;流基本特征为数据流中物理层、链路层、网络层和传输层中配置特征;将基本特征中源IP、源端口、目的IP、目的端口和协议类型构成五元组;若当前流五元组与特征栈中数据不匹配时,则创建流特征:根据首条数据流方向初始化流信息,包括:包大小、包头部长度、流标识和初始化窗口大小;将初始化信息入栈完成创建流程;更新流特征:若当前流五元组与特征栈中数据匹配,且不满足流特征输出条件,则更新流特征:更新流特征包括基本特征更新以及高阶特征更新;基本特征更新包括包大小累计更新、包头长度累计更新、标签数累计更新,包个数累计更新;然后根据基本特征计算高阶特征,高阶特征包括流激活/空闲时间、流速率、字节速率、流到达时间间隔、有效载荷统计量、子流相关统计量子流数;基本特征更新通过累加计数实现;高阶特征更新通过基本特征中发送序列、接收序列建立数据流交互关联,并结合时间戳分别计算前向链路与反向链路的特征变化,从而实现高阶特征更新;输出流特征:若存在如下情况,则输出栈中的流特征:1)根据基本特征TTL判断当前流是否超时;2)根据基本特征FIN标识判断当前流是否结束;3)当前pcap文件是否遍历完成;其中,条件1)和2)需要完成当前数据流的特征栈更新并输出对应的流特征;条件3)表示当前pcap文件已结束,输出栈中所有的流特征。3.根据权利要求2所述的面向变电站核心工控业务的流量基线模型构造方法,其特征在于步骤S2所述的进行同类业务的聚类,具体为根据业务数据流中提取的五元组进行聚类;聚类规则如下:规则一:业务类型按固定目的端口和协议类型联合划分;规则二:同类源设备,不同源IP,相同目的IP、目的端口和协议类型的业务流归为同类;
规则三:相同源IP,同类目的设备,不同目的IP、相同目的端口和协议类型业务归为同类。4.根据权利要求3所述的面向变电站核心工控业务的流量基线模型构造方法,其特征在于步骤S3所述的根据获取的基本特征和高阶特征,生成最终的原始输入特征矩阵,具体为提取出的基本特征和高阶特征包括包长度特征、包个数特征、包时间特征、包内容特征和配置特征;其中包长度特征表示业务承载内容的信息量;包个数特征表示业务交互方式;包时间特征表示业务交互频次;包内容特征表示基于TCP/IP业务的内容标识;配置特征表示网络设备的配置信息;将前/反向特征构成业务交互矩阵用以描述业务整体特征;同时,对于包长度特征、包个数特征和包时间特征均包含最大值、最小值、均值和方差四类高阶特征;包内容特征包含了TCP/IP不同内容标识计数值;业务交互矩阵中前/反向特征按序对包长度特征、包个数特征、包时间特征和包内容特征,按属性进行聚类排序,生成最终网络输入原始特征矩阵。5.根据权利要求4所述的面向变电站核心工控业务的流量基线模型构造方法,其特征在于步骤S4所述的构造基于卷积神经网络自编码器,具体为采用如下步骤构建自编码器:自编码器的输入为2*N维原始特征矩阵x,其中N为业务流单向特征维度;自编码器为基于双层卷积神经网络的自编码器;编码器与解码器的结构镜像对称;编码器中第一卷积层函数为f1(
·
),第二层卷积层函数为f2(
·
),编码器输出为业务中间层特征向量h,编码器建立起中间层特征向量与输入特征矩阵间映射关系为h=f2(f1(x));解码器同样为两层卷积神经网路,其中第一层解码器用以解码第二层码编码器结果,其解码函数为g2(
·
),第...

【专利技术属性】
技术研发人员:朱宏宇田建伟田峥孙卓孙毅臻高雅婷岳钢向行杨志邦
申请(专利权)人:国网湖南省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1