一种基于无监督学习的航空数据总线入侵检测方法技术

技术编号:38458047 阅读:11 留言:0更新日期:2023-08-11 14:35
本发明专利技术公开提出一种基于稀疏自编码器SAE与集成马氏距离EMD相结合的航空数据总线入侵检测方法,用于检测MIL

【技术实现步骤摘要】
一种基于无监督学习的航空数据总线入侵检测方法


[0001]本专利技术涉及入侵检测领域,无监督学习与度量学习算法应用领域。

技术介绍

[0002]目前综合航空电子系统内部应用最多的总线为MIL

STD

1553B,简称1553B,具有实时性和可靠性强,计算速度快的特点。然而,1553B是一种与其他网络隔离的控制网络,属于遗留系统,在设计之初,1553B应用层协议中缺乏访问认证机制,整个总线系统易受现代网络威胁的影响。入侵者一旦成功利用系统漏洞,就可获得未经授权的资源访问,导致综合航空电子系统的巨大损失或完全崩溃,直接影响飞机的飞行安全。
[0003]由于无监督学习可根据正常网络流量数据集建立正常行为模型,输入测试数据可判别是否存在异常,与需要大量人工标注的有监督学习相比,代价较低,因此本专利技术针对1553B的远程终端欺骗攻击开展了基于无监督学习的入侵检测研究。作为目前无监督学习的经典算法,稀疏自编码器SAE可防止过拟合,具有强大的非线性泛化能力,其输入输出重构误差通常用于预测样本异常可能性。马氏距离是度量学习中一种常用的距离指标,在不受尺度的影响下,可计算出标准化之后的测试值到其平均值之间的距离。为结合SAE每一层输出的特征信息,采用可以获得正常数据分布与测试集之间相似程度的集成马氏距离EMD,与SAE输入输出之间的重构误差进行加权求和,获得综合异常得分。
[0004]现有的自编码器AE及其变体与马氏距离MD相结合的入侵检测方法多数为首先使用AE进行特征提取与特征降维,之后再使用低维空间的MD用于确定正常数据分布的阈值,超过该阈值视为异常。或者将MD作为正常与异常的粗粒度划分指标,AE及其变体与分类器相结合实现细粒度异常分类。未考虑AE及其变体中每一层特征信息,当一些恶意流量与正常流量存在高度相似性时,AE及其变体得到的输入输出重构误差值相差较小,入侵数据与正常数据无法显著分离。此外,对于阈值的选择通常是单一指标,导致检测结果存在一定局限性。
[0005]本专利技术涉及以下技术术语:
[0006]AE:自编码器autoencoder,是一种典型的无监督学习算法。
[0007]SAE:稀疏自编码器Spares autoencoder,是自编码器的一种变体。
[0008]MD:马氏距离Mahalanobis Distance,是度量学习中一种常用的距离指标。
[0009]EMD:集成马氏距离Ensemble Mahalanobis Distance,是对稀疏自编码器SAE每一层的马氏距离进行相乘求和,得到一个集成每一层中所有特征信息的距离值。

技术实现思路

[0010]本专利技术针对现有技术的不足,提供一种基于无监督学习的入侵检测方法,用于解决航空数据总线存在的远程终端欺骗攻击入侵检测问题。
[0011]为实现上述目的,本专利技术采用的技术方案为:
[0012]基于SAE与EMD相结合的航空数据总线入侵检测不仅考虑了SAE输入输出重构误
差,还结合了SAE每一层特征信息,针对航空数据总线上的远程终端欺骗攻击展示出了有效的入侵检测性能,其步骤如下:
[0013]步骤一:利用训练集为1553B的正常通信流量数据训练SAE模型,解算训练集的平均值μ
l
,协方差矩阵∑
l
。根据模型中输入层的特征f
I
(x)、隐藏层的特征f
H
(x)和输出层的特征f
O
(x)可知,SAE每一层的特征表示为f
l
(x),获得经训练得到的SAE每一层的马氏距离M
l
(x)。可求解训练集和测试集之间的输入层、隐藏层以及输出层的马氏距离,分别表示为M
I
(x)、M
H
(x)和M
O
(x)。
[0014]步骤二:根据SAE的组成结构可知,输入层的层数为a
I
,隐藏层的层数为a
H
,以及输出层的层数为a
O
,分别与各自层的马氏距离相乘求和,解算集成马氏距离M(x),可以综合获取稀疏自编码器中的所有特征信息,表达式为:
[0015][0016]式中,稀疏自编码器的输入层、隐藏层和输出层的输入训练数据的平均值分别为μ
I
,μ
H
和μ
O
,同时,输入层、隐藏层和输出层协方差矩阵的逆矩阵分别为和
[0017]步骤三:对SAE输入x与输出y之间的重构误差L(x),重构误差的测量方法较多,通常指的是模型输出值与原始输入值之间的均方误差,即L(x)=1/2*(x

y)2。
[0018]步骤四:采用逻辑回归分类器,正确预测测试集对应的类别,得到重构误差权重系数ω和集成马氏距离的权重系数1

ω,加权求和解算包含SAE每层特征信息的集成马氏距离M(x)和输入输出重构误差L(x)的综合异常分数CAS(x),表达式为:
[0019][0020]针对航空数据总线中的正常流量远远多于恶意流量的问题,F1得分更关注不平衡数据下的稀有类,约登指数为真阳性率TPR与误报率FPR之差,这两个性能指标是评价入侵检测能力的关键指标,该值越大检测性能越好,因此本专利技术综合考虑约登指数和F1得分,求解加权调和平均最大值max(ω
β
)对应的阈值θ,结合综合异常得分更有利于恶意流量的准确检测。ω
β
值的表达式为:
[0021][0022]其中,Youden为约登指数,F1为F1得分,β为权重因子。
[0023]当β=1时,代表约登指数和F1得分的权重相同,即两个性能指标同样重要;
[0024]当β<1时,代表约登指数的权重大于F1得分,约登指数更为重要;
[0025]当β>1时,代表F1得分的权重大于约登指数,F1得分更重要。
[0026]FPR是错误预测为正常的样本数量占真正攻击样本的百分比。TPR也称为召回率和灵敏度,是正确预测为正常样本数量占预测为正常样本总数的比例。FPR与TPR的表达式分别为:
[0027][0028][0029]其中,真阳性(TP)是指正确分类为正常的样本数量,这对1553数据总线系统的功能至关重要。真阴性(TN)是正确分类为攻击的样本数。假阳性(FP)是错误分类为正常的攻击样本数,是1553数据总线系统中最关键的指标。假阴性(FN)是错误分类为攻击的正常样本数。尽管该值的最佳值应保持在最小值,但它不会像FP那样对飞机系统造成太大的威胁。
[0030]F1得分适用于精度(precision)和召回率(recall)之间存在矛盾时的性能评估。该指标更关注不平衡数据下的稀有类,有利于恶意流量样本的正确分类。
[0031][0032]本专利技术的有益效果:
[0033]1、本专利技术针对1553总线流量中的训练集只存在正常数据的问题,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督学习的航空数据总线入侵检测方法,其特征在于:根据稀疏自编码器SAE内部每一层输出的特征以及训练集的协方差矩阵和平均值,计算衡量正常数据和测试数据之间相似程度的集成马氏距离EMD,依据EMD和输入输出重构误差加权解算测试数据的综合异常得分CAS。基于约登指数和F1得分两个性能评价指标解算加权平均调和值ω
β
,将取得ω
β
最大值的阈值设为最佳阈值θ,实现网络异常检测率最大化,结合综合异常得分判别航空数据总线是否存在入侵。2.根据权利要求1,其综合异常得分解算过程,特征在于:步骤一:利用训练集为1553B的正常通信流量数据训练SAE模型,解算训练集的平均值μ
l
,协方差矩阵∑
l
。根据模型中输入层的特征f
I
(x)、隐藏层的特征f
H
(x)和输出层的特征f
O
(x)可知,SAE每一层的特征表示为f
l
(x),获得经训练得到的SAE每一层的马氏距离M
l
(x)。可求解训练集和测试集之间的输入层、隐藏层以及输出层的马氏距离,分别表示为M
I
(x)、M
H
(x)和M
O
(x)。步骤二:根据SAE的组成结构可知,输入层的层数为a
I
,隐藏层的层数为a
H
,以及输出层的层数为a
O
,分别与各自层对应的马氏距离相乘求和,解算集成马氏距离M(x)。步骤三:对SAE输入x与输出y之间的重构误差L(x),重构误差的测量方法较多,通常指的是模型输出值与原始输入值之间的均方误差,即L(x)=1/2*(x

y)2。步...

【专利技术属性】
技术研发人员:李煌葛红娟闫洁
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1