一种基于图注意力网络的BGP异常检测方法及系统技术方案

技术编号:32771497 阅读:13 留言:0更新日期:2022-03-23 19:26
一种基于图注意力网络的BGP异常检测方法,包括以下步骤:S1:获取、解析、整理,得到异常事件数据集;S2:提取45个特征;S4:将数据集及其特征输入到模型中,得到预训练模型;S5:将模型用于对未知事件的异常检测。本发明专利技术还包括一种基于图注意力网络的BGP异常检测的系统,包括依次连接的数据获取模块,特征提取模块,模型训练模块和模型预测模块。本发明专利技术构建了五个网络异常事件数据集,通过STL关注数据的趋势性和季节性,并首次应用GAT模型关注特征关系和时间依赖,大幅提升性能,更好的实现对异常情况的捕获和在未知事件中的实用性和高效性。性。性。

【技术实现步骤摘要】
一种基于图注意力网络的BGP异常检测方法及系统


[0001]本专利技术涉及数据挖掘与计算机
,特别涉及一种基于图注意力网络的BGP异常检测方法及系统。

技术介绍

[0002]互联网的发展在促进经济、文化和生活快速发展的同时,也伴随着众多影响网络安全稳定的问题的出现。边界网关协议(Border Gateway Protocol,BGP)是一种域间路由通信协议,负责管理自治系统之间的网络可达信息(Network Reachable Information,NRI),保证信息的全局可达性。BGP功能的重要性也使其容易受到劫持、错误配置、DDoS攻击和自然灾害等的影响。最近的统计数据显示,大约20%的劫持和错误配置持续时间不到10分钟,但却能够在不到2分钟内影响90%的互联网。例如,2008年2月24日,巴基斯坦电信(AS17557)发布了一个未经授权的添加前缀208.65.153.0/24的公告。巴基斯坦电信的上游供应商之一,电讯盈科全球公司(AS3491)将这一声明转发到互联网的其它地方,导致全球范围内的YouTube流量被劫持。这样的网络安全事故还有很多很多。因此,设计BGP异常检测方法,发现BGP流量中的异常信息或行为,并提出警示或采取相应应对措施,具有重要意义。
[0003]在本文中,我们重点关注互联网安全中的BGP异常检测问题。CN201811331848.7基于改进的高斯核函数以及基于网格搜索与交叉验证进行参数寻优,以提高模型分类准确率,基于最优特征子集来评价模型综合性能;CN202010093180.8公开了一种用于实现BGP异常检测的方法、设备及系统,涉及通信
,能够提高BGP异常检测的时效性和准确度,主要实现为训练设备根据第一BGP update消息,以及历史BGP update消息的属性信息,获取训练样本数据,然后基于训练样本数据进行模型训练,获取BGP异常检测模型;CN202011588909.5通过BGP更新报文获取目标自治域的目标特征,然后将其输入至已训练的异常检测模型中,获取所述异常检测模型输出的所述目标自治域在所述预设时间段内的异常种类。可以看出,目前大多数的在BGP异常检测方面的专利公开文献都是通过获取BGP更新信息经过处理作为实验数据集,然后训练支持向量机或长短期记忆网络这些经典机器学习模型,最终在训练集中实现高精度,值得肯定的是,关注BGP更新数据能很好的发现异常事件,但真正具有意义的模型,应当是在已知异常事件作为训练数据集训练好模型后,面对未知数据集也能精准检测出异常情况,这仅凭借传统的方法是不够,所以也就需要提出更能发掘出异常样本特性的BGP异常检测方法及模型,能实现其对未知异常事件的精准检测,对网络安全,从实用性和精准性方面都具有重要意义。

技术实现思路

[0004]本专利技术为了克服传统BGP异常检测系统将异常样本当作独立样本,用传统机器学习方法通过众多特征进行分类实现异常检测,却忽略了异常事件作为时序数据在时间维度上的重要特性这一缺陷,解决这一将特征维度和时间维度同时考虑而提升BGP异常检测性能问题,本专利技术中基于不同时间、不同区域、不同类型提取了五个互联网异常事件数据,开
发了一个新的基于图注意力网络(GAT)的BGP异常检测方法和系统。
[0005]本专利技术在对事件数据集进行滑动窗口和STL分解的基础上,分别通过基于特征的图注意力网络和基于时序的图注意力网络,实现对特征关系和时间依赖的捕捉,最后通过基础的LSTM模型即可实现从已知事件训练到对未知事件的准确预测,很大程度上提升了对异常情况的捕获以及在未知事件中的实用性和高效性。
[0006]本专利技术实现上述专利技术目的所采用的技术方案如下:
[0007]一种基于图注意力网络的BGP异常检测方法,包括以下步骤:
[0008]S1:数据获取:从公开互联网项目平台获取指定区域、指定时间段、指定自治系统的边界网关协议(Border Gateway Protocol,BGP)更新数据包,解析为可读格式并进行整理,得到多种异常事件数据集;
[0009]S2:特征提取:解析后的BGP更新数据包报文头中不同字段包含该数据包对应的不同信息和特征,对特征的选择和提取主要分为自治系统路径特征和数量特征两大类,总计45个特征,根据时间戳将BGP更新包数据以特征序列的形式进行持久化存储,并根据异常事件发生的时间段自动添加异常标签,构建实验数据集;
[0010]S3:模型训练:将上述处理好的实验数据集输入到BGP异常检测模型,经过时间序列的STL(Seasonal and Trend decomposition using Loess)分解和滑动窗口的数据增强处理,突出数据的趋势和季节性,基于特征和基于时序的图注意力网络(GraphAttention Networks,GAT)从特征关系和时间依赖的新颖角度提取数据特征,凭借长短期记忆网络(Long

Short Term Memory,LSTM)分类器自主学习训练后得到预训练模型;
[0011]S4:模型预测:将新的异常事件处理为输入数据的格式,输入到预训练模型,实现对未知事件的预测以及不同的评估指标。
[0012]优选的,所述步骤S1中:
[0013]S1.1:获取异常互联网事件时间范围及区域表,为了最小化存储和计算需求,短时间异常事件周期为五天:事件发生前两天和事件发生后两天以及异常事件持续时间内的当天;
[0014]S1.2:利用自动获取数据程序从Route Views和RIPE NCC这两个组织按时间顺序区域范围收集和存储BGP更新报文数据;
[0015]S1.3:在本方法中,主要涉及类型为蠕虫攻击的Code Red I(2001.07.19

2001.07.20)事件、Nimda(2001.09.15

2001.09.23)事件、Slammer(2003.01.23

2003.01.27)事件,类型为设备故障的Moscow Blackout(2005.05.23

2005.05.27)事件,类型为错误配置的Malaysian Telecom(2015.06.10

2015.06.14)事件,该五个异常事件数据集分别从RIPE NCC平台的rrc04、rrc05收集者处获取,这两个收集者分别位于日内瓦、维也纳;
[0016]S1.4:收集到的BGP更新数据包以多线程路由工具包(Multi

threaded Routing Toolkit,MRT)的二进制格式存储,解析工具将MRT文件转换为ASCII格式,将转化后的文件按原有顺序进行持久化存储。
[0017]优选的,所述步骤S2中:
[0018]S2.1:解析后的BGP更新数据包报文头中不同字段包含该数据包对应的不同信息和特征;
[0019]S2.2:从上述五个异常事件中以1分钟为间隔收集收集数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力网络的BGP异常检测方法,其特征在于,包括以下步骤:S1:数据获取:从公开互联网项目平台获取指定区域、指定时间段、指定自治系统的边界网关协议(Border Gateway Protocol,BGP)更新数据包,解析为可读格式并进行整理,得到多种异常事件数据集;S2:特征提取:解析后的BGP更新数据包报文头中不同字段包含该数据包对应的不同信息和特征,对特征的选择和提取主要分为自治系统路径特征和数量特征两大类,总计45个特征,根据时间戳将BGP更新包数据以特征序列的形式进行持久化存储,并根据异常事件发生的时间段自动添加异常标签,构建实验数据集;S3:模型训练:将上述处理好的实验数据集输入到BGP异常检测模型,经过时间序列的STL(Seasonal and Trend decomposition using Loess)分解和滑动窗口的数据增强处理,突出数据的趋势和季节性,基于特征和基于时序的图注意力网络(Graph Attention Networks,GAT)从特征关系和时间依赖的新颖角度提取数据特征,凭借长短期记忆网络(Long

Short Term Memory,LSTM)分类器自主学习训练后得到预训练模型;S4:模型预测:将新的异常事件处理为输入数据的格式,输入到预训练模型,实现对未知事件的预测以及不同的评估指标。2.如权利要求1所述的一种基于图注意力网络的BGP异常检测方法,其特征在于:所述步骤S1具体包括:S1.1:获取异常互联网事件时间范围及区域表,为了最小化存储和计算需求,短时间异常事件周期为五天:事件发生前两天和事件发生后两天以及异常事件持续时间内的当天;S1.2:利用自动获取数据程序从Route Views和RIPE NCC这两个组织按时间顺序区域范围收集和存储BGP更新报文数据;S1.3:在本方法中,主要涉及类型为蠕虫攻击的Code Red I(2001.07.19

2001.07.20)事件、Nimda(2001.09.15

2001.09.23)事件、Slammer(2003.01.23

2003.01.27)事件,类型为设备故障的Moscow Blackout(2005.05.23

2005.05.27)事件,类型为错误配置的Malaysian Telecom(2015.06.10

2015.06.14)事件,该五个异常事件数据集分别从RIPE NCC平台的rrc04、rrc05收集者处获取,这两个收集者分别位于日内瓦、维也纳;S1.4:收集到的BGP更新数据包以多线程路由工具包(Multi

threaded Routing Toolkit,MRT)的二进制格式存储,解析工具将MRT文件转换为ASCII格式,将转化后的文件按原有顺序进行持久化存储。3.如权利要求1所述的一种基于图注意力网络的BGP异常检测方法,其特征在于:所述步骤S2具体包括:S2.1:解析后的BGP更新数据包报文头中不同字段包含该数据包对应的不同信息和特征;S2.2:从上述五个异常事件中以1分钟为间隔收集收集数据中提取的各种信息,可从中提取和总结出45个相关特征,这些特征主要分为自治系统路径特征和数量特征两类;S2.3:将45个特征值按时间戳的顺序进行存储,每个时间戳下的数据被当作是一个样本,并根据异常事件发生的时间段,对每个样本添加标签,正常样本的标签为0,异常样本的标签为1,最后,将不同的互联网异常事件转化为多变量时序数据集。4.如权利要求1所述的一种基于图注意力网络的BGP异常检测方法,其特征在于:所述
步骤S3具体包括:S3.1:BGP异常检测即多变量时间序列异常检测,其输入可表示为其中n代表时间戳的最大长度,也代表样本的数量,k代表每个样本的输入特征数,也可以用序列表示,然后表示,然后代表所有n个输入样本的输出向量,y
i
∈{0,1}代表第i个时间戳的样本是正常样本还是异常样本;S3.2:滑动窗口是一种从原始时间序列中按顺序提取固定窗口大小的子样本方法,该方法常用于数据流挖掘,从历史流量中获取信息,从模型的角度来看,利用滑动窗口在原始时间序列数据集上扩展了特征维数更多的强相关数据集,并通过增强数据来提高模型训练的分类器的分类性能;滑动窗口的大小为可调参数m,该窗口每次以1的步幅从头到尾遍历整个初始时间序列,形成一系列新的多样本时间序列,单个窗口的构成形如其中对应的是第(i

1)个时间戳的样本数据,新序列数据集对应的标签等于每个序列中所有时间样本频率最高的标签,至此,构成了经过滑动窗口增强后的新序列数据集S3.3:STL分解法是以鲁棒局部加权回归作为平滑方法的时间序列分解方法,将上一部分的新序列数据经过STL分解法分解后,得到5个不同角度的同样维度的新数据集,进行拼接来扩展数据集的特征维度,再一次实现数据的增强,得到新的序列数据集据集,进行拼接来扩展数据集的特征维度,再一次实现数据的增强,得到新的序列数据集其中,n代表初始总样本数,m代表滑动窗口大小,5k代表每一个新的样本的特征数量从最初的k个变为5k个;S3.4:GAT层能够对任意图中的节点之间的关系进行建模,一般来说,给定一个有n个节点的图,即v1,v2,...,v
n
,其中v
i
为第i个节点的特征向量,GAT层计算每个节点的输出表示形式如试下:式中h
i
为节点i的输出表示形式,与输...

【专利技术属性】
技术研发人员:宣琦彭松涛殳欣成张丽娜阮中远
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1