一种基于不完全信息推断互联网AS连接关系的方法技术

技术编号:33865793 阅读:35 留言:0更新日期:2022-06-18 10:57
本发明专利技术提供了一种基于不完全信息推断互联网AS连接关系的方法,包括对每个分组中BGP采集点采集的AS之间的路径信息进行初始判定,获得一致性AS连接关系集合和无法判定的AS连接关系集合;每个分组对一致性AS连接关系集合中的同一个AS连接关系进行判定,获得可信的p2p连接关系或p2c连接关系,将其加入可信AS连接关系集合;一致性AS连接关系集合中的其他AS连接关系加入无法判定的AS连接关系集合;利用可信AS连接关系集合进行分类模型训练,利用训练好的分类模型对无法判定的AS连接关系集合中的AS连接关系进行判定,输出判定结果。该方法能够对无法判定关系类型的AS连接关系进行推断,构建准确的AS连接关系。构建准确的AS连接关系。构建准确的AS连接关系。

【技术实现步骤摘要】
一种基于不完全信息推断互联网AS连接关系的方法


[0001]本专利技术属于网络空间测量
,具体涉及一种基于不完全信息推断互联网AS连接关系的方法。

技术介绍

[0002]如今,互联网由6万多个自治系统(autonomous systems, AS)组成。基于互联网连接的要求,这些AS传播前缀并相互交换路由信息,以控制流量的路由方式。AS级拓扑中的连接关系通常用AS

to

AS方式表示,包括对等方(peer

to

peer, p2p)、客户对提供商(customer

to

provider, c2p)和提供商对客户(provider

to

customer, p2c)。随着互联网的规模和复杂性以前所未有的速度增长,了解不同AS之间的关系对于理解、运营和整合互联网非常重要,例如研究互联网的健壮性、检测路由劫持、路由泄漏和路由瓶颈,设计各种基于路由的攻击及其对抗措施,以及部署安全路由机制。
[0003]然而,对AS关系有充分的了解并不容易,因为它们通常是保密的,必须从各种相关信息中推断出来。目前,几乎所有推理算法都使用一组BGP(Border Gateway Protocol,边界网关协议)采集点集合所收集的BGP路由作为其分析的主要数据,然后将一些其他相关信息进行补充,包括互联网信息交换中心、BGP社区等。但是,BGP采集点所采集到的数据是零碎的数据集,推理算法面临着几个基本的挑战。首先,这些观察结果与不可忽略的噪声相耦合,即路由异常或配置错误导致的路由。第二,来自某个BGP采集点的路线只是全球互联网的一部分,因此数据上具有局限性。第三,BGP采集点通常集中在互联网层次结构的上层位置,它们的重叠或非重叠视图在聚合时会带来观察偏差。这些挑战会给AS连接之间的关系推理带来错误结论和严重影响。

技术实现思路

[0004]专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于不完全信息推断互联网AS连接关系的方法。
[0005]为了解决上述技术问题,本专利技术公开了一种基于不完全信息推断互联网AS连接关系的方法,包括以下步骤。
[0006]步骤S1,获取公开的BGP采集点和每个BGP采集点采集的AS之间的路径信息,对BGP采集点进行分组;对每个分组中BGP采集点采集的AS之间的路径信息进行初始判定,获得一致性AS连接关系集合和无法判定的AS连接关系集合。
[0007]步骤S2,每个分组对一致性AS连接关系集合中的同一个AS连接关系进行判定,获得可信的p2p连接关系或p2c连接关系,并将其加入可信AS连接关系集合;一致性AS连接关系集合中的其他AS连接关系加入无法判定的AS连接关系集合。
[0008]步骤S3,利用可信AS连接关系集合进行分类模型训练,利用训练好的分类模型对无法判定的AS连接关系集合中的AS连接关系进行判定,输出判定结果。
[0009]进一步地,步骤S1包括以下步骤。
[0010]步骤S101,从互联网中下载公开的RouteView数据,获得所有的BGP采集点,并从中摘取出BGP采集点采集的BGP路由数据,所述BGP路由数据包含了互联网域间路由在报文转发过程中经过各个AS之间的路径信息。
[0011]步骤S102,将所有的BGP采集点通过随机方式进行分组,每个分组包含的BGP采集点数目为N。
[0012]步骤S103,在每个分组中,分别采用AS

Rank算法对分组中每个BGP采集点所采集到的AS之间的路径信息进行计算,获得对应的AS连接之间的第一关系。
[0013]步骤S104,在每个分组中,采用集成学习方式对分组内所有BGP采集点计算获得的同一个AS连接之间的第一关系逐一进行投票判定,以确保AS连接关系推断结果的准确性,将投票结果最高的AS连接之间的第一关系判定为一致性AS连接关系,并将这些一致性AS连接关系划分到一致性AS连接关系集合中,其他的AS连接关系暂时划分到无法判定的AS连接关系集合中。
[0014]进一步地,所述步骤S102中每个分组包含的BGP采集点数目N设置如下。
[0015]步骤S1021,从CAIDA(Center for Applied Internet Data Analysis)国际测量组织中下载其所公开的已知AS连接关系,并将这些已知AS连接关系作为基准数据集。
[0016]步骤S1022,针对步骤S101中获得的每个BGP采集点,采用AS

Rank算法计算所述基准数据集中各个AS连接之间的第二关系,将所述AS连接之间的第二关系与基准数据集中对应AS连接关系进行比较,获得BGP采集点判断对应AS连接关系的误判率以及BGP采集点判断基准数据集中所有AS连接关系的平均误判率p。
[0017]步骤S1023,利用二项式定理进行评估,确定每个分组中BGP采集点的数目N。
[0018]进一步地,步骤S1023包括:以至少有一半的BGP采集点数能够正确判定AS连接关系的概率不低于95%为目标,确定每个分组中BGP采集点的数目N,公式如下。
[0019]arg min(N)其中,X表示能够正确判定AS连接关系的BGP采集点数目,表示至少有一半的BGP采集点数能够正确判定AS连接关系的概率。
[0020]进一步地,步骤S2包括以下步骤。
[0021]步骤S201,各个分组对一致性AS连接关系集合中的同一个AS连接关系进行判定。
[0022]步骤S202,如果超过第一比例阈值t1的采集点分组都将某个AS连接关系判定为p2p连接关系,则将该AS连接关系判定为可信的p2p连接关系。
[0023]步骤S203,如果超过第二比例阈值t2的采集点分组都将某个AS连接关系判定为p2c/c2p连接关系,则将该AS连接关系判定为可信的p2c/c2p连接关系。
[0024]步骤S204,将所述可信的p2p连接关系和可信的p2p/c2p连接关系都加入到可信AS连接关系集合中,一致性AS连接关系集合中的其他AS连接关系加入无法判定的AS连接关系集合中。
[0025]进一步地,步骤S202中的第一比例阈值t1的值为所有BGP采集点能够获得的p2p链路比例的均值;步骤S203中的第二比例阈值t2的值为所有BGP采集点能够获得的p2c/c2p链路比例的均值。
[0026]进一步地,步骤S3中所述分类模型采用基于期望最大化的贝叶斯网络模型。考虑到所有BGP采集点所收集到的AS连接数据存在较大的不均衡分布特性,而贝叶斯网络模型可以有效消除这种特性给AS连接关系推断所带来的影响。
[0027]进一步地,步骤S3包括以下步骤。
[0028]步骤S301,分别为可信AS连接关系集合和无法判定的AS连接关系集合中的每条AS连接关系建立对应的特征向量。...

【技术保护点】

【技术特征摘要】
1.一种基于不完全信息推断互联网AS连接关系的方法,其特征在于,包括以下步骤:步骤S1,获取公开的BGP采集点和每个BGP采集点采集的AS之间的路径信息,对BGP采集点进行分组;对每个分组中BGP采集点采集的AS之间的路径信息进行初始判定,获得一致性AS连接关系集合和无法判定的AS连接关系集合;步骤S2,每个分组对一致性AS连接关系集合中的同一个AS连接关系进行判定,获得可信的p2p连接关系或p2c连接关系,并将其加入可信AS连接关系集合;一致性AS连接关系集合中的其他AS连接关系加入无法判定的AS连接关系集合;步骤S3,利用可信AS连接关系集合进行分类模型训练,利用训练好的分类模型对无法判定的AS连接关系集合中的AS连接关系进行判定,输出判定结果。2.根据权利要求1所述的一种基于不完全信息推断互联网AS连接关系的方法,其特征在于,步骤S1包括以下步骤:步骤S101,从互联网中下载公开的RouteView数据,获得所有的BGP采集点,并从中摘取出BGP采集点采集的BGP路由数据,所述BGP路由数据包含了互联网域间路由在报文转发过程中经过各个AS之间的路径信息;步骤S102,将所有的BGP采集点通过随机方式进行分组,每个分组包含的BGP采集点数目为N;步骤S103,在每个分组中,分别采用AS

Rank算法对分组中每个BGP采集点所采集到的AS之间的路径信息进行计算,获得对应的AS连接之间的第一关系;步骤S104,在每个分组中,采用集成学习方式对分组内所有BGP采集点计算获得的同一个AS连接之间的第一关系逐一进行投票判定,将投票结果最高的AS连接之间的第一关系判定为一致性AS连接关系,并将这些一致性AS连接关系划分到一致性AS连接关系集合中,其他的AS连接关系暂时划分到无法判定的AS连接关系集合中。3.根据权利要求2所述的一种基于不完全信息推断互联网AS连接关系的方法,其特征在于,所述步骤S102中每个分组包含的BGP采集点数目N设置如下:步骤S1021,从CAIDA国际测量组织中下载其所公开的已知AS连接关系,并将这些已知AS连接关系作为基准数据集;步骤S1022,针对步骤S101中获得的每个BGP采集点,采用AS

Rank算法计算所述基准数据集中各个AS连接之间的第二关系,将所述AS连接之间的第二关系与基准数据集中对应AS连接关系进行比较,获得BGP采集点判断对应AS连接关系的误判率以及BGP采集点判断基准数据集中所有AS连接关系的平均误判率p;步骤S1023,利用二项式定理进行评估,确定每个分组中BGP采集点的数目N。4.根据权利要求3所述的一种基于不完全信息推断互联网AS连接关系的方法,其特征在于,步骤S1023包括:以至少有一半的BGP采集点数能够正确判定AS连接关系的概率不低于95%为目标,确定每个分组中BGP采集点的数目N,公式如下:arg min(N)其中,X表示能够正确判定AS连接关系的BGP采集点数目,表示至少有一半的BGP采集点数能够正确判定AS连接关系的概率。
5.根据权利要求4所述的一种基于不完全信息推断互联网AS连接关系的方法,其特征在于,步骤S2包括以下步骤:步骤S201,各个分组对一致性AS连接关系集合中的同一个AS...

【专利技术属性】
技术研发人员:蔡冰嵇程邢欣张丽霞袁艺
申请(专利权)人:国家计算机网络与信息安全管理中心江苏分中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1