当前位置: 首页 > 专利查询>浙江大学专利>正文

一种自治域系统同胞关系识别方法技术方案

技术编号:33560212 阅读:26 留言:0更新日期:2022-05-26 22:57
本发明专利技术公开了一种自治域系统同胞关系识别方法,步骤为:对CAIDA等开源数据集与现网路由数据进行特征提取,获得自治域系统的多维度特征信息,通过树集成学习算法训练得到多种特征组合下的识别准确率,计算不同特征对识别准确率的重要性。进行特征处理筛选,基于特征重要性分析结果,进行特征筛选构造决策树,有效提升了自治域系统同胞关系的识别准确率。本发明专利技术适用于互联网路由安全及自治域系统商业关系分析。系分析。系分析。

【技术实现步骤摘要】
一种自治域系统同胞关系识别方法


[0001]本专利技术涉及网络安全领域,具体涉及一种自治域系统同胞关系识别方法。

技术介绍

[0002]进入互联网商业化时代之后,不同服务机构之间的自治域系统(Autonomous System,AS)通过一定的商业合作来实现互联网中流量的管理与控制。其中边际网关协议是自治域系统之间的路由协议,可以让每个自治域系统自主地设置路由策略,用于选择路由和宣告路由信息。整个互联网的自治域系统基于其在网络拓扑中的位置关系可以分为末端自治域、过渡自治域和多宿主自治域三种,其中末端自治域只会与另外的一个自治域连接,过渡自治域会为其它自治域提供流量穿越服务,而多宿主自治域则是与其它多个自治域连接。
[0003]互联网中自治域关系主要可以抽象为P2C(Provider

to

Customer,提供者

客户)、P2P(Peering

to

Peering,对等体

对等体)和S2S(Sibling

to

Sibling,同胞

同胞)三类。具体来说:A)P2C:提供者自治域系统为消费者自治域系统提供流量的全局可达性,消费者自治域系统则向提供者自治域系统支付费用。
[0004]B)P2P:两个自治域系统免费交换彼此与消费者自治域系统产生的流量,但是不交换它们和提供者或者对等体产生的流量。
[0005]C)S2S:两个自治域系统属于相同的机构,它们会免费交换所有流量,包括与提供者、消费者、对等体和兄弟。
[0006]全面而准确的自治域关系可以辅助建立有效的网络资源分配部署和流量管理工作,进而均衡网络负载,提高网络服务的可靠性与安全性,降低网络运维成本。同时基于全面准确的自治域关系,可以设计新的网络协议和网络建构,促进互联网演进优化。
[0007]但是由于自治域系统之间的商业关系涉及到商业敏感信息,并且注册信息更新和维护不及时等原因,公共的自治域系统商业关系并不全面和可靠。业界也有一些研究基础,比如AS

RANK、Problink、Toposcope等,但均有自身的缺陷,实际使用中限制较多。传统的互联网拓扑关系图是基于不同AS之间的对应关系进行构建的,基于商业利益的考虑,被研究最广泛的业务关系是P2P和P2C,因为前者促进了合作互惠,后者则通过服务伴随货币交易,S2S则往往被忽视。但在路由通告过程中,相同组织中的不同自治域系统通告同一IP前缀的现象广泛存在,而这种现象会对路由前缀劫持的检测识别带来直接影响,导致大量伪路由劫持事件。

技术实现思路

[0008]为了克服现有技术的不足,本专利技术的目的是提供一种自治域系统同胞关系识别方法。
[0009]自治域系统同胞关系识别方法,步骤如下:
分析处理数据集,根据自治域系统信息及现网路由数据,提取自治域系统特征信息,包括全局度、过渡度、自治域系统类别、自治域系统层次、到自治域系统路径起点的距离、自治域系统地理位置、自治域系统客户锥;分析AS

to

org数据集,获取注册的自治域系统同胞关系数据集,使用K折交叉验证进行训练集验证集划分。
[0010]将上述特征信息作为输入,通过XGBoost算法进行训练学习,XGBoost模型目标函数为:其中是第t棵树的模型预测结果,是第t

1棵树的模型预测结果,是样本i的实际值,函数是损失函数,是模型正则项,控制模型的复杂度。
[0011]基于合作博弈论,分析在XGBoost模型中自治域系统每个特征的重要性,计算单个特征对识别自治域系统同胞关系的贡献,依此来衡量特征对识别准确率的影响,第个特征的计算公式如下:其中表示自治域系统特征集合,表示出现自治域系统特征子集的概率,作为在特征子集基础上增加第个特征带来的输出增益的权重,表示在自治域系统特征子集对识别自治域系统同胞关系的贡献。
[0012]的计算流程如下:给定一颗决策树,其中向量和分别表示树节点的左子节点和右子节点索引,向量表示节点分裂的特征,向量表示节点上分裂的特征阈值,向量表示节点包含的样本数,即多少样本落在以该节点为根节点的子树中;用递归方式计算决策树的根节点的贡献值,在决策树上从根向叶搜索,最后得到根节点的贡献;如果节点是叶节点,那么返回该节点的贡献值,即节点上所有样本标签的累计和;如果该节点不是叶节点,则判断该节点分裂的特征是否属于特征子集;如果属于特征子集,则根据该节点的特征阈值进行分割,分到左边使用左子节点
的贡献值,分到右边使用右子节点的贡献值;如果不属于特征子集,则根据左右子节点的包含的样本数和为权重,计算左右子节点的贡献值之和,作为节点的贡献值;最后决策树根节点的贡献值即为。
[0013]基于自治域系统特征重要性,选择重要性高的部分特征作为特征子集构造决策树,通过决策树获得自治域系统同胞关系的识别结果。
[0014]本专利技术的有益效果:本专利技术通过对CAIDA等开源数据集与现网路由数据的特征提取,获得自治域系统的多维度特征信息,通过树集成学习算法训练得到多种特征组合下的识别准确率,计算不同特征对识别准确率的重要性,基于特征重要性分析结果,进行特征筛选构造决策树,设计出一种自治域系统同胞关系识别方法,考虑了不同特征值对同胞关系预测贡献的差异性,可以通过少量自治域系统特征获得较高的预测准确率,能够有效识别自治域系统同胞关系。
附图说明
[0015]图1是基于特征重要性分析获得的算法模型中的特征重要程度。
[0016]图2是分析中具体特征经度对实际预测的贡献,不同经度的值对样本的预测结果不一样的影响,例如可以发现经度相近时样本更趋向阳性。
[0017]图3 是不同数量特征的模型在训练集和测试集上的AUC曲线的对比。
具体实施方式
[0018]以下结合附图和实施例进一步说明本专利技术。
[0019]针对自治域系统同胞关系的识别方法中,系统通过将自治域系统的特征属性作为输入,基于学习获得的模型,对自治域系统间的同胞关系进行识别。本专利技术考虑了不同特征值对自治域系统同胞关系预测贡献的差异性,基于合作博弈论,分析在XGBoost模型中自治域系统每个特征的重要性,计算单个特征对识别自治域系统同胞关系的贡献,依此来衡量特征对识别准确率的影响,形成了能有效识别自治域系统同胞关系的模型。
[0020]针对自治域系统同胞关系的识别方法,包括以下步骤:步骤1:特征选择:根据自治域系统信息及现网路由数据,提取自治域系统特征信息,包括全局度、过渡度、自治域系统类别、自治域系统层次、到自治域系统路径起点的距离、自治域系统地理位置、自治域系统客户锥;步骤2:分析AS

to

org数据集,获取注册的自治域系统同胞关系数据集,使用K折交叉验证进行数据集验证集划分,将上述特征信息作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自治域系统同胞关系识别方法,其特征在于,包括如下步骤:1)特征选择:根据自治域系统信息及现网路由数据,提取自治域系统特征信息,包括全局度、过渡度、自治域系统类别、自治域系统层次、到自治域系统路径起点的距离、自治域系统地理位置、自治域系统客户锥;2)基于合作博弈论,分析在XGBoost模型中自治域系统每个特征的重要性,计算单个特征对识别自治域系统同胞关系的贡献,依此来衡量特征对识别准确率的影响;3)基于自治域系统特征重要性,选择重要性高的部分特征作为特征子集构造决策树,通过决策树获得自治域系统同胞关系的识别结果,其中,决策树包含的特征数取决于计算能力和性能需求。2.根据权利要求1所述的自治域系统同胞关系识别方法,其特征在于,步骤2所述的计算单个特征对识别自治域系统同胞关系贡献,步骤如下:第个特征的计算公式如下:其中表示步骤1中获得的自治域系统特征集合,表示出现自治域系统特征子集的...

【专利技术属性】
技术研发人员:王玮郑子为叶朝阳张士聪顾晨辉郭丹妮张朝阳
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1