一种基于深度学习的活跃IPV6地址预测方法技术

技术编号:35825007 阅读:17 留言:0更新日期:2022-12-03 13:51
本发明专利技术属于神经网络和IPV6地址预测技术领域,尤其是涉及一种基于深度学习的活跃IPV6地址预测方法。本发明专利技术通过分析IPv6地址结构和分配方式,结合已有的传统语言模型和目标成算法,提出了一种基于深度学习的算法6LMNS,来预测潜在的活跃IPV6地址。6LMNS包括地址向量空间映射模型Add2vec和语言训练模型GPT

【技术实现步骤摘要】
一种基于深度学习的活跃IPV6地址预测方法


[0001]本专利技术属于神经网络和IPV6地址预测
,尤其是涉及一种基于深度学习的活跃IPV6地址预测方法。

技术介绍

[0002]IPv6已成为支撑未来工业互联网、物联网发展的基础,大规模IPv6网络部署不断涌现。IPv6庞大的地址空间
[1],为用户行为追踪溯源、网络精细管控提供了可能。研究人员通过探索全球IPv6地址,来提升对下一代互联网进行大范围评估的能力。随着网络和硬件的快速发展,以及Zmap和Masscan等扫描工具的出现,已经实现对全球IPv4地址空间的探索。然而IPv6拥有更大地址空间,传统的扫描方法难以胜任。因此如何实现全球IPv6地址扫描,是研究人员面临的一个挑战。
[0003]目前关于IPv6地址扫描的研究,第一点是挖掘已知IPv6地址的结构特征,分析潜在分布规律,推断聚类区域。第二点是设计地址生成算法,预测网络中可能出现的IPv6地址。随后将预测地址作为扫描的目标,来达到IPv6地址扫描的目的。
[0004]由于IPv6完全由字符组成,缺少语义信息,序列关系无法预测活跃IPV6地址。虽然已经设计出各种复杂的算法,但IPv6网络以下性质导致这些算法仍然面临挑战:
[0005](1)IPv6寻址模式
[0006]网络管理员可以自由选择IPv6地址分配方案,实现地址中接口标识符(IID)多种分配模式。客户端可以使用无状态地址自动配置,从而产生伪随机或EUI

64IID。而服务器和路由器分配地址,通常是根据管理员的习惯或采用DHCPv6方式。根据RFC 7136中的要求,这些模式是不透明的,导致算法推断困难。
[0007](2)IPv6别名
[0008]已有的经验表明,大规模的别名地址是未来IPv6扫描中必须解决的问题,因为这些地址无条件地响应查询,不受设备唯一性约束。已有的算法仍需学习别名地址,导致消耗大量算力来生成低质量的地址。

技术实现思路

[0009]针对上述问题,本专利技术提出利用语言模型和目标生成算法,来实现对潜在的活跃IPV6地址进行预测。本专利技术基于深度学习的方法,首先通过词向量空间映射,构建具有一定语义关系的IPv6向量空间;随后利用图神经网络构建语言模型,来估计词序列的概率分布,推断活跃地址的组成。
[0010]本专利技术的技术方案为:
[0011]一种基于深度学习的活跃IPV6地址预测方法,包括以下步骤:
[0012]S1、构建IPV6地址词序列,具体为:通过地址词来表示十六进制的IPV6地址的每一个nybble,定义IPV6地址中第i个nybble的值为V
i
,定义索引i为S
i
,i为正整数且1≤i≤32,则将第i个地址词表示为V
i
S
i
,从而对每一个位置的nybble值在地址词中均单独赋予语义,
将整个IPV6地址的每一位nybble值转化为地址词,则构成一条IPV6地址的词序列;
[0013]S2、采用S1的方法对获取的所有IPV6地址集进行处理,根据获得的所有词序列构成词汇表,基于词汇表进行训练数据的构建,具体为:从一条词序列中选择一个地址词V
i
S
i
作为输入词,将V
i
S
i
前后的地址词作为背景词从而生成训练样本,选择背景词的范围是以V
i
S
i
作为中心并且窗口大小为5,即采用V
i
‑2S
i
‑2、V
i
‑1S
i
‑1、V
i+1
S
i+1
、V
i+2
S
i+2
作为背景词V
i
±
n
S
i
±
n
,获得的训练样本对为(V
i
S
i
,V
i
‑2S
i
‑2)(V
i
S
i
,V
i
‑1S
i
‑1)(V
i
S
i
,V
i+1
S
i+1
)(V
i
S
i
,V
i+2
S
i+2
),并且当作为背景词的地址词不存在时,对应的组合为空;对词汇表中的所有词序列进行训练数据的构建从而获得训练数据集;
[0014]S3、采用Word2Vec算法,将V
i
S
i
作为输入,背景词V
i
±
n
S
i
±
n
作为期望输出进行训练,并输出词向量;具体的:对每一个训练样本对(V
i
S
i
,V
i
±
n
S
i
±
n
),输入V
i
S
i
进入一个二层神经网络,输出S1中得到的词汇表中每个词的概率,再将背景词作为标签,采用LogSoftmax损失函数进行训练,二层神经网络的隐藏层的参数矩阵的每一行U
i
与词汇表的每个词V
i
S
i
具有一一对应关系,待算法收敛后,将隐藏层的参数矩阵作为IPV6地址词的词向量编码矩阵输出,词向量编码矩阵记为U;
[0015]S4、采用GPT算法进行训练,将真实IPV6地址数据集的每条样本16位前缀按照S1的方式构成地址词序列{V
i
S
i
}作为输入,再采用S3中得到词向量矩阵U对输入种子集进行词向量编码,得到输入地址词向量序列{U
i
},剩下的16位后缀以同样的方式得到目标地址词向量序列{U
i
'},将{U
i
}输入GPT网络预测{U
i
'}以提升GPT网络的IPV6地址词预测能力;
[0016]S5、生成新的地址:将S4中得到的{U
i
}输入收敛的GPT网络中,根据余弦相似度生成采样概率分布,通过核心采样解码策略,将GPT网络输出的词与输入的词重新组合,生成一个新的地址,从而完成活跃IPV6地址的预测。
[0017]本专利技术的有益效果为:与其他目标生成方法相比,本专利技术生成的地址拥有更好的多样性,以及更高的活跃率。
附图说明
[0018]图1是IPv6地址样本示意图。
[0019]图2是Add2Vec的整体结构示意图。
[0020]图3是GPT

IPv6的整体结构示意图。
[0021]图4是Greedy search与Nucleus Sampling生成地址词概率对比本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的活跃IPV6地址预测方法,其特征在于,包括以下步骤:S1、构建IPV6地址词序列,具体为:通过地址词来表示十六进制的IPV6地址的每一个nybble,定义IPV6地址中第i个nybble的值为V
i
,定义索引i为S
i
,i为正整数且1≤i≤32,则将第i个地址词表示为V
i
S
i
,从而对每一个位置的nybble值在地址词中均单独赋予语义,将整个IPV6地址的每一位nybble值转化为地址词,则构成一条IPV6地址的词序列;S2、采用S1的方法对获取的所有IPV6地址集进行处理,根据获得的所有词序列构成词汇表,基于词汇表进行训练数据的构建,具体为:从一条词序列中选择一个地址词V
i
S
i
作为输入词,将V
i
S
i
前后的地址词作为背景词从而生成训练样本,选择背景词的范围是以V
i
S
i
作为中心并且窗口大小为5,即采用V
i
‑2S
i
‑2、V
i
‑1S
i
‑1、V
i+1
S
i+1
、V
i+2
S
i+2
作为背景词V
i
±
n
S
i
±
n
,获得的训练样本对为(V
i
S
i
,V
i
‑2S
i
‑2)(V
i
S
i
,V
i
‑1S
i
‑1)(V
i
S
i
,V
i+1
S
i+1
)(V
i
S
...

【专利技术属性】
技术研发人员:李育强李林峰朱浩侯孟书刘竹
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1