【技术实现步骤摘要】
一种基于向量空间下语言建模的IPv6目标生成方法和装置
[0001]本专利技术属于网络
,具体涉及一种基于向量空间下语言建模的IPv6目标生成方法和装置。
技术介绍
[0002]主机发现一直是网络测量领域中至关重要的研究方法。通过利用现代硬件和连接能力,诸如Zmap和Masscan等工具已经能够完成对全球IPv4地址空间的探索,从根本上增强了研究人员对互联网服务进行广泛评估的能力。
[0003]但是,众所周知,IPv6更大的地址空间使得彻底的探测是完全不可行的。最近提出的解决方案是设计目标生成算法以推断和生成可能处于活动状态的主机候选集,最终通过扫描候选集以发现活跃主机。这种方案需要系统分析活动地址集的潜在分布特征并推断目标聚集区域。有效分析算法的设计直接决定了模型学习的能力以及生成的候选集的质量。
[0004]虽然先前的工作已经对活跃地址的分布有了初步的了解,但是结果通常缺乏可解释性,因为完全由数字组成的IPv6地址缺少语义,这限制了我们无法依据序列关系来推断活跃地址组成。其原因主要来自众多可定制的I ...
【技术保护点】
【技术特征摘要】
1.一种基于向量空间下语言建模的IPv6目标生成方法,其特征在于,包括以下步骤:将IPv6地址映射到语义向量空间,获得具有语义关系的IPv6地址向量;利用获得的IPv6地址向量,采用Transformer网络建立IPv6语言模型,利用IPv6语言模型生成IPv6目标。2.根据权利要求1所述的方法,其特征在于,所述将IPv6地址映射到语义向量空间,获得具有语义关系的IPv6地址向量,包括:在IPv6地址中定义第i位的地址值为V
i
,其中V∈{0,1,...,f},定义第i位的索引值为S
i
,其中S∈{0,1,...,v},第i位地址词由地址值V
i
和索引值S
i
组成,即V
i
S
i
,从种子集地址构建的所有地址词组成词汇表;对地址词进行词选择,选择输入地址词和上下文地址词来生成训练样本;利用训练样本训练神经网络,神经网络的输出层表示在输入地址词的上下文中出现特定地址词的可能性,隐藏层表示输入地址词在模型中的内部表示;训练后最终的隐藏层结果是训练完成的输入地址词的向量表示,即IPv6地址向量。3.根据权利要求2所述的方法,其特征在于,所述选择输入地址词和上下文地址词来生成训练样本,是将来自输入地址词周围的在窗口内的地址词选择为上下文地址词,以构建训练样本。4.根据权利要求2所述的方法,其特征在于,所述神经网络的输入和输出神经元的数量同样等于词汇表的大小,输出层使用softmax分类器以表示特定地址词在特定上下文中出现的概率。5.根据权利要求1所述的方法,其特征在于,所述IPv6语言模型中堆叠n层Transformer编码器模块,以将地址词向量编码为记忆向量,Transformer编码器模块包含一个多头自注意子层和两个完全连接的前馈网络子层;Transformer...
【专利技术属性】
技术研发人员:熊刚,王炳旭,崔天宇,李镇,苟高鹏,刘梦严,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。