一种基于向量空间下语言建模的IPv6目标生成方法和装置制造方法及图纸

技术编号：28053707 阅读：45 留言：0更新日期：2021-04-14 13:20

本发明专利技术涉及一种基于向量空间下语言建模的IPv6目标生成方法和装置。本发明专利技术将整个活动地址空间映射到语义向量空间，实验证明这可以有效地对活动地址空间进行地址分类；通过使用Transformer网络进行建模，采用基于余弦相似度和softmax温度参数的方法来替换语言模型中的概率预测，实验证明该方案可以全面考虑多个序列关系，并生成与数据集具有语义相似且更富有创造性的地址序列。本发明专利技术首次探索了IPv6语义空间的构建，可以有效地提取地址的语义信息并对活跃地址空间分类，采用了新的生成方法完善了语言模型以获得富有创意性的地址序列，能够在有限数据集下生成更多的活跃目标。够在有限数据集下生成更多的活跃目标。够在有限数据集下生成更多的活跃目标。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于向量空间下语言建模的IPv6目标生成方法和装置

[0001]本专利技术属于网络
，具体涉及一种基于向量空间下语言建模的IPv6目标生成方法和装置。

技术介绍

[0002]主机发现一直是网络测量领域中至关重要的研究方法。通过利用现代硬件和连接能力，诸如Zmap和Masscan等工具已经能够完成对全球IPv4地址空间的探索，从根本上增强了研究人员对互联网服务进行广泛评估的能力。
[0003]但是，众所周知，IPv6更大的地址空间使得彻底的探测是完全不可行的。最近提出的解决方案是设计目标生成算法以推断和生成可能处于活动状态的主机候选集，最终通过扫描候选集以发现活跃主机。这种方案需要系统分析活动地址集的潜在分布特征并推断目标聚集区域。有效分析算法的设计直接决定了模型学习的能力以及生成的候选集的质量。
[0004]虽然先前的工作已经对活跃地址的分布有了初步的了解，但是结果通常缺乏可解释性，因为完全由数字组成的IPv6地址缺少语义，这限制了我们无法依据序列关系来推断活跃地址组成。其原因主要来自众多可定制的I...

【技术保护点】

【技术特征摘要】
1.一种基于向量空间下语言建模的IPv6目标生成方法，其特征在于，包括以下步骤：将IPv6地址映射到语义向量空间，获得具有语义关系的IPv6地址向量；利用获得的IPv6地址向量，采用Transformer网络建立IPv6语言模型，利用IPv6语言模型生成IPv6目标。2.根据权利要求1所述的方法，其特征在于，所述将IPv6地址映射到语义向量空间，获得具有语义关系的IPv6地址向量，包括：在IPv6地址中定义第i位的地址值为V
i
，其中V∈{0,1，...，f}，定义第i位的索引值为S
i
，其中S∈{0，1，...，v}，第i位地址词由地址值V
i
和索引值S
i
组成，即V
i
S
i
，从种子集地址构建的所有地址词组成词汇表；对地址词进行词选择，选择输入地址词和上下文地址词来生成训练样本；利用训练样本训练神经网络，神经网络的输出层表示在输入地址词的上下文中出现特定地址词的可能性，隐藏层表示输入地址词在模型中的内部表示；训练后最终的隐藏层结果是训练完成的输入地址词的向量表示，即IPv6地址向量。3.根据权利要求2所述的方法，其特征在于，所述选择输入地址词和上下文地址词来生成训练样本，是将来自输入地址词周围的在窗口内的地址词选择为上下文地址词，以构建训练样本。4.根据权利要求2所述的方法，其特征在于，所述神经网络的输入和输出神经元的数量同样等于词汇表的大小，输出层使用softmax分类器以表示特定地址词在特定上下文中出现的概率。5.根据权利要求1所述的方法，其特征在于，所述IPv6语言模型中堆叠n层Transformer编码器模块，以将地址词向量编码为记忆向量，Transformer编码器模块包含一个多头自注意子层和两个完全连接的前馈网络子层；Transformer...

【专利技术属性】
技术研发人员：熊刚，王炳旭，崔天宇，李镇，苟高鹏，刘梦严，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人