一种用于IP定位的网络实体识别方法技术

技术编号:39187192 阅读:19 留言:0更新日期:2023-10-27 08:34
本发明专利技术提出了一种用于IP定位的网络实体识别方法,步骤为:提取网络实体的IPv6地址,获取路径信息得到数据集;对数据集进行特征提取和匿名处理得到属性特征,将属性特征嵌入至网络拓扑图中;通过社区聚类方法对网络拓扑图进行社区划分得到子图;提取子图中节点的结构信息并计算结构相似度,对子图所有节点进行Transformer计算,计算节点的综合权重注意力;根据节点间的综合权重注意力,选取前K个节点进行聚合更新,输出更新后的节点表示;训练Transformer网络,将更新后的节点表示送入分类层,通过预测概率获取设备类别。本发明专利技术在公开收集的数据集上成功识别了8种不同的网络实体,网络实体的识别准确率在95.49%以上。网络实体的识别准确率在95.49%以上。网络实体的识别准确率在95.49%以上。

【技术实现步骤摘要】
一种用于IP定位的网络实体识别方法


[0001]本专利技术涉及网络实体识别的
,尤其涉及一种用于IP定位的网络实体识别方法,是在大图网络结构下的一种用于IP定位的网络实体识别方法。

技术介绍

[0002]网络空间测绘是对于网络中的各个空间资源的探测、分析和绘制。其中网络空间资产分析为主要,分为实体资源分析和虚拟资源分析,网络实体识别和IP定位属于实体资源分析,分别为IP对网络实体类型的映射和IP对网络实体位置的映射。
[0003]网络实体是指联网设备的统称,指具有IP地址且在网络空间中能够进行通信的设备。网络实体定位技术是通过网络空间中目标实体的IP地址,其主要结合目标IP的时延、拓扑等相关特征,获取目标实体所在的位置,也称IP定位,在许多领域有着广泛的应用。IP定位技术主要分为基于数据库的方法、基于规则的方法和基于学习的方法。基于数据库可以通过简单的查询比对获取网络实体的位置;基于规则的方法通过构建基于网络的规则方法实现对网络实体的定位约束;基于学习的方法包括使用机器学习、深度学习和图神经网络学习提取目标节点的特征信息和拓扑的结构信息,建立节点与地标的相似性判断,实现网络实体定位。
[0004]基于数据库的方法可以根据多种数据混合查询的方式获取IP定位,Lee Y等人提出了一种新的IP地址数据库的创建方法,基于带有该位置标签的众包互联网宽带性能测量。赵等人提出了一种新颖的方法来校准位置数据库,使用各种分类器并采用时间延迟作为特征来自动显示距离与时间延迟之间的关系。基于规则的方法:Liu等人提出的Checkin

GEO算法,此算法则是首先通过移动应用端获取ID

位置对,其次在PC端应用出建立ID

位置

IP地址的映射关系。GEO

RMP算法认为每个路由器在一段时间内都有固定的服务区域,基于这个假设,通过分析地标与路由器的连接,推断路由器的服务范围。基于学习的方法:Dan O等人提出了一种系统的方法,可以使用公开访问的反向DNS主机对IP地址定位,旨在与其他位置数据源相结合,将任务作为一个机器学习问题。Wang等人提出了一种基于图神经网络的IP定位方法GraphGeo,通过IP地址能获取的相关主机信息和IP所属节点的周围邻域关系一起放入图中学习,减轻了由于网络时延抖动或拥塞造成的负面影响,且在实验中,该方法在各个地区的误差都是最小的。当前的IP定位算法最好的结果误差小于1km,但定位结果仍为街道级,但是想要再提升定位粒度至园区级是一件复杂的事情。传统的基于规则和基于学习的定位方法效果不佳。
[0005]Zhao等人指出,相同设备的漏洞可能与位置相关,通过对数据的收集和比对,易受攻击的路由器主要集中在少数几个国家,易受攻击的网络摄像头主要位于中国和越南,此外不同厂商的受攻击打印机主要位于美国。从零日漏洞的角度来理解,一片区域的网络管理员对于一片区域设备的漏洞补丁更新并不是那么及时。基于此延伸根据设备类型和漏洞检测可以对设备的位置进行一定程度的约束。Liu等人提出通过设计规则构建IPv4

IPv6的关联,扩充IPv6地标,但是该算法仅依靠规则的方式容易忽略部分潜在的IPv4

IPv6对。
Robert等人提出了一种主动测量技术,以确定选中的IPv4和IPv6地址服务器是否属于同一台网络设备。同样依据以此,可以构建IPv4

IPv6的关联,仅根据设备指纹技术对设备进行判断,理论上根据设备的类型能更加精确的识别主机,构建更加准确的IPv4

IPv6的关联。
[0006]但是当网络实体定位粒度到园区接入级时,网络实体定位很难继续根据传统的定位方法获取其位置信息,取而代之的是根据网络实体的属性信息加以判断,如若实体为服务器设备类型,可以借助其公共数据集信息判断IDC(互联网数据中心)机房的位置。且IP地址只是在网络中的逻辑字符,网络实体的IP地址并非一成不变,IP地址、位置与网络实体的映射关系会发生变化,不同设备的IP地址变更频率不同,当网络实体是一个物联网设备或者是服务器设备,IP地址稳定性较高,不轻易发生变动,可以作为一个高精度的地标。获取网络实体的设备类型有助于辅助网络实体定位往更高细粒度研究。
[0007]现有的网络实体识别方法如图1所示,网络实体识别主要通过网络探测工具建立与网络实体的联系,通过发送相应的数据包,获取网络实体的返回数据包,提取网络实体的相关属性特征和特征信息字段,再进行相应方法的分类处理。目前网络实体识别主要分为基于规则的方法和基于学习的分类。基于规则的方法主要包括基于指纹库的方法、基于Banner的方法和基于旗标的方法。其中基于指纹库的分类主要通过收集建立相应指纹库,根据返回数据包中含有的相关特征字段信息识别或约束分类设备,准确率较高。基于学习的分类主要包括使用机器学习和深度学习等相关学习方法对网络实体所提取的特征通过嵌入的方式放入模型中学习并分类。这些方法通过集成或分析多源数据集来实现更多有效的分类结果,基于学习的分类方法可以有效地将特征转到高位空间进一步做处理。
[0008]基于规则的方法出现在网络实体的流量交互数据中,用于识别设备的品牌或厂商等信息。基本思路是:通过正则表达式或者自然语言处理技术,分析提取流量中标语信息(生产厂商、设备型号等)作为规则,在进行设备识别时,根据正则表达式匹配目标网络实体。目前大部分网络探测平台,包括Shodan、ZoomEyes、Fofa等主动探测平台都是通过建立与主机的联系,分析文本数据进行基于规则库的识别。但规则提取复杂,且存在网络实体伪造关键词的风险。Feng等人提出了ARE框架,该方法通过主动发动送探测包的方式收集目标的应用层数据并通过正则匹配和NLP技术筛选关键词,然后通过Web搜索这些关键词并进行相应的网络实体其他属性(如:类型、品牌、型号)扩展,构建设备指纹库,之后再利用Apriori算法识别网络实体类型,但该方法在遇到依赖于网络实体反馈的流量字段,若其不包含关键信息,则无法识别。Wan等人提出了DevTag规则库用于对物联网设备的识别,该方法在集合ARE框架的基础上还使用了开源工具Nmap和Ztag,共收集4万多条规则,该方法能在短时间内高精度地获取细粒度的网络实体设备信息。
[0009]基于学习的方法的基本思路是选取训练集节点特征,采用有监督学习、半监督和无监督学习的方式,将节点特征嵌入至模型中,根据已经标注的数据训练出分类模型。陈等人提出基于重传的TCP指纹技术主动识别网络实体,该方法通过选择TCP重传报文的多组特征,增加了传统TCP值的粒度空间,然后采用集成学习的策略,生成了多种机器学习算法的组合分类器,其车联网的识别准确率为96.7%。Aneja.S等人提出基于深度卷积神经网络模型,该方法仅分析数据包的到达时间间隔作为识别特征,通过建立深层次的网络结构用于学习,包括ResNet50层和基本的CNN

5层,实验结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于IP定位的网络实体识别方法,其特征在于,其步骤如下:步骤一、数据处理:提取网络实体的IPv6地址,并获取路径信息得到数据集;对数据集进行特征提取和匿名处理,筛选得到属性特征,将属性特征嵌入至网络拓扑图中;步骤二、子图划分:通过社区聚类方法对网络拓扑图进行社区划分,得到若干个子图;步骤三、注意力权重计算:提取子图中节点的结构信息并计算结构相似度,对子图所有节点进行Transformer计算,计算节点的综合权重注意力;步骤四、节点更新:根据节点间的综合权重注意力选取节点进行聚合更新,输出更新后的节点表示;步骤五、全连接分类:训练Transformer网络,将更新后的节点表示送入分类层,通过预测概率获取设备类别。2.根据权利要求1所述的用于IP定位的网络实体识别方法,其特征在于,所述特征提取为:对所获取的流量数据做分析,对各个属性特征进行分析,选取属于该特征类型的前20%类型作为属性特征;所述属性特征包括:IP地址
‑‑‑
IP、IPv6后缀
‑‑‑
IP
s
、IPv6地址嵌入类型
‑‑‑
IP
a
、端口
‑‑‑
Port、网络层协议
‑‑‑
NP、传输层协议
‑‑‑
TP、应用层协议
‑‑‑
AP、TCP窗口大小
‑‑‑
WS、TTL值
‑‑‑
TTL、漏洞类型
‑‑‑
CVE、ICMPv6速率
‑‑‑
IR、操作系统
‑‑‑
OS;采用GWS

Geo的方式对匿名节点进行同等替换处理,减少网络拓扑结构中匿名节点的数量;对于仍无法匿名处理的节点,采用独热编码处理,将匿名节点的所有特征设置为其他,其特征向量为全0,标签设置为其他设备。3.根据权利要求2所述的用于IP定位的网络实体识别方法,其特征在于,根据路径信息以及路径的连接关系,将路径拆解为两两连接,采用DGLGraph函数构建网络拓扑图;所述网络拓扑图为图G={V,X,E},节点V=v1,v2,

,v
i
,节点的属性特征X=IP,IP
s
,IP
a
,Port,NP,TP,AP,CVE,IR,OS,边集合e
ij
代表节点v
i
与节点v
j
之间的边,en表示矩阵大小;与节点v
i
相邻的邻居节点集合N(v
i
)={u1,u2,

,u
n
,u
i
&v
i
∈V}包括自身节点;图G的临界矩阵A=[a
ij
]为对称矩阵,如果节点v
i
与节点v
j
之间有共同边,元素a
ij
=1,否则元素a
ij
=0。4.根据权利要求1

3中任意一项所述的用于IP定位的网络实体识别方法,其特征在于,所述社区聚类方法为社区划分算法Leiden;所述社区划分算法Leiden计算社区之间的节点和边的关系,在迭代应用时,收敛到一个分区,在该分区中所有社区的所有子集都被局部最优分配,从而产生保证连接的社区;选取模块度来评价社区内节点分组质量好坏,模块度为:其中,mc表示总边数,c表示社区,e
c
表示社区c内部边的数量,D
c
表示社区c节点的度和,γ是分辨率参数:社区内的密度至少为分辨率参数γ,而社区间的密度低于分辨率参数γ。5.根据权利要求4所述的用于IP定位的网络实体识别方法,其特征在于,所述社区聚类方法的聚类步骤为:1)节点的局部移动,每个节点视为一个单独的社区,将单个节点从一个社区移动到另一个社区提高质量函数,以发现划分情况;2)改善划分结果,对节点进行改善,将节点与随机选择的社区合并,增加质量函数;3)基于改善后划分情况凝聚网络,基于未改善时划分情况初始化凝聚后网络;重复以上步骤,直到无法进一步完善。
6.根据权利要求3或5所述的用于IP定位的网络实体识别方法,其特征在于,所述Transformer计算的实现方法为:节点特征向量X=x1,x2,

,x
i
∈R
n
×
d
表示Transformer隐藏层的输入,其中,d为隐藏层的维度,x
i
∈R1×
d

【专利技术属性】
技术研发人员:马照瑞张世城栗娜胡新浩李天傲王宏建冯浩周诗洁张帅威翟亚琦牛鑫宋仕豪王宏张海涛
申请(专利权)人:郑州轻工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1