一种基于大语言模型和对比学习的网络资产所有者识别方法和装置制造方法及图纸

技术编号:42637314 阅读:28 留言:0更新日期:2024-09-06 01:35
本发明专利技术提出一种基于大语言模型和对比学习的网络资产所有者识别方法和装置,属于网络空间测绘技术领域。所述方法包括:根据IP和域名列表,通过域名解析和网络爬虫获取与网络资产相关的数据内容;对与网络资产相关的数据内容进行重写;基于重写的数据内容,通过文本表示模型计算得到网络资产的向量表示,通过数据增强和融合层计算得到所有者的向量表示;通过多层级对比损失函数联合优化网络资产和所有者的向量表示;根据已知信息计算候选所有者的向量表示,同时计算未知所有者的网络资产的向量表示;通过相似性计算或聚类操作确定网络资产的所有者。本发明专利技术通过大语言模型和对比学习实现在特定信息缺失的情况下对网络资产所有者的识别。

【技术实现步骤摘要】

本专利技术属于网络空间测绘,尤其涉及一种基于大语言模型和对比学习的网络资产所有者识别方法和装置


技术介绍

1、在网络空间测绘中,资产所有者识别是网络空间向社会空间映射的重要一环。其旨在根据资产的内容信息、域名或ip信息及相关的注册信息,确定拥有资产的组织或个人。

2、随着网络空间的不断扩大,资产所有者识别在维护网络安全上的作用日益凸显。例如,当有严重漏洞(例如apache log4j)暴露时,可及时通知受影响的资产的所有者,以便及时修补漏洞。当资产出现异常或有害行为时,可及时进行追溯。同时,资产所有者识别也是数据分析的重要组成部分。因此,资产所有者识别得到越来越多的关注。

3、现有网络资产所有者识别的相关工作可分为两类:基于查询的方法和基于命名实体识别的方法。

4、查询公开信息库是明确大规模网络资产所有者的常用方法。通过查询获得域名的注册信息,但网络资产注册者不能等同于所有者。注册信息中的许多组织都是互联网服务提供商或云服务提供商,而不是真正的所有者。此外,公开信息库也存在着信息缺失和加密的情况。</p>

5、因此本文档来自技高网...

【技术保护点】

1.一种基于大语言模型和对比学习的网络资产所有者识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于大语言模型和对比学习的网络资产所有者识别方法,其特征在于,在所述方法中,利用大语言模型Qwen-14b-Chat对与网络资产相关的数据内容进行重写。

3.根据权利要求2所述的一种基于大语言模型和对比学习的网络资产所有者识别方法,其特征在于,在所述方法中,通过字典保存训练集中各个网络资产的历史表示向量,同时设计两个编码器和,其中:用于编码锚资产,保留梯度,通过损失回传的方式更新参数,用于编码锚资产的正负样本资产,不保留梯度,以动量的方式更新参数;两个...

【技术特征摘要】

1.一种基于大语言模型和对比学习的网络资产所有者识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于大语言模型和对比学习的网络资产所有者识别方法,其特征在于,在所述方法中,利用大语言模型qwen-14b-chat对与网络资产相关的数据内容进行重写。

3.根据权利要求2所述的一种基于大语言模型和对比学习的网络资产所有者识别方法,其特征在于,在所述方法中,通过字典保存训练集中各个网络资产的历史表示向量,同时设计两个编码器和,其中:用于编码锚资产,保留梯度,通过损失回传的方式更新参数,用于编码锚资产的正负样本资产,不保留梯度,以动量的方式更新参数;两个编码器和以预训练语言模型roberta作为骨架,具有相同的初始参数;

4.根据权利要求3所述的一种基于大语言模型和对比学习的网络资产所有者识别方法,其特征在于,在所述方法中:

5.根据权利要求4所述的一种基于大语言模型和对比学习的网络资产所有者识别方法,其特征在于,在所述方法中,以动量的方式更新其参数:

6.根据权利要求5所述的一种基于大语言模型和对比学习的网络资产所有者识别方法,其特征在于,在所述方法中,在预测过程中,对于候选的所有者集合:根据各个候选所有者的已知...

【专利技术属性】
技术研发人员:张旻屠铖李阳胡淼施凡马慧敏许成喜
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1