网站特征向量提取、网站归属判断模型的训练方法及装置制造方法及图纸

技术编号:36952460 阅读:47 留言:0更新日期:2023-03-22 19:13
本发明专利技术提供了一种网站特征向量提取、网站归属判断模型的训练方法及装置,应用于人工智能技术领域,该方法通过获取目标企业的第一网站列表,再根据筛选条件对第一网站列表进行筛选,确定第二网站列表;然后根据第二网站列表,对第一网站列表中用IP地址标识的网站进行特征提取,根据线性函数对提取的特征进行处理,确定用IP地址标识的网站的特征向量。其中,第一网站列表中的网站为与目标企业相关的网站,第二网站列表中的网站为属于目标企业的网站,筛选条件包括如下一项或多项:域名、全网证书信息、ICP备案信息、或ASN信息。本发明专利技术可以快速处理企业的网站资产数据,准确的得到用于网站归属判断模型训练的数据,提高模型训练的效率和准确率。和准确率。和准确率。

【技术实现步骤摘要】
网站特征向量提取、网站归属判断模型的训练方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种网站特征向量提取、网站归属判断模型的训练、网站归属判断方法、装置、电子设备及存储介质。

技术介绍

[0002]随着网络安全技术的不断推广,政府及企业越来越重视自身的网络资产是否安全,除了使用防火墙、防病毒、WAF等常规防御手段外,主动防御的思想也在逐渐普及。所谓主动防御即从攻击者的视角来审视自身网络资产是否存在安全风险。而对于攻击者来说,评估目标企业网络资产风险最重要的是信息收集,在互联网上尽可能全面地找到目标企业所拥有的网站资产后,针对发现的网站资产进行安全测试。因此如何较为快速、准确地判定网站的归属,就成为一个不得不考虑的问题。

技术实现思路

[0003]本专利技术提供了一种网站特征向量提取、网站归属判断模型的训练、网站归属判断方法、装置、电子设备及存储介质,可以快速的处理企业的网站资产数据,准确、真实地得到用于网站归属判断模型训练的数据,提高模型训练的效率和准确率。
[0004]第一方面,本专利技术的实施例提本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网站特征向量提取方法,其特征在于,包括:获取目标企业的第一网站列表;所述第一网站列表中的网站为与所述目标企业相关的网站;根据筛选条件对所述第一网站列表进行筛选,确定第二网站列表;所述筛选条件包括如下一项或多项:域名、全网证书信息、I CP备案信息或ASN信息,所述第二网站列表中的网站为属于所述目标企业的网站;根据所述第二网站列表,对所述第一网站列表中用I P地址标识的网站进行特征提取;根据线性函数对提取的特征进行处理,确定所述第一网站列表中用I P地址标识的网站的特征向量。2.根据权利要求1所述的网站特征向量提取方法,其特征在于,所述获取目标企业的第一网站列表,包括:根据所述目标企业的I CP备案信息和全网证书信息,获取所述目标企业的一级域名列表;获取所述一级域名列表中一级域名的子域名;根据所述子域名和所述目标企业的ASN信息,确定所述目标企业的I P地址段;根据所述I P地址段和所述子域名进行网址的拓展;根据拓展后的网址进行web应用发现,确定所述目标企业的第一网站列表。3.根据权利要求1所述的网站特征向量提取方法,其特征在于,所述根据所述第二网站列表,对所述第一网站列表中用IP地址标识的网站进行特征提取,包括:确定所述用IP地址标识的网站的页面中关键词数量;所述关键词包括所述目标企业的名称;确定在所述第二网站列表中,与所述用IP地址标识的网站的IP所在网段相同的网站数量;确定在所述第二网站列表中,与所述用IP地址标识的网站使用的图标相同的网站数量;确定在所述第二网站列表中,与所述用IP地址标识的网站的HTTP响应头中服务信息相同的网站数量。4.基于权利要求1所述网站特征向量提取方法的一种网站归属判断模型的训练方法,其特征在于,包括:多次执行所述网站特征向量提取方法,得到训练样本;为所述训练样本设置标签;所述标签用于标识网站是否属于所述目标企业;使用设置有标签的训练样本训练网站归属判断模型。5.基于权利要求1所述网站特征向量提取方法的一种网站归属判断方法,其特征在于,包括:获取待判断归属的网站和待判定网站归属的目标企业;根...

【专利技术属性】
技术研发人员:于超蒋佳良王宇
申请(专利权)人:北京零零信安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1