System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 恶意域名识别模型的训练方法以及恶意域名识别方法技术_技高网

恶意域名识别模型的训练方法以及恶意域名识别方法技术

技术编号:40675076 阅读:4 留言:0更新日期:2024-03-18 19:12
本发明专利技术提供一种恶意域名识别模型的训练方法以及恶意域名识别方法,所述识别方法包括:将待识别域名与已知恶意域名集中的每一域名分别组成识别域名对;将域名对输入至训练好的基于BERT模型的恶意域名识别模型中,所述识别模型输出所述识别域名对的预测相似度;若识别域名对的预测相似度大于预设阈值,则确定所述待识别域名为恶意域名。本发明专利技术的基于BERT模型的恶意域名识别模型充分挖掘了DNS流量中包含的信息,有效结合了域名的文本特征和交互行为的特征,将域名二分类问题转换为预测域名之间的相似度问题,基于该识别模型的识别方法解决了分类器方法在样本不平衡场景下表现不佳的问题,实现了识别结果更准确、识别应用场景更广的效果。

【技术实现步骤摘要】

本专利技术涉及网络服务安全以及域名识别,具体来说,涉及恶意域名识别模型的训练方法以及恶意域名识别方法


技术介绍

1、随着近年来互联网相关技术的高速发展,互联网应用迅速普及,互联网用户规模也持续扩大。随之而来的是网络空间恶意活动的持续增加,网络安全面临的挑战日益严峻。域名解析系统(domain name system,dns)是实现域名与ip地址间相互映射的关键组件。如今大多数应用程序和互联网服务都与域名解析系统密不可分,dns成为互联网的重要基础设施的同时,恶意域名也成为各种网络攻击的关键组成部分。互联网的安全与域名服务安全息息相关。通过滥用恶意域名,可以有效混淆服务器位置,也可以作为命令和控制的隐蔽通道。因此恶意域名被广泛应用于钓鱼、僵尸网络、垃圾邮件等网络攻击中。如果能够及时识别一个域名是否为恶意域名,dns服务器或者网络管理员就可以拒绝dns解析服务或通过其他有效手段,及时阻断恶意通信,遏制网络攻击行为,从而减小网络的安全威胁,降低用户的潜在损失。

2、现有的恶意域名方法主要分为基于分类的方法和基于关联的方法。在基于分类的方法中,基于经验人工挑选的特征构建分类器,比如域名文本字符的统计特征、域名的语义学特征等;但攻击者可以通过修改域名字符分布、ttl值等方式,直接影响分类器的分类结果,从而绕过检测。对此,现有技术提出了基于深度学习神经网络的方法来提取域名的深层特征,该类方法通过训练数据调整分类器的参数,但是若训练数据存在类别不平衡的情况,分类器的性能容易受到影响,在恶意域名的比例远低于良性域名的大多数实际场景中表现不佳。在基于关联的方法中,是根据恶意域名在客户端查询行为或网络资源分布方面的相关性来通过已知恶意域名来识别未知恶意域名;但该类方法没有关注域名在文本上的关联性,且现有的学习领域语言特征的模型仅在域名集上进行训练,没有使用外部文本语料库。

3、所以当下需要一种能够有效识别恶意域名的识别模型以及识别方法。


技术实现思路

1、为了解决上述问题,本专利技术结合分类识别思想和关联识别思想,提供了恶意域名识别模型的训练方法以及恶意域名识别方法。

2、根据第一方面,本专利技术实施例提供一种基于bert模型的恶意域名识别模型的训练方法,包括:将所述训练域名集中的每一训练域名与所述训练域名集中的其他训练域名分别组成训练域名对;所述训练域名集中包含多个用于训练的域名;针对每一所述训练域名对:根据所述训练域名对利用预训练的bert模型,计算所述训练域名对的域名文本相似度;根据dns流量,计算所述训练域名对的域名交互相似度;根据所述域名文本相似度和所述域名交互相似度计算损失函数,并根据所述损失函数调整所述bert模型中的参数;重复上述过程,直至遍历所述训练域名集,得到基于bert模型的恶意域名识别模型。

3、优选的,所述根据所述训练域名对利用预训练的bert模型,计算所述训练域名对的域名文本相似度,包括:将所述训练域名对中的两个训练域名,分别输入至预训练的bert模型中,得到所述训练域名的文本表示向量;根据所述训练域名的文本表示向量,计算余弦相似度;将所述余弦相似度作为所述训练域名对中的两个训练域名的域名文本相似度。

4、优选的,所述根据dns流量计算所述训练域名对的域名交互相似度,包括:根据dns流量构建包含客户端、域名、ip三种节点以及查询、映射、别名三种边的异构图;利用重启随机游走算法,基于所述异构图确定所述训练域名对中的第一训练域名的采样邻居序列;将所述训练域名对中的第二训练域名在所述采样邻居序列中出现的次数,作为第一次数;确定在所述采样邻居序列中出现次数最多的邻居节点,将所述邻居节点出现的次数作为第二次数;根据所述第一次数和所述第二次数,确定所述训练域名对的域名交互相似度。

5、优选的,所述利用重启随机游走算法,基于所述异构图确定所述训练域名对中的第一训练域名的采样邻居序列,包括:根据所述异构图,确定元路径;所述元路径表示所述异构图中两个域名节点之间不同关系路径;利用重启随机游走算法,基于指定元路径为所述第一训练域名采集邻居节点,并将所述邻居节点组成所述第一训练域名的采样邻居序列;其中,所述指定元路径为以所述第一训练域名的节点为起始节点的元路径。

6、优选的,所述利用重启随机游走算法,基于指定元路径为所述第一训练域名采集设定数量的邻居节点,并将所述邻居节点组成所述第一训练域名的采样邻居序列,包括:以所述第一训练域名的节点为起始节点,每一步有第一预设概率到达当前节点在指定元路径上的直接邻居节点,并以该邻居节点为当前节点继续执行相同的步骤;或每一步有第二预设概率回到起始节点,并以起始节点为当前节点继续执行相同的步骤;把当前节点记为采样邻居节点,直到在所述指定元路径上采集预设数量的采样邻居节点;完成在所有指定元路径上的采样后,采集到的所有采样邻居节点组成该域名节点的采样邻居序列。

7、优选的,所述根据所述异构图确定元路径之前,包括:剔除所述异构图中不积极的客户端节点、太受欢迎的域名节点、不常定位的ip节点;其中,所述不积极的客户端节点指请求查询域名少于第一设定数量的客户端节点;所述太受欢迎的域名节点指被超过第二设定数量的客户端主机查询的域名节点;所述不常定位的ip节点指被第三设定数量的域名节点解析到的ip节点。

8、优选的,所述元路径包括:域名-域名元路径、域名-客户端-域名元路径以及域名-ip-域名元路径。

9、优选的,所述训练域名集和所述测试域名集中域名数量比例为8:2;所述训练域名集和所述测试域名集中不需要限定正负样本的比例。

10、根据第二方面,本专利技术实施例提供一种基于bert模型的恶意域名识别方法,包括:将待识别域名与已知恶意域名集中的每一域名分别组成识别域名对;将所述域名对输入至第一方面中任一基于bert模型的恶意域名识别模型中,所述识别模型输出所述识别域名对的预测相似度;根据所述识别域名对的预测相似度,确定所述待识别域名是否为恶意域名。

11、优选的,根据所述识别域名对的预测相似度,确定所述待识别域名是否为恶意域名,包括:若所述识别域名对的预测相似度大于预设阈值,则确定所述待识别域名为恶意域名;其中,所述预设阈值的取值范围为0.5-0.9。

12、与现有技术相比,本专利技术的优点在于:

13、本专利技术充分挖掘了dns流量中包含的信息,有效利用了域名的文本特征和交互行为的特征,结合了分类识别思想和关联识别思想,将域名二分类问题转换为预测域名之间的相似度问题,从而解决了分类器方法在样本不平衡场景下表现不佳的问题,实现了识别结果更准确、识别应用场景更广的效果。

本文档来自技高网...

【技术保护点】

1.一种基于BERT模型的恶意域名识别模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述训练域名对利用预训练的BERT模型,计算所述训练域名对的域名文本相似度,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据DNS流量计算所述训练域名对的域名交互相似度,包括:

4.根据权利要求3所述的方法,其特征在于,所述利用重启随机游走算法,基于所述异构图确定所述训练域名对中的第一训练域名的采样邻居序列,包括:

5.根据权利要求4所述的方法,其特征在于,所述利用重启随机游走算法,基于指定元路径为所述第一训练域名采集设定数量的邻居节点,并将所述邻居节点组成所述第一训练域名的采样邻居序列,包括:

6.根据权利要求4所述的方法,其特征在于,所述根据所述异构图确定元路径之前,包括:剔除所述异构图中不积极的客户端节点、太受欢迎的域名节点、不常定位的IP节点;

7.根据权利要求4所述的方法,其特征在于,所述元路径包括:域名-域名元路径、域名-客户端-域名元路径以及域名-IP-域名元路径

8.根据权利要求1所述的方法,其特征在于,所述训练域名集和所述测试域名集中域名数量比例为8:2;所述训练域名集和所述测试域名集中不需要限定正负样本的比例。

9.一种基于BERT模型的恶意域名识别方法,其特征在于,包括:

10.根据权利要求9所述的方法,其特征在于,根据所述识别域名对的预测相似度,确定所述待识别域名是否为恶意域名,包括:

...

【技术特征摘要】

1.一种基于bert模型的恶意域名识别模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述训练域名对利用预训练的bert模型,计算所述训练域名对的域名文本相似度,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据dns流量计算所述训练域名对的域名交互相似度,包括:

4.根据权利要求3所述的方法,其特征在于,所述利用重启随机游走算法,基于所述异构图确定所述训练域名对中的第一训练域名的采样邻居序列,包括:

5.根据权利要求4所述的方法,其特征在于,所述利用重启随机游走算法,基于指定元路径为所述第一训练域名采集设定数量的邻居节点,并将所述邻居节点组成所述第一训练域名的采样邻居序列,包括:

【专利技术属性】
技术研发人员:田语李振宇
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1