当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于多通道图卷积的恶意域名检测方法及系统技术方案

技术编号:37576488 阅读:18 留言:0更新日期:2023-05-15 07:52
本发明专利技术公开了一种基于多通道图卷积的恶意域名检测方法及系统,涉及网络安全技术领域。所述方法包括:提取DNS解析日志,生成三元组;基于三元组构建域名在多通道空间内的关联关系图;获取完成训练的深度学习网络模型,所述深度学习网络模型包括图卷积神经网络、Attention层和全连接神经网络;根据域名在多通道空间内的关联关系图及域名的向量,基于图卷积神经网络生成域名在多通道空间内的图嵌入向量;将域名的图嵌入向量输入Attention层进行特征选择,将多通道空间内的图嵌入向量聚合为维度相同的单个特征向量序列;将特征向量序列输入全连接神经网络中,得到域名的分类结果。相较于现有技术,本发明专利技术摆脱了对手工设计特征的依赖,提高了检测精度及鲁棒性。提高了检测精度及鲁棒性。提高了检测精度及鲁棒性。

【技术实现步骤摘要】
一种基于多通道图卷积的恶意域名检测方法及系统


[0001]本专利技术涉及网络安全
,更具体地,涉及一种基于多通道图卷积的恶意域名检测方法及系统。

技术介绍

[0002]恶意域名是指被网络攻击者利用发起恶意活动的域名集,每年由恶意域名实施的攻击活动都能给网络用户造成巨大的损失,所以恶意域名的检测成为阻止恶意活动的重要手段。但随着域名伪装躲避技术的不断发展,如何快速有效的检出恶意域名也成为了网络空间安全中一项重要的研究内容。域名黑名单一直以来是封锁恶意域名的有效手段,但随着网络技术及规模的迅速发展,新的域名也层出不穷,更新极快,黑名单面临频繁更新以及时效性严重不足的问题。为了克服传统黑名单技术的不足,同时也随着机器学习技术的发展,基于特征工程及机器学习方法的检测技术被提出。
[0003]在恶意域名检测过程中,通常使用的特征有两种。一种是域名词汇特征,包括:元音字母数、辅音字母数、重复字符数、重复的字符串数等,这是由域名本身的性质所决定的;而恶意域名,比如DGA类域名,是由特定算法生成的随机字符串,本意是为掩盖少数真实用来实施恶意活动的域名,并没有特定的含义,因此很容易从其词汇特征进行识别。另一种特征是域名的查询特征,通常是由DNS(Domain name system)服务器的解析日志或部署于各DNS服务器的数据探测器收集到的被动DNS数据,它们包含了域名的查询信息以及相关记录的详细内容,通常通过他们提取的查询特征有:TTL(缓存记录有效时间)、域名主机信息、用户主机信息、查询时间间隔、规定时间窗口内的查询次数等,这些查询行为信息一定程度上也反映了正常域名及用于恶意活动域名之间的不同之处。在特征提取完成之后,一般使用随机森林、SVM、KNN等经典机器学习算法进行分类,检出恶意域名。该类方法具有检测速度快、算法及模型轻量化等特点,但其分类准确程度直接依赖于手工设计的分类特征,由于不同种类的恶意域名具有明显的特征区别,因此手工设计的特征很难覆盖所有分类信息,该类检测方法是类别敏感的;另外,该类检测方法不考虑域名之间的关联性,而是独立的提取每一个域名的相关特征,再进行域名分类,对其提取的用于分类的特征,攻击者很容易设计出针对性的伪装躲避方案,从而使检测失效。
[0004]恶意域名检测研究领域中另一类重要的方法是图推理方法,它通过域名解析过程中产生的数据构建关联关系图,使用一部分带有标签的恶意域名作为种子进行图推理,从而计算出不带标签域名的恶意可能性。图推理方法的优点是它关注域名之间的全局关联,这种关联关系定义为域名之间的全局相似性,一定程度上反映了恶意活动的聚集特征,因此相比基于特征工程的机器学习方法具有更好的鲁棒性。传统的图推理方法在构建好域名之间的关联关系图后,使用BP(信念传播)算法类进行推理计算,如贝叶斯网络和马尔可夫随机场,它计算每个未知标签节点的边缘分布,条件是任何已知标签的节点,最后使用预设的阈值判定域名是否为恶意域名。该类方法都只关注域名之间的全局关联,而忽略了域名个体上包含的丰富信息,因此在检测准确度上稍显不足;另外由于算法执行依靠图上的关
联关系进行,因此对于不存在关联关系的孤立域名无法进行推理,一般直接丢弃该类域名,造成了很大的安全隐患。

技术实现思路

[0005]本专利技术为克服上述现有技术所述的机器学习方法依赖于手工特征鲁棒性不足、传统图推理算法不关注域名个体特征准确度欠佳的缺陷,提供一种基于多通道图卷积的恶意域名检测方法及系统。
[0006]为解决上述技术问题,本专利技术的技术方案如下:
[0007]第一方面,一种基于多通道图卷积的恶意域名检测方法,包括:
[0008]提取DNS解析日志,生成代表域名、IP、CNAME三类数据关系的三元组,将三元组中的域名和CNAME转化为向量表示;
[0009]基于三元组构建域名在多通道空间内的关联关系图,包括特征关联图和拓扑关联图;
[0010]获取完成训练的深度学习网络模型,所述深度学习网络模型包括与通道空间数量相一致的图卷积神经网络、一个Attention层和一个全连接神经网络;其中,所述图卷积神经网络的输出端与Attention层的输入端相连,所述Attention层的输出端与全连接神经网络的输入端相连;
[0011]根据域名在多通道空间内的关联关系图及域名的向量,基于图卷积神经网络生成域名在多通道空间内的图嵌入向量;所述多通道空间内的图嵌入向量包括域名在特征空间和拓扑空间的图嵌入向量;
[0012]将域名在多通道空间内的图嵌入向量输入Attention层进行特征选择,将多通道空间内的图嵌入向量聚合为维度相同的单个特征向量序列;
[0013]将特征向量序列输入全连接神经网络中,得到域名的分类结果;其中,所述分类结果包括恶性域名类和良性域名类。
[0014]第二方面,一种基于多通道图卷积的恶意域名检测系统,应用第一方面提出的一种基于多通道图卷积的恶意域名检测方法,包括域名提取模块、特征关联图构建模块、拓扑关联图构建模块和多通道图嵌入融合分类模块,所述域名提取模块的输出端分别与特征关联图构建模块和拓扑关联图构建模块的输入端连接,所述特征关联图构建模块和拓扑关联图构建模块的输出端均与多通道图嵌入融合分类模块的输入端连接;
[0015]其中,域名提取模块,用于从DNS解析日志中提取域名及其相关数据,并生成代表域名、IP、CNAME三类数据关系的三元组,还将三元组中的域名和CNAME转化为向量表示;
[0016]特征关联图构建模块,用于基于三元组构建域名在特征空间内的关联关系图,即生成特征关联图;
[0017]拓扑关联图构建模块,用于基于三元组构建域名在拓扑空间内的关联关系图,即生成拓扑关联图;
[0018]多通道图嵌入融合分类模块,其上搭载有完成训练的深度学习网络模型,所述深度学习网络模型包括顺序连接的图卷积神经网络、Attention层和全连接神经网络层,用于分别将特征关联图和拓扑关联图作为深度学习网络模型中不同图卷积神经网络的输入,分别得到域名在不同通道空间内的图嵌入向量,随后将不同通道空间内的图嵌入向量经所述
Attention层聚合为单个特征向量序列,所述特征向量序列作为全连接神经网络层的输入,得到域名的分类结果。
[0019]第三方面,一种计算机存储介质,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如第一方面所述的方法。
[0020]与现有技术相比,本专利技术技术方案的有益效果是:
[0021](1)与传统的机器学习检测方法对比,本专利技术中端到端的深度学习模型的应用避免了复杂的特征工程步骤,可以极大节省人力,提升效率;同时,摆脱了对手工设计特征的依赖,本专利技术所述方法是类型不敏感的,即检测精度不会受到恶意域名种类的影响。
[0022](2)与经典的图推理检测方法对比,本专利技术与经典图推理技术都能有效提取域名之间的全局关联性,但本专利技术通过图卷积技术,在获取域名之间关联性的同时,还将域名的个体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多通道图卷积的恶意域名检测方法,其特征在于,包括:提取DNS解析日志,生成代表域名、IP、CNAME三类数据关系的三元组,将三元组中的域名和CNAME转化为向量表示;基于三元组构建域名在多通道空间内的关联关系图,包括特征关联图和拓扑关联图;获取完成训练的深度学习网络模型,所述深度学习网络模型包括与通道空间数量相一致的图卷积神经网络、一个Attention层和一个全连接神经网络;其中,所述图卷积神经网络的输出端与Attention层的输入端相连,所述Attention层的输出端与全连接神经网络的输入端相连;根据域名在多通道空间内的关联关系图及域名的向量,基于图卷积神经网络生成域名在多通道空间内的图嵌入向量;所述多通道空间内的图嵌入向量包括域名在特征空间和拓扑空间的图嵌入向量;将域名在多通道空间内的图嵌入向量输入Attention层进行特征选择,将多通道空间内的图嵌入向量聚合为维度相同的单个特征向量序列;将特征向量序列输入全连接神经网络中,得到域名的分类结果;其中,所述分类结果包括恶性域名类和良性域名类。2.根据权利要求1所述的一种基于多通道图卷积的恶意域名检测方法,其特征在于,所述提取DNS解析日志,生成代表域名、IP、CNAME三类数据关系的三元组,将三元组中的域名和CNAME转化为向量表示,包括:分割DNS服务器解析记录,从日志中选取A记录类型解析记录,提取日志中出现的域名集、IP集、CNAME集,形成代表三类数据关系的三元组;对所有三元组中的域名和CNAME进行编码,将其转化为向量表示;所述编码的方式为one

hot、n

gram或自动编码。3.根据权利要求1所述的一种基于多通道图卷积的恶意域名检测方法,其特征在于,所述基于三元组构建域名在多通道空间内的关联关系图,包括:提取所有三元组中域名和CNAME作为域名序列,丢弃其中的重复值,以剩余的域名序列作为特征空间内的关联关系图的节点;对于任一域名,采用KNN算法,计算当前域名与其他域名间的距离度量,选取距离最近的预设数量的域名与当前域名构建关联关系,在其间各添加一条边,代表它们之间的相似关系;当所有域名的边均构建完后,输出生成的无向图,完成特征空间内的关联关系图构建,即特征关联图;提取所有三元组中域名和CNAME作为域名序列,丢弃其中的重复值,以剩余的域名序列作为拓扑空间内的关联关系图的节点;对比检查任两个三元组,判断是否存在两个域名解析至同一IP、两个域名解析至同一CNAME、或两个CNAME解析至同一IP:若是,在对应两个三元组的域名或CNAME之间增加一条边;否则,不进行操作;直至检查完所有三元组,输出生成的无向图,完成拓扑空间内的关联关系图的构建,即拓扑关联图。4.根据权利要求3所述的一种基于多通道图卷积的恶意域名检测方法,其特征在于,所述当前域名与其他域名间的距离度量为余弦距离或欧式距离。5.根据权利要求1所述的一种基于多通道图卷积的恶意域名检测方法,其特征在于,所述图卷积神经网络包括第一图卷积神经网络和第二图卷积神经网络,所述根据域名在多通道空间内的关联关系图及域名的向量,基于图卷积神经网络生成域名在多通道空间内的图
嵌入向量,包括:将特征关联图及域名的向量输入第一图卷积神经网络,所述第一图卷积神经网络将特征关联图中节点及其周边节点的特征信息进行聚合,经循环迭代后输出域名在特征空间内的图嵌入向量;将拓扑关联图及域名的向量输入第二图卷积神经网络,所述第二图卷积神经网络将拓扑关联图中节点及其周边节...

【专利技术属性】
技术研发人员:金舒原王亚博
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1