一种DGA域名检测方法、系统、介质、设备及终端技术方案

技术编号:34371371 阅读:36 留言:0更新日期:2022-07-31 11:19
本发明专利技术属于计算机网络技术领域,公开了一种DGA域名检测方法、系统、介质、设备及终端,包括对各类别域名进行配对使用的样本配对规则;用于拟合域名特征空间的包含预处理层、嵌入层、特征提取层及相似度计算层的孪生架构模型Siam

A DGA domain name detection method, system, media, equipment and terminal

【技术实现步骤摘要】
一种DGA域名检测方法、系统、介质、设备及终端


[0001]本专利技术属于计算机网络
,尤其涉及一种DGA域名检测方法、系统、介质、设备及终端。

技术介绍

[0002]目前,在网络空间中,攻击者往往通过木马程序、蠕虫病毒等恶意程序对用户使用的计算机,智能手机等设备进行攻击或控制。用户的设备一旦受控,将沦为被攻击者控制的“僵尸网络”中的一部分。攻击者进而通过互联网发送指令来窃取用户设备内的隐私,或者遥控设备参与到对特定目标服务器的拒绝服务攻击中去。攻击者为了躲避检测和打击,同时也为了使“僵尸网络”通信畅通,使用了域名生成算法(Domain Generation Algorithm,DGA)。该方法使得攻击者不需要在恶意程序中写入攻击者的固定域名信息或者IP地址,而是让部署于僵尸机的恶意程序生成大量的伪域名,尝试去连接这些域名中的全部或部分,而攻击者只需要提前随机注册其中一两个域名,便可恢复与受控设备之间的通信。
[0003]最初,人们通过对DGA伪域名抢先注册或者拉入黑名单来对“僵尸网络”进行打击。首先要提前预测DGA伪域名需要对DGA算法进行逆向工程,繁琐复杂,其次随着DGA生成域名数量及速率的大幅上升,无论是对伪域名进行抢先注册还是拉入黑名单都已经行不通了。根据检测原理,目前主流DGA域名检测方法大致分为三类。首先是基于分析与统计的方法:如根据DGA攻击时需要不断进行DNS查询的特点,受害主机会收到大量不存在域(NXDomain)的回应报文,同一僵尸网络将产生具有相同特征的DNS流量。还有根据DNS请求和响应的长度比,结合检测客户端不常用的查询记录,来区分恶意数据与正常流量。其次是传统机器学习算法结合特征工程的方法:针对合法域名与DGA域名自身的特征,包括熵值,n

gram值、词根、词缀、拼音及缩写特征、元辅音分布等可读性特征等再结合主流的诸如K

means、SVM、随机森林、XGBoost等机器学习算法来区分正常域名和DGA域名。最后是基于深度学习模型的方法:引入诸如CNN、RNN、LSTM等网络模型通过训练一个深度学习分类器来进行DGA检测。但是当前攻击手段逐渐与大数据及人工智能等新技术结合并不断更新迭代,上述三类方法均无法应对变种DGA家族及那些与合法域名特征愈发相似的DGA域名;且在现实复杂网络环境下,上述三类方法亦无法解决“海量存在的特征分布广泛的正常合法域名”与“特征分布不均衡样本获取困难的DGA各家族域名”之间存在的极度类不平衡现象及小样本学习要求。
[0004]通过上述分析,现有技术存在的问题及缺陷为:
[0005](1)当前攻击手段逐渐与大数据及人工智能等新技术结合不断更新迭代,现有方法均无法应对变种DGA家族及那些与合法域名特征愈发相似的DGA域名。
[0006](2)在现实复杂网络环境下,现有方法亦无法解决“海量存在的特征分布广泛的正常合法域名”与“特征分布不均衡样本获取困难的DGA各家族域名”之间存在的极度类不平衡现象及小样本学习要求。

技术实现思路

[0007]针对传统DGA检测方法中存在的问题,本专利技术提供了一种DGA域名检测方法、系统、介质、设备及终端,尤其涉及一种基于孪生架构的DGA域名检测方法、系统、介质、设备及终端。
[0008]本专利技术是这样实现的,一种DGA域名检测方法,所述DGA域名检测方法对收集到的域名数据进行标记整理,并对正常域名及各个DGA家族域名按样本配对规则进行配对;建立基于孪生架构的学习模型Siam

BLA,并将配对数据逐对输入模型Siam

BLA;训练基于孪生架构的分类学习模型,拆分基于孪生架构的分类学习模型,得到特征提取网络BLA与相似性度量函数Weighted

v&d;按照参考向量生成规则生成各个类别的参考向量;将捕获的待测域名输入特征提取网络BLA,得到待测域名的特征向量;构建孪生架构多分类及未知类识别算法,并根据多分类预测算法对待测域名的特征向量进行分类识别。
[0009]进一步,所述DGA域名检测方法包括以下步骤:
[0010]步骤一,对收集到的包含正常域名与DGA各类别域名的样本使用孪生架构样本配对规则进行域名配对;
[0011]步骤二,建立用于训练拟合域名复杂特征空间的基于孪生架构的学习模型Siam

BLA,其中包括预处理层、嵌入层、特征提取层及相似度计算层;
[0012]步骤三,将配对完毕的域名二元组逐对输入学习模型Siam

BLA进行模型训练后,将模型拆分得到用于提取域名特征的特征提取网络BLA及用于对两个域名样本进行相似性度量的相似性度量模块Weighted

v&d;
[0013]步骤四,在模型应用前,将模型训练过程中的各个域名类别计算对应的参考向量;
[0014]步骤五,将现网捕获的待测域名使用所述多分类预测算法进行判断,判断结果包括是否为DGA域名、所属DGA类别及是否为未知类域名。
[0015]进一步,所述步骤一中,引入样本和同类其他样本间进行配对的数量与该类别样本总数的比值作为配对系数,按满足孪生架构双输入训练机制下同异类样本训练的平衡性及克服DGA域名与正常域名极度类不平衡现象的要求进行域名配对。
[0016]进一步,所述步骤二中的基于孪生架构的学习模型Siam

BLA为双路并行权值共享结构,存在左右两个输入两路并行且权值共享的特征提取网络,包括预处理层、嵌入层、特征提取层以及相似性计算层。
[0017]其中,所述预处理层,用于对输入域名进行填充与截取为统一长度;嵌入层,用于对域名字符串进行向量化及将域名字符序列使用独热编码结合word embedding的方法建立词向量;特征提取层,用于使用BiLSTM结构对输入的域名词向量进行前序与后序两种方向的特征进行提取,同时使用注意力机制对各部位的特征进行重要性评估最终输出域名的特征向量;相似性计算层,用于将两个输入的特征向量进行综合的相似性度量并将值输出,具体包括:
[0018]将输入的域名字符串通过填充截取操作统一为固定大小,且根据域名合法字符及填充字符和非法字符形成对域名字符到数字的映射,从而将域名字符串预处理为统一长度的一维向量;
[0019]将一维向量通过独热编码结合word embedding的方式转化为二维非稀疏向量;
[0020]使用BiLSTM结合注意力机制的网络结构,融合域名前向和后向两种时序的特征,
对BiLSTM最后时序进行加权求和作为注意力分布值,使域名“单词级”的样本特征强化为“句子级”的概括性更强的更精准的样本特征。
[0021]进一步,所述步骤三中,结合孪生架构损失函数,综合考虑域名特征向量、各种距离度量函数及域名原始字符集合之间的关系,提出相似性度量模块Weighted

v&d;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种DGA域名检测方法,其特征在于,所述DGA域名检测方法包括:对收集到的域名数据进行标记整理,并对正常域名及各个DGA家族域名按样本配对规则进行配对;建立基于孪生架构的学习模型Siam

BLA,并将配对数据逐对输入模型Siam

BLA;训练基于孪生架构的分类学习模型,拆分基于孪生架构的分类学习模型,得到特征提取网络BLA与相似性度量函数Weighted

v&d;按照参考向量生成规则生成各个类别的参考向量;将捕获的待测域名输入特征提取网络BLA,得到待测域名的特征向量;构建孪生架构多分类及未知类识别算法,并根据多分类预测算法对待测域名的特征向量进行分类识别。2.如权利要求1所述DGA域名检测方法,其特征在于,所述DGA域名检测方法包括以下步骤:步骤一,对收集到的包含正常域名与DGA各类别域名的样本使用孪生架构样本配对规则进行域名配对;步骤二,建立用于训练拟合域名复杂特征空间的基于孪生架构的学习模型Siam

BLA,其中包括预处理层、嵌入层、特征提取层及相似度计算层;步骤三,将配对完毕的域名二元组逐对输入学习模型Siam

BLA进行模型训练后,将模型拆分得到用于提取域名特征的特征提取网络BLA及用于对两个域名样本进行相似性度量的相似性度量模块Weighted

v&d;步骤四,在模型应用前,将模型训练过程中的各个域名类别计算对应的参考向量;步骤五,将现网捕获的待测域名使用所述多分类预测算法进行判断,判断结果包括是否为DGA域名、所属DGA类别及是否为未知类域名。3.如权利要求2所述DGA域名检测方法,其特征在于,所述步骤一中,引入样本和同类其他样本间进行配对的数量与类别样本总数的比值作为配对系数,按满足孪生架构双输入训练机制下同异类样本训练的平衡性及克服DGA域名与正常域名极度类不平衡现象的要求进行域名配对。4.如权利要求2所述DGA域名检测方法,其特征在于,所述步骤二中的基于孪生架构的学习模型Siam

BLA为双路并行权值共享结构,存在左右两个输入两路并行且权值共享的特征提取网络,包括预处理层、嵌入层、特征提取层以及相似性计算层;其中,所述预处理层,用于对输入域名进行填充与截取为统一长度;嵌入层,用于对域名字符串进行向量化及将域名字符序列使用独热编码结合word embedding的方法建立词向量;特征提取层,用于使用BiLSTM结构对输入的域名词向量进行前序与后序两种方向的特征进行提取,同时使用注意力机制对各部位的特征进行重要性评估最终输出域名的特征向量;相似性计算层,用于将两个输入的特征向量进行综合的相似性度量并将值输出,具体包括:将输入的域名字符串通过填充截取操作统一为固定大小,且根据域名合法字符及填充字符和非法字符形成对域名字符到数字的映射,从而将域名字符串预处理为统一长度的一维向量;将一维向量通过独热编码结合word embedding的方式转化为二维非稀疏向量;使用BiLSTM结合注意力机制的网络结构,融合域名前向和后向两种时序的特征,对BiLSTM最后时序进行加权求和作为注意力分布值,使域名“单词级”的样本特征强化为“句子级”的样本特征。
5.如权利要求2所述DGA域名检测方法,其特征在于,所述步骤三中,结合孪生架构损失函数,综合考虑域名特征向量、各种距离度量函数及域名原始字符集合之间的关系,提出相似性度量模块Weighted

...

【专利技术属性】
技术研发人员:付玉龙弓弛李智华
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1