一种正负样本比例不平衡条件下的DGA域名检测方法技术

技术编号:37967244 阅读:5 留言:0更新日期:2023-06-30 09:42
本发明专利技术提供了一种正负样本比例不平衡条件下的DGA域名检测方法,涉及网络安全技术领域,包括:获取正样本的DGA域名数据与负样本的Alexa合法域名数据;对域名数据预处理得到训练集;构建损失敏感注意力BiLSTM分类模型;将训练集中的数据输入损失敏感注意力BiLSTM分类模型进行训练;获取待检测域名,将待检测域名输入已经训练好的损失敏感注意力BiLSTM分类模型,得到待检测域名属于DGA域名的概率。本发明专利技术使用代价敏感类损失函数FocalLoss替代传统交叉熵损失函数,并引入自注意力机制,设计了损失敏感注意力BiLSTM分类模型,可以在正负样本比例不平衡条件下对DGA域名进行有效识别。别。别。

【技术实现步骤摘要】
一种正负样本比例不平衡条件下的DGA域名检测方法


[0001]本专利技术涉及互联网网络安全
,尤其涉及一种正负样本比例不平衡条件下的DGA域名检测方法。

技术介绍

[0002]恶意攻击者通常使用木马或僵尸程序来感染主机并组建僵尸网络,为后续开展DDoS攻击、APT窃密攻击等恶意行为创造有利条件,为了控制僵尸网络,攻击者通常使用域名生成算法快速产生大量域名,并根据实际需求在域名服务商处注册其中某些域名,在利用僵尸网络发动攻击时,木马程序将根据事先设定好的算法查询DGA域名来找到与控制服务器相对应的IP地址进而建立通信信道。实践证明,利用上述方式可以有效避开安全设备的追踪拦截,大幅提升安全研究人员的阻断代价,因此对于DGA域名的检测、追踪以及封堵技术的研究成为当前网络安全领域的热点课题。
[0003]以采用的技术来划分,DGA域名的检测工作主要经历了基于逆向过程的分析检测、基于机器学习技术的检测和基于深度学习技术的检测三个阶段。2016年,Woodbridge等人率先将长短期记忆(Long Short

TermMemory,LSTM)网络应用于GDA域名检测,该模型利用LSTM层自动化提取字符词向量中的时序特征,在检测效率和精确率、召回率等指标方面明显优于基于统计特征和字符分布特征的隐马尔可夫模型和随机森林模型。Qiao等人将全局注意力机制与LSTM网络相结合用于DGA域名的检测,在数量较少的DGA域名样本上相较于对比模型有着不错的检测效果。此外,还有很多基于LSTM网络的变种模型被用于DGA域名的检测任务。
[0004]当前针对DGA域名的检测技术已经实现了检测流程自动化,而且检测结果也有着较高的准确率,但是也面临着诸多新的挑战,具体表现为现有模型在网络搭建和选择算法的时候并没有充分考虑正常网络流量中DGA域名与合法域名正负样本比例不平衡的问题,这将导致训练好的模型在真实的网络流量和训练数据上的表现有着明显差距。

技术实现思路

[0005]本专利技术提供了一种正负样本比例不平衡条件下的DGA域名检测方法,目的是为了解决现有技术中存在的缺点。
[0006]为了实现上述目的,本专利技术提供如下技术方案:一种正负样本比例不平衡条件下的DGA域名检测方法,包括如下步骤:
[0007]获取正样本的DGA域名数据与负样本的Alexa合法域名数据;
[0008]将所述DGA域名数据与Alexa合法域名数据进行预处理,并将预处理好的域名字符串按不同比例随机划分得到数据集;
[0009]构建损失敏感注意力BiLSTM分类模型;
[0010]将数据集中的数据输入损失敏感注意力BiLSTM分类模型进行训练;
[0011]获取待检测域名,将待检测域名输入训练好的损失敏感注意力BiLSTM分类模型,
得到待检测域名属于DGA域名的概率;
[0012]所述损失敏感注意力BiLSTM分类模型在BiLSTM网络的基础上使用代价敏感类函数Focal Loss作为损失函数,同时引入自注意力机制设计,模型结构包括输入层、词嵌入层、BiLSTM层、Dropout层、全连接层与输出层。
[0013]优选的,对所述DGA域名数据与Alexa合法域名数据进行预处理,包括如下步骤:
[0014]去除DGA域名数据与Alexa合法域名数据中的一级域名和二级域名,只保留域名字符串;
[0015]利用域名字符串中的元素构建字典D;
[0016]选取固定值L作为所有域名字符串的统一长度值,在编码时对于长度大于L的只截取前L个字符,若长度不足L个字符则用数字0进行填充;
[0017]利用字典D对所有域名字符串进行编码处理,最终得到一个向量矩阵。
[0018]优选的,将预处理好的域名字符串按不同比例随机划分得到数据集,包括如下步骤:
[0019]使用预处理完毕的DGA域名字符串和Alexa合法域名字符串构建各自的样本库;
[0020]从DGA域名样本库、Alexa合法域名样本库中分别按照1:50、1:100、1:150、1:200不同的比例随机抽取相应的样本,来生成四组数据量均为30万条的实验所需数据集;
[0021]按照8:1:1的比例将每组数据集划分为训练集、验证集和测试集。
[0022]优选的,所述构建损失敏感注意力BiLSTM分类模型,具体包括如下步骤:
[0023]在BiLSTM网络中增加注意力机制,在网络每次更新状态时都会重新读取一遍之前所有时刻的状态并记录在上下文向量c
i
中,降低长距离依赖序列中有效信息被遗忘的概率,提升模型整体表现;
[0024]通过将代价敏感类损失函数Focal Loss作为BiLSTM网络的损失函数,解决数据集中正负样本比例不平衡的问题。
[0025]优选的,所述通过将代价敏感类损失函数Focal Loss作为BiLSTM网络的损失函数,解决数据集中正负样本比例不平衡的问题,具体包括如下步骤:
[0026]以标准交叉熵损失函数为基础构建Focal Loss损失函数,构建过程如下:
[0027]以二分类为例,交叉熵损失函数表达式为:
[0028][0029]其中,表示模型的预测值,样本的真实标签为y∈{0,1},为了便于表示,做如下变换:
[0030][0031]因此,交叉熵损失函数可表示为:
[0032][0033]在交叉熵损失函数中引入权重因子α来解决正负类样本比例之间不平衡的问题,取值范围为[0,1];
[0034]CE(p)=

αlog(p)
[0035]增加参数γ解决易分类样本和复杂样本之间的不平衡问题,取值范围为[0,5];
[0036]CE(p)=

(1

p)
γ
log(p)
[0037]将上述两式合并后得到Focal Loss损失函数的表达式:
[0038]FL(p)=

α(1

p)
γ
log(p)
[0039]带入参数p后得到Focal Loss损失函数的最终形式为:
[0040][0041]其中,CE表示交叉熵损失函数,FL表示Focal Loss损失函数,p表示样本预测值为正类的概率,表示样本预测标签值,y表示样本的真实标签值,α、γ均为Focal Loss损失函数的超参数。
[0042]优选的,所述将训练集中的数据输入损失敏感注意力BiLSTM分类模型进行训练,包括如下步骤:
[0043]所述训练集中通过输入层通过独热编码构建n*y维向量;
[0044]将n*y维向量输入x维的词嵌入层,获得n*x维的向量;
[0045]设模型初始学习率为0.001,采用自适应矩估计优化算法更新网络的权重;
[0046]通过BiLSTM层提取域名序列中的特征,输出n*隐藏神本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种正负样本比例不平衡条件下的DGA域名检测方法,其特征在于,包括如下步骤:获取正样本的DGA域名数据与负样本的Alexa合法域名数据;对所述DGA域名数据与Alexa合法域名数据进行预处理,并将预处理好的域名字符串按不同比例随机划分得到数据集;构建损失敏感注意力BiLSTM分类模型;将数据集中的数据输入损失敏感注意力BiLSTM分类模型进行训练;获取待检测域名,将待检测域名输入训练好的损失敏感注意力BiLSTM分类模型,得到待检测域名属于DGA域名的概率;所述损失敏感注意力BiLSTM分类模型在BiLSTM网络的基础上使用代价敏感类函数FocalLoss作为损失函数,同时引入自注意力机制设计,模型结构包括输入层、词嵌入层、BiLSTM层、Dropout层、全连接层与输出层。2.如权利要求1所述的一种正负样本比例不平衡条件下的DGA域名检测方法,其特征在于,对所述DGA域名数据与Alexa合法域名数据进行预处理,包括如下步骤:去除DGA域名数据与Alexa合法域名数据中的一级域名和二级域名,只保留域名字符串;利用域名字符串中的元素构建字典D;选取固定值L作为所有域名字符串的统一长度值,在编码时对于长度大于L的只截取前L个字符,若长度不足L个字符则用数字0进行填充;利用字典D对所有域名字符串进行编码处理,最终得到一个向量矩阵。3.如权利要求2所述的一种正负样本比例不平衡条件下的DGA域名检测方法,其特征在于,将预处理好的域名字符串按不同比例随机划分得到数据集,包括如下步骤:使用预处理完毕的DGA域名字符串和Alexa合法域名字符串构建各自的样本库;从DGA域名样本库、Alexa合法域名样本库中分别按照1:50、1:100、1:150、1:200不同的比例随机抽取相应的样本,来生成四组数据量均为30万条的实验所需数据集;按照8:1:1的比例将每组数据集划分为训练集、验证集和测试集。4.如权利要求1所述的一种正负样本比例不平衡条件下的DGA域名检测方法,其特征在于,所述构建损失敏感注意力BiLSTM分类模型,具体包括如下步骤:在BiLSTM网络中增加注意力机制,在网络每次更新状态时都会重新读取一遍之前所有时刻的状态并记录在上下文向量c
i
中,降低长距离依赖序列中有效信息被遗忘的概率,提升模型整体表现;通过将代价敏感类损失函数Focal Loss作为BiLSTM网络的损失函数,解决数据集中正负样本比例不平衡的问题。5.如权利要求4所述的一种正负样本比例不平衡条件下的DGA域名检测方法,其特征在于,所述通过将代价敏感类损失函数FocalLoss作为BiLSTM网络的损失函数,解决数据集中正负样本比例不平衡的问题,具体包括如下步骤:以标准交叉熵损失函数为基础构建FocalLoss损失函数,构建过程如下:以二分类为例,交叉熵损失函数表达式为:
其中,表示模型的预测值,样本的真实标签为y∈{0,1},为了便于表示,做如下变换:因此,交叉熵损失函数可表示为:在交叉熵损失函数中引入权重因子α来解决正负类样本比例之间不平衡的问题,取值范围为[0,1]...

【专利技术属性】
技术研发人员:马旭琦刘伟山杨恒骁
申请(专利权)人:国家计算机网络与信息安全管理中心甘肃分中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1