一种DGA域名的检测方法、系统及装置制造方法及图纸

技术编号:28770194 阅读:22 留言:0更新日期:2021-06-09 10:56
本发明专利技术公开了一种DGA域名的检测方法、系统及装置,其中,所述方法包括:获取域名白名单样本,并提取所述域名白名单样本的词嵌入特征;将所述词嵌入特征编码为中间特征,并将所述中间特征解码为输出特征;比较所述词嵌入特征和所述输出特征,并根据对比结果对编码和解码的过程进行校正,以通过校正后的编码和解码的过程,检测目标域名是否为DGA域名。本申请提供的技术方案,能够提高DGA域名的检测精度。能够提高DGA域名的检测精度。能够提高DGA域名的检测精度。

【技术实现步骤摘要】
一种DGA域名的检测方法、系统及装置


[0001]本专利技术涉及互联网
,特别涉及一种DGA域名的检测方法、系统及装置。

技术介绍

[0002]随着互联网技术的不断发展,网络安全问题也日益突出。目前,通过DGA(Domain Generation Algorithm,域名生成算法)可以快速地生成大量的DGA域名,通过DGA域名可以构建鲁棒性较好的僵尸网络。攻击者利用僵尸网络,可以向网络中的设备发起网络攻击。
[0003]由于DGA域名可以快速地投入使用,并且可以快速地被废弃,因此通过黑名单的方式来规避DGA域名的攻击往往效果不佳。目前业内通常利用机器学习的方式,对大量的正常域名和DGA域名进行学习,从而能够检测出正常域名和DGA域名。然而,现有的这种机器学习的方式,如果要获得较高的检测精度,往往需要提供比较完备的正样本(正常域名)和负样本(DGA域名)。但DGA域名的变化相当快,很容易会出现新型的DGA域名,面对新型的DGA域名,现有的机器学习方式检测的精度不高。

技术实现思路

[0004]本申请的目的在于提供一种DGA域名的检测方法、系统及装置,能够提高DGA域名的检测精度。
[0005]为实现上述目的,本申请一方面提供一种DGA域名的检测方法,所述方法包括:获取域名白名单样本,并提取所述域名白名单样本的词嵌入特征;将所述词嵌入特征编码为中间特征,并将所述中间特征解码为输出特征;比较所述词嵌入特征和所述输出特征,并根据对比结果对编码和解码的过程进行校正,以通过校正后的编码和解码的过程,检测目标域名是否为DGA域名。
[0006]为实现上述目的,本申请另一方面还提供一种DGA域名的检测系统,所述系统包括:特征提取单元,用于获取域名白名单样本,并提取所述域名白名单样本的词嵌入特征;重构单元,用于将所述词嵌入特征编码为中间特征,并将所述中间特征解码为输出特征;校正单元,用于比较所述词嵌入特征和所述输出特征,并根据对比结果对编码和解码的过程进行校正,以通过校正后的编码和解码的过程,检测目标域名是否为DGA域名。
[0007]为实现上述目的,本申请另一方面还提供一种DGA域名的检测装置,其所述装置包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现上述的DGA域名的检测方法。
[0008]由上可见,本申请一个或者多个实施方式提供的技术方案,可以采用自编码的方式,将域名白名单样本的词嵌入特征经过编码和解码的过程,从而得到输出特征。在对词嵌入特征进行编码和解码的过程中,利用词嵌入特征对输出特征进行监督训练,从而可以不断校正编码和解码的过程。这样,校正后的编码和解码的过程能够重构输出特征,最终使得重构的输出特征能够与输入的词嵌入特征比较接近。通过这种利用词嵌入特征,对自编码过程进行监督训练的方式,一方面不需要负样本(DGA域名)的参与,从而减少了训练样本的
收集难度;另一方面通过上述方式对正样本(域名白名单样本)进行训练,可以得到正常域名的一个判定基准,后续便可以利用该判定基准对目标域名进行检测,从而提高了DGA域名检测的精度。
附图说明
[0009]为了更清楚地说明本专利技术实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1是本专利技术实施方式中DGA域名的检测方法步骤图;
[0011]图2是本专利技术实施方式中自编码器所处的系统架构示意图;
[0012]图3是本专利技术实施方式中自编码器内的神经网络结构示意图;
[0013]图4是本专利技术实施方式中目标域名的检测方法示意图。
具体实施方式
[0014]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施方式及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施方式仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
[0015]如图1所示,本申请一个实施方式提供的DGA域名的检测方法,可以包括以下多个步骤。
[0016]S1:获取域名白名单样本,并提取所述域名白名单样本的词嵌入特征。
[0017]在本实施方式中,可以只收集训练过程中的正样本,即域名白名单样本,这些域名白名单样本可以是经过安全检测的正常域名。通常而言,域名白名单样本中的字符往往会具备一定的规律,例如,其可能是符合自然语言习惯的拼音、词组等。而DGA域名由于是随机生成的,因此其中的字符会具备较强的随机性。鉴于这种区别,本申请可以训练得到域名白名单样本的一个判定基准,然后如果目标域名的检测结果偏离该判定基准较大,则可以认为该目标域名为DGA域名。
[0018]在本实施方式中,在获取到域名白名单样本后,由于自编码模型通常只能对数字信息进行处理,而无法直接对字符数据进行处理,因此需要对域名白名单样本进行预处理,从而将字符数据转换为对应的数字信息。具体地,可以采用词嵌入的方式,将域名白名单样本中的字符数据转换为数字矩阵,该数字矩阵便可以作为从域名白名单样本中提取的词嵌入特征。在实际应用中,one

hot编码(独热码)、信息检索技术(例如TF

IDF算法)、布朗聚类、Word2vec算法等都可以实现词嵌入的过程。
[0019]在本申请的一个实施方式中,可以采用Word2vec算法,利用skip

gram模型或者CBOW模型,将域名白名单样本的字符数据转换为对应的数字矩阵。具体地,可以对域名白名单样本先进行分词处理,从而得到一连串的单词。在实际应用中,分词的方式也可以多种多样。例如,可以将域名白名单样本中的每个字符都作为一个单词进行分词,也可以将每两个字符作为一个单词进行分词,还可以通过一些自然语言模型对域名白名单样本进行处理
后,自动得到分词结果。
[0020]在本实施方式中,得到分词处理的单词后,针对每个单词,可以通过词嵌入算法生成各自的词向量,这些词向量共同形成的矩阵便可以作为该域名白名单样本的词嵌入特征。举例来说,域名白名单样本经过分词处理后,得到18个单词,那么每个单词都可以被转换为对应的词向量(通常而言,这些词向量中包含的向量元素的数量都是相同的,例如都包含n个向量元素),那么这些词向量组合起来,便可以构成大小为(18,n)的数字矩阵,该数字矩阵便可以作为提取的词嵌入特征。
[0021]如上所述,在数字矩阵表征的词嵌入特征中,每一行都可以表示一个单词的词向量。在一个实施方式中,考虑到域名白名单样本中各个单词的排列是具备上下文逻辑的,因此经过分词以及词嵌入算法处理后得到的词向量,在数字矩阵中也可以按照这种上下文逻辑进行排序。举例来说,对于“wangsutec本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种DGA域名的检测方法,其特征在于,所述方法包括:获取域名白名单样本,并提取所述域名白名单样本的词嵌入特征;将所述词嵌入特征编码为中间特征,并将所述中间特征解码为输出特征;比较所述词嵌入特征和所述输出特征,并根据对比结果对编码和解码的过程进行校正,以通过校正后的编码和解码的过程,检测目标域名是否为DGA域名。2.根据权利要求1所述的方法,其特征在于,提取所述域名白名单样本的词嵌入特征包括:对所述域名白名单样本进行分词处理,并生成各个单词的词向量;将所述各个单词的词向量形成的矩阵作为所述域名白名单样本的词嵌入特征。3.根据权利要求1所述的方法,其特征在于,将所述词嵌入特征编码为中间特征,并将所述中间特征解码为输出特征包括:将所述词嵌入特征依次输入第一神经网络和第二神经网络,其中,所述第一神经网络对所述词嵌入特征进行编码,以得到所述中间特征,所述第二神经网络将所述中间特征作为输入数据,并处理得到所述输出特征;其中,所述第一神经网络和所述第二神经网络是互为镜像的神经网络。4.根据权利要求3所述的方法,其特征在于,所述第一神经网络和所述第二神经网络均为卷积神经网络,其中,所述第一神经网络的层级结构与所述第二神经网络的层级结构相反;或者所述第一神经网络包括依次相连的卷积神经网络和长短期记忆神经网络,所述第二神经网络包括依次相连的长短期记忆神经网络和卷积神经网络;其中,所述第一神经网络与所述第二神经网络中的卷积神经网络的层级结构相反,并且第一神经网络与所述第二神经网络中的长短期记忆神经网络的层级结构相反。5.根据权利要求1所述的方法,其特征在于,将所述词嵌入特征编码为中间特征包括:识别所述词嵌入特征中各个单词的词向量,并提取各个所述词向量的特征向量,并将各个所述特征向量构成的矩阵作为编码得到的中间特征;或者将表征所述词嵌入特征的矩阵变换为更低维度的矩阵,并将所述更低维度的矩阵作为编码得到的中间特征。6.根据权利要求5所述的方法,其特征在于,将所述中间特征解码为输出特征包括:识别表征所述中间特征的矩阵中的各个特征向量,并将各个所述特征向量还原为对应的词向量,还原得到的词向量构成的矩阵作为解码得到的输出特征;或者将表征所述中间特征的矩阵还原为更高维度的...

【专利技术属性】
技术研发人员:刘卓龙
申请(专利权)人:网宿科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1