【技术实现步骤摘要】
基于子词分割的DGA检测模型训练方法、检测方法及装置
[0001]本专利技术涉及网络安全
,尤其涉及一种基于子词分割的DGA检测模型训练方法、检测方法及装置。
技术介绍
[0002]僵尸网络或者恶意软件等使用DGA算法在终端生成大量备选域名,当需要发动攻击时,选择其中少量域名进行注册,便可以与其C&C建立通信进而发起攻击,同时攻击者可以对注册的域名利用IP Flux等技术快速变换IP,这种方法可以有效地逃避传统基于黑名单的检测技术。在僵尸网络等使用DGA技术时,黑名单的更新速度远远比不上DGA域名的生成速度,而基于机器学习的DGA检测方法通过判断域名是否由DGA算法生成,从而阻断DGA域名与其C&C的连接,从根源处遏制网络攻击的发生。
[0003]目前基于机器学习的DGA检测方案通常采用分类算法,该方法首先将域名按单个字符切分或者提取Ngram,然后结合分类任务训练字符或者Ngram的词向量,同时将域名的词向量序列作为循环神经网络(LSTM或GRU)或者深层卷积神经网络的输入进行 ...
【技术保护点】
【技术特征摘要】
1.一种基于子词分割的DGA检测模型训练方法,其特征在于,包括:获取样本流量数据,并提取各条样本流量数据对应的主域名和顶级域名,以形成第一域名文件;基于预先构建的分词词典对所述第一域名文件中的各域名进行分割,以获得包含各域名输入序列片段的片段文件,其中各域名的输入序列片段包括整词和/或子词以及相应的词粒度的N
‑
Gram;基于所述片段文件中整词和/或子词以及词粒度的N
‑
Gram的出现频率构建向量映射字典;利用所述向量映射词典对各域名的输入序列片段进行编码,以获得相应的编码向量;为各编码向量添加训练标签,以作为训练数据对DGA检测模型进行训练。2.如权利要求1所述的基于子词分割的DGA检测模型训练方法,其特征在于,所述分词词典通过如下方式构建:基于百科语料,利用预设分隔算法构造所述分词词典,其中所述分词词典包括整词和子词。3.如权利要求2所述的基于子词分割的DGA检测模型训练方法,其特征在于,基于预先构建的分词词典对所述第一域名文件中的各域名进行分割,以获得包含各域名输入序列片段的片段文件包括:基于所述分词词典,按照前向最大匹配原则,将所述第一域名文件中的各域名分割为整词和子词的序列片段;为各域名的序列片段添加该序列片段的词粒度的N
‑
Gram,以形成各域名的输入序列片段。4.如权利要求1所述的基于子词分割的DGA检测模型训练方法,其特征在于,基于所述片段文件中整词和/或子词以及词粒度的N
‑
Gram的出现频率构建向量映射字典包括:将所述片段文件中出现频率最高的K个整词和/或子词以及M个词粒度的N
‑
Gram构成向量映射字典。5.如权利要求4所述的基于子词分割的DGA...
【专利技术属性】
技术研发人员:杨永清,
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。