基于子词分割的DGA检测模型训练方法、检测方法及装置制造方法及图纸

技术编号:32358048 阅读:17 留言:0更新日期:2022-02-20 03:21
本发明专利技术公开了一种基于子词分割的DGA检测模型训练方法、检测方法及装置,包括获取样本流量数据,并提取各条样本流量数据对应的主域名和顶级域名,以形成第一域名文件;对第一域名文件中的各域名进行分割,以获得包含各域名输入序列片段的片段文件;基于片段文件中整词和/或子词的出现频率构建向量映射字典;利用向量映射词典对各域名的输入序列片段进行编码,以获得相应的编码向量;为各编码向量添加训练标签,以作为训练数据对DGA检测模型进行训练。本公开的方法构建的编码向量考虑了域名的组成结构以及词间顺序,通过生成的句子编码向量对域名进行分类,能够准确地检测出低随机性的DGA家族和基于字典的DGA家族。性的DGA家族和基于字典的DGA家族。性的DGA家族和基于字典的DGA家族。

【技术实现步骤摘要】
基于子词分割的DGA检测模型训练方法、检测方法及装置


[0001]本专利技术涉及网络安全
,尤其涉及一种基于子词分割的DGA检测模型训练方法、检测方法及装置。

技术介绍

[0002]僵尸网络或者恶意软件等使用DGA算法在终端生成大量备选域名,当需要发动攻击时,选择其中少量域名进行注册,便可以与其C&C建立通信进而发起攻击,同时攻击者可以对注册的域名利用IP Flux等技术快速变换IP,这种方法可以有效地逃避传统基于黑名单的检测技术。在僵尸网络等使用DGA技术时,黑名单的更新速度远远比不上DGA域名的生成速度,而基于机器学习的DGA检测方法通过判断域名是否由DGA算法生成,从而阻断DGA域名与其C&C的连接,从根源处遏制网络攻击的发生。
[0003]目前基于机器学习的DGA检测方案通常采用分类算法,该方法首先将域名按单个字符切分或者提取Ngram,然后结合分类任务训练字符或者Ngram的词向量,同时将域名的词向量序列作为循环神经网络(LSTM或GRU)或者深层卷积神经网络的输入进行分类。由于现有方案仅本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于子词分割的DGA检测模型训练方法,其特征在于,包括:获取样本流量数据,并提取各条样本流量数据对应的主域名和顶级域名,以形成第一域名文件;基于预先构建的分词词典对所述第一域名文件中的各域名进行分割,以获得包含各域名输入序列片段的片段文件,其中各域名的输入序列片段包括整词和/或子词以及相应的词粒度的N

Gram;基于所述片段文件中整词和/或子词以及词粒度的N

Gram的出现频率构建向量映射字典;利用所述向量映射词典对各域名的输入序列片段进行编码,以获得相应的编码向量;为各编码向量添加训练标签,以作为训练数据对DGA检测模型进行训练。2.如权利要求1所述的基于子词分割的DGA检测模型训练方法,其特征在于,所述分词词典通过如下方式构建:基于百科语料,利用预设分隔算法构造所述分词词典,其中所述分词词典包括整词和子词。3.如权利要求2所述的基于子词分割的DGA检测模型训练方法,其特征在于,基于预先构建的分词词典对所述第一域名文件中的各域名进行分割,以获得包含各域名输入序列片段的片段文件包括:基于所述分词词典,按照前向最大匹配原则,将所述第一域名文件中的各域名分割为整词和子词的序列片段;为各域名的序列片段添加该序列片段的词粒度的N

Gram,以形成各域名的输入序列片段。4.如权利要求1所述的基于子词分割的DGA检测模型训练方法,其特征在于,基于所述片段文件中整词和/或子词以及词粒度的N

Gram的出现频率构建向量映射字典包括:将所述片段文件中出现频率最高的K个整词和/或子词以及M个词粒度的N

Gram构成向量映射字典。5.如权利要求4所述的基于子词分割的DGA...

【专利技术属性】
技术研发人员:杨永清
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1