基于子词分割的DGA检测模型训练方法、检测方法及装置制造方法及图纸

技术编号：32358048 阅读：17 留言：0更新日期：2022-02-20 03:21

本发明专利技术公开了一种基于子词分割的DGA检测模型训练方法、检测方法及装置，包括获取样本流量数据，并提取各条样本流量数据对应的主域名和顶级域名，以形成第一域名文件；对第一域名文件中的各域名进行分割，以获得包含各域名输入序列片段的片段文件；基于片段文件中整词和/或子词的出现频率构建向量映射字典；利用向量映射词典对各域名的输入序列片段进行编码，以获得相应的编码向量；为各编码向量添加训练标签，以作为训练数据对DGA检测模型进行训练。本公开的方法构建的编码向量考虑了域名的组成结构以及词间顺序，通过生成的句子编码向量对域名进行分类，能够准确地检测出低随机性的DGA家族和基于字典的DGA家族。性的DGA家族和基于字典的DGA家族。性的DGA家族和基于字典的DGA家族。

全部详细技术资料下载

【技术实现步骤摘要】
基于子词分割的DGA检测模型训练方法、检测方法及装置

[0001]本专利技术涉及网络安全
，尤其涉及一种基于子词分割的DGA检测模型训练方法、检测方法及装置。

技术介绍

[0002]僵尸网络或者恶意软件等使用DGA算法在终端生成大量备选域名，当需要发动攻击时，选择其中少量域名进行注册，便可以与其C&C建立通信进而发起攻击，同时攻击者可以对注册的域名利用IP Flux等技术快速变换IP，这种方法可以有效地逃避传统基于黑名单的检测技术。在僵尸网络等使用DGA技术时，黑名单的更新速度远远比不上DGA域名的生成速度，而基于机器学习的DGA检测方法通过判断域名是否由DGA算法生成，从而阻断DGA域名与其C&C的连接，从根源处遏制网络攻击的发生。
[0003]目前基于机器学习的DGA检测方案通常采用分类算法，该方法首先将域名按单个字符切分或者提取Ngram，然后结合分类任务训练字符或者Ngram的词向量，同时将域名的词向量序列作为循环神经网络(LSTM或GRU)或者深层卷积神经网络的输入进行...

【技术保护点】

【技术特征摘要】
1.一种基于子词分割的DGA检测模型训练方法，其特征在于，包括：获取样本流量数据，并提取各条样本流量数据对应的主域名和顶级域名，以形成第一域名文件；基于预先构建的分词词典对所述第一域名文件中的各域名进行分割，以获得包含各域名输入序列片段的片段文件，其中各域名的输入序列片段包括整词和/或子词以及相应的词粒度的N
‑
Gram；基于所述片段文件中整词和/或子词以及词粒度的N
‑
Gram的出现频率构建向量映射字典；利用所述向量映射词典对各域名的输入序列片段进行编码，以获得相应的编码向量；为各编码向量添加训练标签，以作为训练数据对DGA检测模型进行训练。2.如权利要求1所述的基于子词分割的DGA检测模型训练方法，其特征在于，所述分词词典通过如下方式构建：基于百科语料，利用预设分隔算法构造所述分词词典，其中所述分词词典包括整词和子词。3.如权利要求2所述的基于子词分割的DGA检测模型训练方法，其特征在于，基于预先构建的分词词典对所述第一域名文件中的各域名进行分割，以获得包含各域名输入序列片段的片段文件包括：基于所述分词词典，按照前向最大匹配原则，将所述第一域名文件中的各域名分割为整词和子词的序列片段；为各域名的序列片段添加该序列片段的词粒度的N
‑
Gram，以形成各域名的输入序列片段。4.如权利要求1所述的基于子词分割的DGA检测模型训练方法，其特征在于，基于所述片段文件中整词和/或子词以及词粒度的N
‑
Gram的出现频率构建向量映射字典包括：将所述片段文件中出现频率最高的K个整词和/或子词以及M个词粒度的N
‑
Gram构成向量映射字典。5.如权利要求4所述的基于子词分割的DGA...

【专利技术属性】
技术研发人员：杨永清，
申请(专利权)人：北京天融信科技有限公司北京天融信软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人