一种检测DGA域名的方法技术

技术编号:26346772 阅读:28 留言:0更新日期:2020-11-13 21:26
本发明专利技术涉及一种检测DGA域名的方法,包括以下步骤:建立DGA域名检测模型和DGA家族检测模型;收集待检测DNS协议数据,提取待检测DNS协议数据中的待检测域名;提取待检测域名中的特征;将提取的特征规范化处理;将规范化后的特征导入DGA域名检测模型和DGA家族检测模型,得到各已检测域名为DGA域名的概率和为DGA家族的概率;继续检测各已检测域名,根据已检测域名为DGA域名的概率及特征的数量得到已检测域名中属于DGA域名的域名,根据已检测域名为DGA家族的概率及每种DGA家族中包含已检测域名的数量得到已检测域名中属于DGA家族的域名;展示属于DGA域名和属于DGA家族的域名。从而使检测过程具有特征灵活、误报低、维护成本低以及新变种检出率高等优点。

A method of detecting DGA domain name

【技术实现步骤摘要】
一种检测DGA域名的方法
本专利技术涉及互联网安全
,特别涉及一种检测DGA域名的方法。
技术介绍
DGA(域名生成算法)是一种利用随机字符来生成C&C域名,从而逃避域名黑名单检测的技术手段。例如,一个由Cryptolocker创建的DGA生成域xeogrhxquuubt.com,如果进程尝试与其建立连接,则尝试机器就可能感染Cryptolocker勒索病毒。域名黑名单通常用于检测和阻断这些域的连接,但对于不断更新的DGA算法并不奏效。目前安全产品多是基于域名进行检测,提取其特征进行检测,但是实际应用中会存在误报较高的问题,很多正常域名会被检出,例如中文拼音域名以及正常的超长域名,很容易被当成DGA域名被检出。因此有必要提供一种检测DGA域名的方法,使检测过程具有特征灵活、误报低、维护成本低以及新变种检出率高等优点。
技术实现思路
本专利技术的目的在于提供一种检测DGA域名的方法,使检测过程具有特征灵活、误报低、维护成本低以及新变种检出率高等优点。为了解决现有技术中存在的问题,本专利技术本文档来自技高网...

【技术保护点】
1.一种检测DGA域名的方法,其特征在于,包括以下步骤:/n建立DGA域名检测模型和DGA家族检测模型;/n收集待检测DNS协议数据,提取待检测DNS协议数据中的待检测域名;/n提取待检测域名中的特征;/n将提取的特征规范化处理;/n将规范化后的特征导入DGA域名检测模型和DGA家族检测模型,得到各已检测域名为DGA域名的概率和为DGA家族的概率;/n继续检测各已检测域名,根据已检测域名为DGA域名的概率及特征的数量得到已检测域名中属于DGA域名的域名;/n继续检测各已检测域名,根据已检测域名为DGA家族的概率及每种DGA家族中包含已检测域名的数量得到已检测域名中属于DGA家族的域名;/n展示...

【技术特征摘要】
1.一种检测DGA域名的方法,其特征在于,包括以下步骤:
建立DGA域名检测模型和DGA家族检测模型;
收集待检测DNS协议数据,提取待检测DNS协议数据中的待检测域名;
提取待检测域名中的特征;
将提取的特征规范化处理;
将规范化后的特征导入DGA域名检测模型和DGA家族检测模型,得到各已检测域名为DGA域名的概率和为DGA家族的概率;
继续检测各已检测域名,根据已检测域名为DGA域名的概率及特征的数量得到已检测域名中属于DGA域名的域名;
继续检测各已检测域名,根据已检测域名为DGA家族的概率及每种DGA家族中包含已检测域名的数量得到已检测域名中属于DGA家族的域名;
展示属于DGA域名和属于DGA家族的域名。


2.如权利要求1所述的检测DGA域名的方法,其特征在于,建立DGA域名检测模型和DGA家族检测模型包括以下步骤:
生成训练数据,包括正常域名和DGA域名数据;
对所述训练数据做特征工程处理,提取建模特征;
将建模特征规范化处理;
采用机器学习算法对规范化后的正常域名建模特征和DGA域名建模特征做模型训练,形成DGA域名检测模型和DGA家族检测模型。


3.如权利要求2所述的检测DGA域名的方法,其特征在于,生成训练数据的方式为:
收集用于DGA域名检测模型训练的域名数据,包括正常域名和DGA域名数据;
收集用于DGA家族检测模型训练的DGA域名数据。


4.如权利要求2所述的检测DGA域名的方法,其特征在于,对所述训练数据做特征工程处理,提取建模特征,方式如下:
提取训练数据中各域名的18个特征为建模特征,18个特征分别为:域名熵、域名长度、熵与长度的比值、辅音出现的频率、数字出现的频率、重复字母出现的频率、连续数字出现的频率、连续辅音出现的频率、顶级域是否是私人域、子域名unigram在样本中出现次数均值、子域名unigram在样本中出现次数方差、子域名bigram在样本中出现次数均值、子域名bigram在样本中出现次数方差、子域名trigram在样本中出现次数均值、子域名trigram在样本中出现次数方差、n-gram转移概率、顶级域在正负样本中出现次数的比值以及子域名trigram在正负样本中出现次数的比值。

【专利技术属性】
技术研发人员:徐钟豪陈伟谢忱
申请(专利权)人:上海斗象信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1