【技术实现步骤摘要】
基于域名字符串统计特征的DGA生成域名的检测方法
本专利技术涉及网络安全
,尤其涉及一种基于域名字符串统计特征的DGA生成域名的检测方法。
技术介绍
DNS作为实现域名和IP地址映射的分布式系统,是当前互联网中重要的基础设施之一。进行间谍活动、勒索破坏、僵尸网络的恶意软件和C&C进行通信过程中,通常会避免使用确定的IP地址以避免C&C迁移后导致的通信失连。而固定的域名也容易导致形成可察觉的软件指纹。且域名一旦被列人黑名单,软件的远控即失效。在这种背景下Domain-Flux技术(SharifnyaR,AbadiM.DFBotKiller:Domain-fluxbotnetdetectionbasedonthehistoryofgroupactivitiesandfailuresinDNStraffic[J].DigitalInvestigation,2015,12(12):15-26.)得到了广泛应用,它采用域名生成算法DGA,通过特定的参数(如网络时间,热门话题等)定期自动生成大量的随机域名。实施远控的C&C控制者通过相同的种子获得相同的域名池,并选取其中的一部分域名注册为C&C服务器的域名。恶意程序在域名池中随机挑选域名进行DNS解析,一旦解析成功便可获得C&C服务器的IP地址并与之建立连接。由于其他一些实施APT攻击和Botnet控制的软件也大量使用这一手段。所以针对DGA生成域名的DNS请求的发现,成为一种间接的恶意软件检测方法。当前这方面的主要方法如下:第一种是随机森林的dga域名检测方法(王红凯,张 ...
【技术保护点】
一种基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,包括以下步骤:步骤1,收集整理并构建正常的标准域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串SNi,i=1,2,…,N;所述域名字符串SNi的集合SDN作为后续特征矢量构造的数据基础;步骤2,收集整理并构建正常的域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串LNj,j=1,2,…,nL的集合LDN;收集整理恶意软件DGA算法生成的域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串DNk,k=1,2,…,nD的集合DDN;步骤3,提取LDN中所有LNj和DDN中所有DNk的统计特征,得到LDN中所有LNj的特征矢量集合LV、DDN中所有DNk的特征矢量集合DV,LV中具有nL个六维的特征矢量,DV中具有nD个六维的特征矢量;步骤4,对LV中的特征矢量添加标记1,对DV中的特征矢量添加标记‑1,分别作为正样本和负样本构成测试集合训练分类器,通过分类器实现对恶意软件DGA生成域名的检测。
【技术特征摘要】
1.一种基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,包括以下步骤:步骤1,收集整理并构建正常的标准域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串SNi,i=1,2,…,N;所述域名字符串SNi的集合SDN作为后续特征矢量构造的数据基础;步骤2,收集整理并构建正常的域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串LNj,j=1,2,…,nL的集合LDN;收集整理恶意软件DGA算法生成的域名集合,将其中超过三个字符的二级或者三级域名取出,构成由字母、数字和连字符组成的域名字符串DNk,k=1,2,…,nD的集合DDN;步骤3,提取LDN中所有LNj和DDN中所有DNk的统计特征,得到LDN中所有LNj的特征矢量集合LV、DDN中所有DNk的特征矢量集合DV,LV中具有nL个六维的特征矢量,DV中具有nD个六维的特征矢量;步骤4,对LV中的特征矢量添加标记1,对DV中的特征矢量添加标记-1,分别作为正样本和负样本构成测试集合训练分类器,通过分类器实现对恶意软件DGA生成域名的检测。2.如权利要求1所述的基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,步骤3所述特征矢量具体如下:V(X)=[SDR(X),SCR(X),DSIM(X),TSIM(X),V2DC(X),C2DC(X)]其中,X为LDN中所有LNj或DDN中所有DNk;SDR(X)、SCR(X)、DSIM(X)、TSIM(X)、V2DC(X)、C2DC(X)分别为连续数字占比、连续二辅字占比、随机相邻双字平均相似指数、随机相邻三字平均相似指数、单元音字母到二字符平均转移概率、单辅音字母到二字符平均转移概率。3.如权利要求2所述的基于域名字符串统计特征的DGA生成域名的检测方法,其特征在于,步骤3所述连续数字占比SDR(X)=NUM_2DP(X)/LEN(X),其中,NUM_2DP(X)为域名中所有两个或两个以上连续数字的总长度,LEN(X)为域名长度;所述连续二辅字占比SCR(X)=NUM_2CP(X)/LEN(X),其中,...
【专利技术属性】
技术研发人员:方玮,任梦晨,刘光杰,翟江涛,刘伟伟,戴跃伟,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。