基于LightGBM的异常DNS流量检测方法技术

技术编号:35514102 阅读:22 留言:0更新日期:2022-11-09 14:30
本发明专利技术提供一种基于Light GBM的异常DNS流量检测方法,属于异常流量检测领域,本发明专利技术。首先根据异常DNS流量的特点,从域名构成特征和IP地址对应特征这两个维度进行特征提取,提取了元音字母个数占比、去重比例、完全限定域名访问次数、返回IP地址的分散程度、域名解析目标IP地址集的大小等多个特征。然后使用Bloom filter对已知的大量正常DNS流量和部分恶意DNS进行黑白名单过滤,该模块降低了后期LightGBM算法的负荷,并缓解了不平衡分类的问题。在进行数据预处理之后,使用LightGBM算法进行机器学习,最后使用真实的DNS流量进行验证,并对比了决策树、随机森林等其他机器学习算法,结果显示LightGBM算法可以有效的发现异常DNS流量。常DNS流量。常DNS流量。

【技术实现步骤摘要】
基于Light GBM的异常DNS流量检测方法


[0001]本专利技术涉及异常流量检测领域,尤其涉及一种基于Light GBM的异常DNS流量检测方法。

技术介绍

[0002]目前有许多DNS的检测方法,其中大多数解决方案依赖于使用商业FQDN/IP黑名单的自动标记和流行域的白名单,随着大数据技术的发展,也出现了大量基于数据驱动的检测方法,主要使用机器学习的方法对异常数据进行分析。
[0003]1基于黑白名单
[0004]基于DNS标记技术的检测方法,使用的标签摘要,即域名/IP黑名单和流行域名的白名单。Antonakakis等已经引入了NOTOS方法,这是一个动态的DNS信誉系统,可以反映敏捷DNS的恶意使用。该方法使用有监督和无监督的机器学习分析RDNS的DNS流量,通过使用黑名单和白名单来获取用于训练系统的数据集,该方法依赖于四种不同的黑名单,涵盖不同的恶意DNS流量,同时使用Alexa.com的前500个顶级域名作为白名单,以及许多常见的CDN和其他良性动态域名,在实验中使用了超过10,000个域名的白名单。Perdisci等提出了一种被动DNS流量分析系统FluxBuster,通过监控RDNS上方的流量来定位快速通量DNS流量。该方法使用有监督的机器学习来区分恶意域的集群。用于训练超级MLA训练集是通过半手动标记方法获得的,而该方法依赖于黑名单和白名单来评估分类结果。使用了超过12个公开可用的FQDN黑名单,以及3个不同的白名单。
[0005]黑白名单的方法存在一些不足,一些黑名单基于信誉系统,这些信誉系统依赖于用户关于某些FQDN/IP恶意的反馈。具有不同技术背景的人对恶意DNS的判断会存在偏差,许多良性域被认为是恶意的,从而导致错误的结论。此外,FQDN域名和IP黑名单存在一定的时效性。
[0006]2基于数据驱动
[0007]随着大数据技术和深度学习技术的发展,现在出现了一些基于数据驱动的检测技术。
[0008]Yadav等人发现最近的僵尸网络如Conficker,Kraken和Torpig已经使用基于DNS的“域名流动”来进行命令和控制,其中每个Bot查询是否存在一系列域名,并且所有者必须仅注册一个这样的域名。通过查找以算法生成域名的固有模式来检测DNS流量中的此类“域流量”,这些域名与人类喜欢使用的域名不同。特别是将查看映射到同一组IP地址的所有域名中的字母数字字符以及双字母组的分布。文中提出并比较了几个距离度量的性能,包括K

L距离、编辑距离和Jaccard测量。通过网络爬虫获得良好域名作为数据集进行训练,并映射到所有IPv4地址空间,同时针对不良数据集建模。Curtin等人为DGA家族设计了一个名为smashword的得分难度模型,这可以衡量DGA家族看起来像英语单词的多少。研究发现这个衡量标准准确地反映了DGA家族的域名看起来像是用自然英语单词制作的。它是一种递归神经网络架构与域注册侧信息的组合。实验表明该模型能够有效识别由DGA家族产生的域,
如matsnu,suppobox,rovnix等。与现有技术相比,该模型的性能最适合类似英语单词的DGA家族。
[0009]DNS是互联网上的重要服务,网络中DNS流量通常不会被防火墙阻挡。然而攻击者利用这一特点使用DNS协议隐匿恶意行为,如使用DNS隧道进行文件外传、使用域名生成算法(DGA)进行僵尸网络控制。
[0010]DNS提供互联网的域名服务,是互联网的核心组件,它可以将IP地址与域名相互映射,但是DNS经常被网络犯罪分子滥用。例如,恶意软件通常使用DNS来发现命令和控制(C&C)服务器基础架构,而垃圾邮件发送者依靠DNS将最终用户重定向到存在漏洞利用或诈骗钓鱼的网页。罪犯分子会采用基于DNS的动态网络策略,类似于内容分发网络(CDN),其特点是高度动态的全限定域名(FQDN)到IP映射,通常称为敏捷DNS。另外僵尸网络还会使用域生成算法(DGA)来维护僵尸网络的健壮性,它创建了多个FQDN的动态列表,然后恶意软件代理在尝试定位时对其进行轮询。由于DGA动态地生成大量且短期的域名,因此它们能够避免基于FQDN的黑名单。由于现在多种网络攻击都依赖DNS协议来与攻击者进行数据交互和命令控制,如果能发现异常DNS流量,可以有效的打击网络犯罪。

技术实现思路

[0011]为了解决以上技术问题,本专利技术提供了一种基于Light GBM的异常DNS流量检测方法。可以有效的提高互联网的安全性,打击使用DNS流量的违法活动。
[0012]本专利技术的技术方案是:
[0013]一种基于Light GBM的异常DNS流量检测方法,包括
[0014]1)对于捕获的DNS流量进行Bloom Filter黑白名单过滤;
[0015]2)对于过滤后的DNS流量从域名特征和IP地址对应关系两大类维度进行特征提取;
[0016]3)通过训练好的基于LightGBM算法的异常DNS流量检测模型,预测捕获的DNS流量是否异常,异常则发出预警。
[0017]进一步的,
[0018]根据异常DNS流量的特点,从域名构成特征和IP地址对应特征这两个维度进行特征提取,域名特征包括域名元音字母个数占比、域名长度、域名相似度、jaccard系数、去重后字母数字个数占比、完全限定域名访问次数等特征,IP地址对应关系包括返回IP地址的分散程度、域名解析目标IP地址集的大小、域名解析目标IP地址集的地理位置、请求该域名的源IP地址集的大小。
[0019]元音字母个数占比:正常域名是发音的字母组合,DGA获取域名时,算法中使用了随机种子,生成的域名元音字母比例不高于0.01%;
[0020]去重后字母数字个数占比:域名中去掉重复的字母和数字后,与域名长度的比例;
[0021]jaccard系数:比较样本集之间的相似度和区分度;如果两个域名之间的jaccard系数越大,说明两个域名越相似;
[0022]完全限定域名访问次数:对于DNS流量的统计中,计算每个域名的访问频次,次数越大,异常程度越低;
[0023]返回IP地址的分散程度:通过域名信息熵评估域名和IP地址对应的长期性和稳定
性,信息熵越高,则在指定的时间范围内变化程度越大,说明对应关系不稳定;信息熵越小,则域名与IP地址的对应关系越稳定;
[0024]域名解析目标IP地址集的大小:对DNS流量进行捕获,统计域名对应的IP地址数量作为特征,如果域名对应的IP地址越少,域名越正常,否则是DGA生成的域名;
[0025]域名解析目标IP地址集的地理位置:DGA对应的IP地址地理位置分散,而正常域名对应IP地址的地理位置有规律性;
[0026]请求该域名的源IP地址集的大小:正常域名源IP地址集的数量大于请求恶意域名源IP地址数量。
[0027]进一步的,
[0028]在异常DNS流量特征提取的基础上,对网络中的DNS流量进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Light GBM的异常DNS流量检测方法,其特征在于,包括1)对于捕获的DNS流量进行Bloom Filter黑白名单过滤;2)对于过滤后的DNS流量从域名特征和IP地址对应关系两大类维度进行特征提取;3)通过训练好的基于LightGBM算法的异常DNS流量检测模型,预测捕获的DNS流量是否异常,异常则发出预警。2.根据权利要求1所述的方法,其特征在于,根据异常DNS流量的特点,从域名构成特征和IP地址对应特征这两个维度进行特征提取,域名特征包括域名元音字母个数占比、域名长度、域名相似度、jaccard系数、去重后字母数字个数占比、完全限定域名访问次数等特征,IP地址对应关系包括返回IP地址的分散程度、域名解析目标IP地址集的大小、域名解析目标IP地址集的地理位置、请求该域名的源IP地址集的大小。3.根据权利要求2所述的方法,其特征在于,元音字母个数占比:正常域名是发音的字母组合,DGA获取域名时,算法中使用了随机种子,生成的域名元音字母比例不高于0.01%;去重后字母数字个数占比:域名中去掉重复的字母和数字后,与域名长度的比例;jaccard系数:比较样本集之间的相似度和区分度;如果两个域名之间的jaccard系数越大,说明两个域名越相似;完全限定域名访问次数:对于DNS流量的统计中,计算每个域名的访问频次,次数越大,异常程度越低;返回IP地址的分散程度:通过域名信息熵评估域名和IP地址对应的长期性和稳定性,信息熵越高,则在指定的时间范围内变化程度越大,说明对应关系不稳定;信息熵越小,则域名与IP地址的对应关系越稳定;域名解析目标IP地址集的大小:对DNS流量进行捕获,统计域名对应的IP地址数量作为特征,如果域名对应的IP地址越少,域名越正常,否则是DGA生成的...

【专利技术属性】
技术研发人员:杨雨萌崔乐乐徐宏伟
申请(专利权)人:天元大数据信用管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1