System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大数据的DNS恶意域名检测系统及方法技术方案_技高网

基于大数据的DNS恶意域名检测系统及方法技术方案

技术编号:40036679 阅读:6 留言:0更新日期:2024-01-16 19:05
本发明专利技术公开了一种基于大数据的DNS恶意域名检测系统及方法,检测系统包括日志大数据采集模块、检测引擎模块、异常报警模块,日志大数据采集模块用于利用Kafka分布式消息转发订阅框架构建;检测引擎模块包括多种检测模型,用于处理由日志大数据采集模块产生的会话组;所述检测模型包括隧道检测模型、DGA检测模型和高仿域名检测模型;高仿域名检测模型:定义保护域名,对应于待检测域名;域名数据进行域名拆分处理,根据得到的注册域名前缀字符串和待检测注册域名前缀字符串分别转化多份待编码图像,并计算对应图片特征的相似度最高值,相似度最高值高于设定阈值时,提示可能存在高仿域名。本发明专利技术能够综合应对各类网络威胁,且检测效率高。

【技术实现步骤摘要】

本专利技术涉及恶意域名检测,具体为一种基于大数据的dns恶意域名检测系统及方法。


技术介绍

1、由于互联网大多数网络应用都会经过dns(domain name syste域名系统)进行通信,使得dns成为攻击者利用的一个重要途径。攻击者采用dns隐蔽通道手段规避恶意软件检测,利用dga域名(domain generation algorithm领域生成算法)规避黑名单封锁,传统dns威胁检测方式对网络攻击覆盖不足,难以应对隐蔽性强、更新频率高得新型dns网络攻击,因此急需一种检测系统用于ddi(dns、dhcp、ip)服务部署中dns的安全监测。

2、恶意域名检测常见手段有dns服务器日志检测、基于威胁情报检测、基于黑白名单比对检测等。但黑名单库存储的恶意域名有限,不足以应对多变的恶意域名攻击,目前针对域名检测主要存在以下问题:

3、1)存量恶意域名数据库只能基于现有策略发现恶意域名,缺乏发现未知恶意域名的能力。如dga域名、高仿域名等。

4、2)在dns隧道中,恶意域名可能分布在共享同一名称服务器的多次查询中。这提供了额外的隐秘性和弹性,针对单条域名查询记录的检测会失效。

5、dga域名是一种用于生成恶意软件控制服务器域名的算法。恶意软件作者使用dga来创建大量的随机域名,这些域名被用作恶意软件的通信通道,使得检测和阻止变得更加困难。

6、高仿域名(typosquatting domain)是指意图混淆用户的域名,通常通过使用与目标域名类似但稍有不同的拼写、错别字或其他变体来实现。黑客和网络攻击者可能会注册这些高仿域名,以便引导用户误输入,从而进行钓鱼攻击、恶意软件传播等。这种策略的目标是利用用户的疏忽,使他们相信他们正在与合法的网站进行交互。

7、现有检测是方案情况如下:

8、(1)采集原始数据

9、采集原始数据的方法要么为的全流量分析(如ids、dpi)从流量的层面,经过协议解析,提取字段再进行检测,这种方式性能开销很大,在高流量节点的服务器中在带宽、数据处理、存储方面都会占用大量成本。但是鉴于网络流量中dns流量通常只占约1%,且dns协议单一,专用的日志服务一般接入了监控设备,用于记录dns查询的日志。

10、采集的日志内容包括以下:客户端ip,客户端端口,服务端ip,服务端端口,dns协议中的字段信息(协议id,响应域名,响应answer),网络协议的信息(请求的设备id);

11、通过导入日志的方式,获取网络内dns流量的一些原始信息,在此基础上进行dns请求/响应的分析和检测。

12、(2)待检测信息预处理

13、1)域名拆分

14、针对过滤后的域名数据进行域名拆分处理,这是后续分组检测的关键步骤。传统检测中一般根据域名的来进行拆分,例如a.taobao.com则拆分为a,taobao.com,com三段,并认为taobao.com是注册域名,a是其子域名,这种拆分模式在如a.taobao.cn.com场景下则会出现问题,则产生不会认定taobao.cn.com是一个注册域名的问题,导致后续聚合计算出现问题。

15、2)dns请求聚合

16、在数据分析平台中,创建自定义时间窗口,默认窗口为30分钟,即针对30分钟内的所有数据在一个窗口内进行下面的聚合计算。可选地支持窗口周期的调整。上述处理后数据继续进入聚合分组流程,默认根据主机uuid、父进程路径、子进程路径、注册域名分组,可选地支持修改或增加自定义分组条件。即默认的同一个主机,同一个父进程路径,同一个子进程路径,同一个注册域名的数据会被分到同一个组内。实际分组条件不止这种,本质是获得日志的上下关联,方便对恶意行为分布在多个dns请求的情况下的时候,对整个组进行判断。

17、3)黑白名单过滤

18、通过现有的域名黑名单数据,或者结合威胁情报中恶意域名的一些数据,对已知规则的恶意域名进行匹配。

19、4)算法、模型检测

20、一般对象包括典型的如恶意僵木蠕进程利用dga来和僵尸网络通信、dns实现的隐蔽通信隧道等场景。

21、1)对检测对象进行提取特征;

22、2)加权特征;

23、3)机器学习方法进行检测分类;

24、4)得到结果。

25、恶意dns的综合性检测中,现有方法对一部分已知信息的检测确实有一定效果,大部分仅仅是传统的依靠黑白名单加威胁情报判断。但是恶意域名中高仿域名的覆盖不足,例如已公开专利恶意域名检测方法及装置、电子设备和存储介质(cn113596016a)中,将待检测域名转换为域名图像;根据域名图像,生成待检测域名的域名编码;根据域名编码,在预设多个参考编码中确定出比较编码;根据域名编码和所述比较编码,确定待检测域名是否为恶意域名。该方案并没有考虑色彩信息,和带图案背景对视觉欺骗的影响,仅采用灰度提取排除色彩信息的感染,仅以文本内容与非恶意域名进行比较。

26、并且当数据量过大的情况下,直接采用dns服务器分光的方式或者其他方式,额外接入dns服务器的设备会不但可能影响性能,导致检测跟不上效率。


技术实现思路

1、针对上述问题,本专利技术的目的在于提供一种基于大数据的dns恶意域名检测系统及方法,能够综合应对各类网络威胁,包括但不限于dga域名攻击、隐蔽通道传输和高仿域名,能够有效的实现网络安全检测。技术方案如下:

2、一种基于大数据的dns恶意域名检测系统,包括日志大数据采集模块、检测引擎模块、异常报警模块;

3、日志大数据采集模块用于利用kafka分布式消息转发订阅框架构建;其包括数据采集层和数据转发层;数据采集层通过编写程序记录服务器dns查询记录的日志,每条记录的日志信息包括源ip地址、目的ip地址(dns服务地址)、查询的域名、记录类型、应答的结果查询的时间等;数据转发层使用kafka的消费者功能,编写程序预处理从数据采集层发送过来的dns日志数据;数据转发层处理后的多组待处理的dns会话组被发送到flink中进行实时计算;

4、检测引擎模块包括多种检测模型,用于处理由日志大数据采集模块产生的会话组;所述检测模型包括隧道检测模型、dga检测模型和高仿域名检测模型;

5、所述隧道检测模型:提取每一组待处理的dns日志数据的日志特征并分类,对于聚合后的同组dns日志记录计算总分,总分大于预设阈值时,则触发异常报警模块产生报警数据,提示可能存在dns隧道;

6、所述dga检测模型:根据提取dga域名样本和正常域名样本的域名特征,训练svm分类器,建立dga域名和正常域名之间的分类模型,对未知的域名样本进行dga检测,若被分类为dga域名,则触发异常报警模块产生报警数据,提示可能存在dga域名;

7、所述高仿域名检测模型:定义包括保护名单中的保护域名,使其对应于待检测本文档来自技高网...

【技术保护点】

1.一种基于大数据的DNS恶意域名检测系统,其特征在于,包括日志大数据采集模块、检测引擎模块、异常报警模块;

2.一种应用于权利要求1所述的基于大数据的DNS恶意域名检测系统的检测方法,其特征在于,包括采用的基于机器学习的DNS隧道检测方法,包括以下步骤:

3.根据权利要求2所述的检测方法,其特征在于,所述日志特征包括:子域名、数据包大小、子域名长度、记录类型、时间间隔、字符熵以及字频斜率;

4.根据权利要求2所述的检测方法,其特征在于,所述计算总分具体为:提取同组样本中每一个日志的子域名长度、记录类型、时间间隔、字符熵和字频斜率作为特征,计算特征值矩阵,经过预训练的模型预测,得到预训练的模型预测结果,即可疑日志占全组样本的比率,再根据连续分布情况,即可疑日志在时间上的分布情况,将可疑日志过滤为单独分组后,出现和隧道流量样本相符合的分布情况,对产生的比率进行加权乘法,得到最终评分:

5.一种应用于权利要求1所述的基于大数据的DNS恶意域名检测系统的检测方法,其特征在于,包括基于SVM算法的DGA检测方法,包括以下步骤:

6.根据权利要求5所述的检测方法,其特征在于,所述域名特征包括:

7.一种应用于权利要求1所述的基于大数据的DNS恶意域名检测系统的检测方法,其特征在于,包括高仿域名检测方法,包括以下步骤:

8.根据权利要求7所述的检测方法,其特征在于,针对键盘空间误差的高仿域名,根据误输入的空间临近关系,对字符变换效率进行加权,对根据最短路径算法计算得到高仿域名中变化字符的字符变换距离进行处理,得到保护域名的有可能的变体情况。

9.根据权利要求7所述的检测方法,其特征在于,S3.5具体为:将不在统一域名服务器登记,域名相似度高于设定阈值的待检测域名地址,初步定义为风险地址;判断为风险地址后再通过模糊哈希、网站指纹识别待检测域名和白名单域名所提供服务的HTML文件内容;若风险地址和白名单地址所提供服务的HTML文件的模糊哈希相似度再次高于设定阈值,则确定待检测域名是高仿域名,将触发告警并进行展示,提示可能存在高仿域名。

...

【技术特征摘要】

1.一种基于大数据的dns恶意域名检测系统,其特征在于,包括日志大数据采集模块、检测引擎模块、异常报警模块;

2.一种应用于权利要求1所述的基于大数据的dns恶意域名检测系统的检测方法,其特征在于,包括采用的基于机器学习的dns隧道检测方法,包括以下步骤:

3.根据权利要求2所述的检测方法,其特征在于,所述日志特征包括:子域名、数据包大小、子域名长度、记录类型、时间间隔、字符熵以及字频斜率;

4.根据权利要求2所述的检测方法,其特征在于,所述计算总分具体为:提取同组样本中每一个日志的子域名长度、记录类型、时间间隔、字符熵和字频斜率作为特征,计算特征值矩阵,经过预训练的模型预测,得到预训练的模型预测结果,即可疑日志占全组样本的比率,再根据连续分布情况,即可疑日志在时间上的分布情况,将可疑日志过滤为单独分组后,出现和隧道流量样本相符合的分布情况,对产生的比率进行加权乘法,得到最终评分:

5.一种应用于权利要求1所述的基于大数据的dns恶意域名检测系统的检测方法,其特...

【专利技术属性】
技术研发人员:李焕洲云胜强唐彰国陈桂桦李俊成
申请(专利权)人:成都安舟信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1