System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 特征识别模型训练方法以及DNS隧道检测方法技术_技高网

特征识别模型训练方法以及DNS隧道检测方法技术

技术编号:40095382 阅读:8 留言:0更新日期:2024-01-23 16:51
本申请实施例提供了一种特征识别模型训练方法以及DNS隧道检测方法,其中,所述特征识别模型训练方法包括:获取样本DNS数据,提取所述样本DNS数据在多个时间窗口的目标特征;对每个时间窗口的目标特征进行采样,得到不同的训练集;采用不同的训练集训练特征识别模型中的各决策树,得到对应训练结果;将各所述训练结果进行组合,得到训练完成的特征识别模型。采用本申请实施例,可以提高检测DNS隧道的准确性。

【技术实现步骤摘要】

本申请涉及网络安全领域,具体涉及一种特征识别模型训练方法以及dns隧道检测方法。


技术介绍

1、企业内网环境中,分布式命名系统(domain name system,dns)协议是必不可少的网络通信协议之一。dns可以将域名转换为对应的ip地址,为了访问互联网和内网资源,它提供了域名解析服务,将域名和ip地址进行转换。

2、边界防护设备在一般情况下很少对dns进行过滤分析或屏蔽。因此,将数据或指令藏匿于dns协议中进行传输是一种隐蔽且有效的手段。

3、目前,安全产品多是基于监控终端请求异常长度域名等规则来进行dns隧道检测。但是,这种检测方式存在局限性。攻击者可以利用时间模式进行复杂的攻击,增加了安全产品进行自动识别的复杂性。导致对未知的dns隧道检测出现较高的误报率。


技术实现思路

1、本申请提供了一种特征识别模型训练方法、dns隧道检测方法、特征识别模型训练系统、分类器以及计算机存储介质,可以提高检测dns隧道的准确性。

2、在本申请的第一方面,本申请提供了一种特征识别模型训练方法,包括:

3、获取样本dns数据,提取所述样本dns数据在多个时间窗口的目标特征;

4、对每个时间窗口的目标特征进行采样,得到不同的训练集;

5、采用不同的训练集训练特征识别模型中的各决策树,得到对应训练结果;

6、将各所述训练结果进行组合,得到训练完成的特征识别模型。

7、通过采用上述技术方案,提取所述样本dns数据在多个时间窗口的目标特征,可获得充分反映dns流量时间序列信息的训练样本;对每个时间窗口的目标特征进行采样,得到不同的训练集,可增强模型对全量数据的学习能力,防止过拟合;最终,将各训练结果进行组合,可获得一个泛化能力强、判别更稳定的特征识别模型。相比单一数据集生成的模型,本方法训练得到的特征识别模型综合了不同流量样本的信息,增强了模型对新出现流量模式的识别能力。在实际应用中,当输入新的待检测dns流量样本时,该模型可以检测更多样化的隧道攻击,更适应实际的复杂业务环境,减少误报率。

8、可选的,所述提取所述样本dns数据在多个时间窗口的目标特征,包括:

9、分组所述样本dns数据,得到多个域名不同,且,按照时间顺序排列的数据组;

10、切分各所述数据组,得到多个所述时间窗口;

11、提取各所述时间窗口内的所述目标特征。

12、通过采用上述技术方案,根据样本dns数据的域名进行分组,可以获得每个域名完整的时间序列数据;然后对各数据组进行划分,在每个窗口内可以获取一个域名对应的时间段内的流量信息。后续可以从连续的时间维度上提取各窗口的目标特征,反映流量的时间模式。相比单个会话的随机抽样,本申请提供完整的时间片段信息,可以更全面地反映流量的时间特征。

13、可选的,所述提取所述样本dns数据在多个时间窗口的目标特征,包括:

14、提取所述样本dns数据在多个时间窗口的属性特征,以及在预设时长内多个时刻的访问量以及各所述时刻之间的间隔时长;

15、将所述属性特征、所述预设时长内多个时刻的访问量以及各所述时刻之间的间隔时长作为所述目标特征。

16、通过采用上述技术方案,预设时长内多个时刻的访问量以及各时刻之间的间隔时长提供持续变化规律,反映时间相关性。结合上述两类特征,可以从不同维度全面反映流量的模式。

17、可选的,所述属性特征包括域名特征、ttl值、返回地址数、窗口数据包数量、有效荷载比、上行大包比例、下行小包比例、请求报文时间间隔以及记录类型的记录长度;

18、所述在预设时长内多个时刻的访问量包括第一时刻的域名访问量、第二时刻的域名访问量以及前一天在第一时刻的域名访问量,所述第二时刻在所述第一时刻之前,所述间隔时长为所述第一时刻和所述第二时刻的时间间隔。

19、通过采用上述技术方案,通过属性特征可以对一个时间段内大量dns流量进行统计分析,可以帮助特征识别模型学习dns流量在某些统计属性特征上的区别;通过在预设时长内多个时刻的访问量以及各时刻之间的间隔时长,可以为模型判断域名访问是否符合正常时间模式提供了时域信息,以检测出访问时间不正常的dns隧道。

20、可选的,所述获取样本dns数据,提取所述样本dns数据在多个时间窗口的目标特征,包括:

21、获取所述样本dns数据,采用flink框架提取所述样本dns数据在多个时间窗口的目标特征。

22、通过采用上述技术方案,flink框架可以对样本dns数据进行低延迟、高吞吐的窗口处理。从而可以准确地将样本dns数据分配到不同时间窗口中。

23、可选的,所述训练集还包括袋外样本集,采用不同的训练集训练特征识别模型中的各决策树,得到对应训练结果之后,还包括:

24、通过所述袋外样本集确定当前特征识别模型的准确率;

25、根据所述训练结果的正确样本数量,确定所述训练结果的召回率;

26、根据所述准确率和所述召回率,调整所述特征识别模型的参数。

27、通过采用上述技术方案,准确率可以评估模型对新数据的识别能力,召回率可以评估模型的漏报情况。根据两种指标,可以更加全面的判断模型的识别效果。

28、在本申请的第二方面提供了一种dns隧道检测方法,包括:

29、获取dns隧道的待检测流量;

30、提取所述待检测流量在不同时间窗口的待检测特征;

31、将所述待检测特征输入至特征识别模型,输出所述dns隧道的检测结果,所述特征识别模型为通过上述特征识别模型训练方法进行训练后得到的模型。

32、通过采用上述技术方案,通过对待检测流量进行时间窗口划分,提取待检测流量在不同时间窗口的待检测特征,待检测特征可以反映流量的时间序列信息。将提取的特征输入预先训练好的特征识别模型。该特征识别模型综合学习了不同流量的时间特征,可以检测更多样化的隧道攻击,更适应实际的复杂业务环境,减少误报率。

33、在本申请的第三方面提供了一种特征识别模型训练系统,包括:

34、目标特征提取模块,用于获取样本dns数据,提取所述样本dns数据在多个时间窗口的目标特征;

35、目标特征采样模块,用于对每个时间窗口的目标特征进行采样,得到不同的训练集;

36、训练结果确定模块,用于采用不同的训练集训练特征识别模型中的各决策树,得到对应训练结果;

37、训练结果组合模块,用于将各所述训练结果进行组合,得到训练完成的特征识别模型。

38、在本申请的第四方面提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。

39、在本申请的第五方面提供了一种分类器,包括:处理器、存储器;其中,所述存储器存储有计算机程序,所述计本文档来自技高网...

【技术保护点】

1.一种特征识别模型训练方法,其特征在于,包括:

2.根据权利要求1所述的特征识别模型训练方法,其特征在于,所述提取所述样本DNS数据在多个时间窗口的目标特征,包括:

3.根据权利要求1所述的特征识别模型训练方法,其特征在于,所述提取所述样本DNS数据在多个时间窗口的目标特征,包括:

4.根据权利要求3所述的特征识别模型训练方法,其特征在于,所述属性特征包括域名特征、TTL值、返回地址数、窗口数据包数量、有效荷载比、上行大包比例、下行小包比例、请求报文时间间隔以及记录类型的记录长度;

5.根据权利要求1所述的特征识别模型训练方法,其特征在于,所述获取样本DNS数据,提取所述样本DNS数据在多个时间窗口的目标特征,包括:

6.根据权利要求1所述的特征识别模型训练方法,其特征在于,所述训练集还包括袋外样本集,采用不同的训练集训练特征识别模型中的各决策树,得到对应训练结果之后,还包括:

7.一种DNS隧道检测方法,其特征在于,包括:

8.一种特征识别模型训练系统,其特征在于,包括:

9.一种分类器,其特征在于,包括处理器、存储器、用户接口及网络接口,所述存储器用于存储指令,所述用户接口和网络接口用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述分类器执行如权利要求1-6或权利要求7中任意一项所述的方法。

10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有指令,当所述指令被执行时,执行如权利要求1-6或权利要求7中任意一项所述的方法。

...

【技术特征摘要】

1.一种特征识别模型训练方法,其特征在于,包括:

2.根据权利要求1所述的特征识别模型训练方法,其特征在于,所述提取所述样本dns数据在多个时间窗口的目标特征,包括:

3.根据权利要求1所述的特征识别模型训练方法,其特征在于,所述提取所述样本dns数据在多个时间窗口的目标特征,包括:

4.根据权利要求3所述的特征识别模型训练方法,其特征在于,所述属性特征包括域名特征、ttl值、返回地址数、窗口数据包数量、有效荷载比、上行大包比例、下行小包比例、请求报文时间间隔以及记录类型的记录长度;

5.根据权利要求1所述的特征识别模型训练方法,其特征在于,所述获取样本dns数据,提取所述样本dns数据在多个时间窗口的目标特征,包括:

6.根...

【专利技术属性】
技术研发人员:王向艳赵晓雨王升平
申请(专利权)人:北京万里红科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1