一种基于数据挖掘的APT攻击检测方法及系统技术方案

技术编号:27282329 阅读:27 留言:0更新日期:2021-02-06 11:49
本发明专利技术公开了一种基于数据挖掘的APT攻击检测方法及系统。该方法包括:基于DNS日志获取待检测主机的访问频率特征以及待检测主机的域名流行度特征;基于网络流量日志获取待检测主机的流量特征以及待检测主机的端口协议不匹配特征;采用模糊数学模型对待检测主机的访问频率特征、待检测主机的域名流行度特征、待检测主机的流量特征以及待检测主机的端口协议不匹配特征进行融合,得到待检测主机的综合特征值;将待检测主机的综合特征值输入基于孤立森林算法的训练好的决策树模型,得到待检测主机是否遭受APT攻击的检测结果。本发明专利技术能够有效的检测出主机是否遭受到了APT的攻击。有效的检测出主机是否遭受到了APT的攻击。有效的检测出主机是否遭受到了APT的攻击。

【技术实现步骤摘要】
一种基于数据挖掘的APT攻击检测方法及系统


[0001]本专利技术涉及APT攻击检测领域,特别是涉及一种基于数据挖掘的APT攻击检测方法及系统。

技术介绍

[0002]随着通信技术的发展,公司的信息化和网络化已经成为大势所趋。而在这一背景下,具有持续性、隐蔽性、渗透性的APT成为了不容忽视的威胁。APT已经对世界范围内的机构和组织构成了巨大的威胁,因此对APT攻击的防御和检测的研究就成为了当下网络安全领域从业人员的一个重要方向。APT攻击由于其攻击目标明确且花费代价相对较大,因此一般都具有良好的隐藏性,攻击者刻意控制域名的行为,使其域名行为往往很难和正常的域名进行区分。
[0003]K近邻算法是一种全局的直接计算的无监督检测算法。该算法将关注的重点放在样本点的近邻距离,采用样本与近邻之间的绝对距离作为异常程度的判定,这会受到距离计算的影响,从而影响样本数据的异常程度。而在实际中异常点也有可能发生在小规模聚簇的情况,由于K近邻算法是依赖于样本点与其近邻的比较,因此在面对这种小规模聚簇的情况不能获得特别好点的检测结果。

技术实现思路

[0004]本专利技术的目的是提供一种基于数据挖掘的APT攻击检测方法及系统,能够有效的检测出异常。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种基于数据挖掘的APT攻击检测方法,包括:
[0007]基于DNS日志获取待检测主机的访问频率特征以及待检测主机的域名流行度特征,所述待检测主机的访问频率特征表示待检测主机访问各域名的频率中处于设定频率范围内的一频率,所述域名流行度特征表示设定时间段内访问所述待检测主机的主机数与所述设定时间段内活跃的主机数的之比;
[0008]基于网络流量日志获取待检测主机的流量特征以及待检测主机的端口协议不匹配特征,所述待检测主机的流量特征表示待检测主机上传流量与下载流量之比,所述待检测主机的端口协议不匹配特征表示通信协议与端口不匹配的情况;
[0009]采用模糊数学模型对所述待检测主机的访问频率特征、所述待检测主机的域名流行度特征、所述待检测主机的流量特征以及所述待检测主机的端口协议不匹配特征进行融合,得到所述待检测主机的综合特征值;
[0010]将所述待检测主机的综合特征值输入基于孤立森林算法的训练好的决策树模型,得到所述待检测主机是否遭受APT攻击的检测结果。
[0011]可选的,所述方法还包括:
[0012]基于DNS日志获取样本主机的访问频率特征以及样本主机的域名流行度特征,所
述样本主机的访问频率特征表示样本主机访问各域名的频率中处于设定频率范围内的一频率,所述样本主机的域名流行度特征表示设定时间段内访问所述样本主机的主机数与所述设定时间段内活跃的主机数的之比;
[0013]基于网络流量日志获取样本主机的流量特征以及样本主机的端口协议不匹配特征,所述样本主机的流量特征表示样本主机上传流量与下载流量之比,所述样本主机的端口协议不匹配特征表示样本主机通信协议与端口不匹配的情况;
[0014]采用模糊数学模型对所述样本主机的访问频率特征、所述样本主机的域名流行度特征、所述样本主机的流量特征以及所述样本主机的端口协议不匹配特征进行融合,得到样本主机的综合特征值;
[0015]以各所述样本主机的综合特征值组成的集合为训练集,以各所述样本主机遭受APT攻击的情况为标签,基于孤立森林算法对决策树进行训练,得到所述决策树模型。
[0016]可选的,所述决策树模型的输出为待检测主机遭受APT攻击的概率。
[0017]可选的,所述方法还包括:当决策树模型的输出结果表示所述待检测主机遭受ATP攻击或遭受ATP攻击的概率大于设定阈值时,发出告警。
[0018]本专利技术还提供了一种基于数据挖掘的APT攻击检测系统,包括:
[0019]DNS日志特征提取模块,用于基于DNS日志获取待检测主机的访问频率特征以及待检测主机的域名流行度特征,所述待检测主机的访问频率特征表示待检测主机访问各域名的频率中处于设定频率范围内的一频率,所述域名流行度特征表示设定时间段内访问所述待检测主机的主机数与所述设定时间段内活跃的主机数的之比;
[0020]流量日志特征提取模块,用于基于网络流量日志获取待检测主机的流量特征以及待检测主机的端口协议不匹配特征,所述待检测主机的流量特征表示待检测主机上传流量与下载流量之比,所述待检测主机的端口协议不匹配特征表示通信协议与端口不匹配的情况;
[0021]特征融合模块,用于采用模糊数学模型对所述待检测主机的访问频率特征、所述待检测主机的域名流行度特征、所述待检测主机的流量特征以及所述待检测主机的端口协议不匹配特征进行融合,得到所述待检测主机的综合特征值;
[0022]异常检测模块,用于将所述待检测主机的综合特征值输入基于孤立森林算法的训练好的决策树模型,得到所述待检测主机是否遭受APT攻击的检测结果。
[0023]可选的,
[0024]DNS日志特征提取模块,还用于基于DNS日志获取样本主机的访问频率特征以及样本主机的域名流行度特征,所述样本主机的访问频率特征表示样本主机访问各域名的频率中处于设定频率范围内的一频率,所述样本主机的域名流行度特征表示设定时间段内访问所述样本主机的主机数与所述设定时间段内活跃的主机数的之比;
[0025]流量日志特征提取模块,还用于基于网络流量日志获取样本主机的流量特征以及样本主机的端口协议不匹配特征,所述样本主机的流量特征表示样本主机上传流量与下载流量之比,所述样本主机的端口协议不匹配特征表示样本主机通信协议与端口不匹配的情况;
[0026]特征融合模块,还用于采用模糊数学模型对所述样本主机的访问频率特征、所述样本主机的域名流行度特征、所述样本主机的流量特征以及所述样本主机的端口协议不匹
配特征进行融合,得到样本主机的综合特征值;
[0027]所述系统还包括:决策树训练单元,用于以各所述样本主机的综合特征值组成的集合为训练集,以各所述样本主机遭受APT攻击的情况为标签,基于孤立森林算法对决策树进行训练,得到所述决策树模型。
[0028]可选的,所述决策树模型的输出为待检测主机遭受APT攻击的概率。
[0029]可选的,所述系统还包括:告警模块,用于当决策树模型的输出结果表示所述待检测主机遭受ATP攻击或遭受ATP攻击的概率大于设定阈值时,发出告警。
[0030]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术提供的基于数据挖掘的APT攻击检测方法及系统将DNS日志/网络流日志进行特征提取,然后使用iForest异常检测算法评估数据集,得到攻击检测结果。由于结合了iForest算法,因此,提高了APT检测的准确性和有效性,为后续的检测分析提供了可靠的依据。
附图说明
[0031]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据挖掘的APT攻击检测方法,其特征在于,包括:基于DNS日志获取待检测主机的访问频率特征以及待检测主机的域名流行度特征,所述待检测主机的访问频率特征表示待检测主机访问各域名的频率中处于设定频率范围内的一频率,所述域名流行度特征表示设定时间段内访问所述待检测主机的主机数与所述设定时间段内活跃的主机数的之比;基于网络流量日志获取待检测主机的流量特征以及待检测主机的端口协议不匹配特征,所述待检测主机的流量特征表示待检测主机上传流量与下载流量之比,所述待检测主机的端口协议不匹配特征表示通信协议与端口不匹配的情况;采用模糊数学模型对所述待检测主机的访问频率特征、所述待检测主机的域名流行度特征、所述待检测主机的流量特征以及所述待检测主机的端口协议不匹配特征进行融合,得到所述待检测主机的综合特征值;将所述待检测主机的综合特征值输入基于孤立森林算法的训练好的决策树模型,得到所述待检测主机是否遭受APT攻击的检测结果。2.根据权利要求1所述的基于数据挖掘的APT攻击检测方法,其特征在于,所述方法还包括:基于DNS日志获取样本主机的访问频率特征以及样本主机的域名流行度特征,所述样本主机的访问频率特征表示样本主机访问各域名的频率中处于设定频率范围内的一频率,所述样本主机的域名流行度特征表示设定时间段内访问所述样本主机的主机数与所述设定时间段内活跃的主机数的之比;基于网络流量日志获取样本主机的流量特征以及样本主机的端口协议不匹配特征,所述样本主机的流量特征表示样本主机上传流量与下载流量之比,所述样本主机的端口协议不匹配特征表示样本主机通信协议与端口不匹配的情况;采用模糊数学模型对所述样本主机的访问频率特征、所述样本主机的域名流行度特征、所述样本主机的流量特征以及所述样本主机的端口协议不匹配特征进行融合,得到样本主机的综合特征值;以各所述样本主机的综合特征值组成的集合为训练集,以各所述样本主机遭受APT攻击的情况为标签,基于孤立森林算法对决策树进行训练,得到所述决策树模型。3.根据权利要求1所述的基于数据挖掘的APT攻击检测方法,其特征在于,所述决策树模型的输出为待检测主机遭受APT攻击的概率。4.根据权利要求1-3任一项所述的基于数据挖掘的APT攻击检测方法,其特征在于,所述方法还包括:当决策树模型的输出结果表示所述待检测主机遭受ATP攻击或遭受ATP攻击的概率大于设定阈值时,发出告警。5.一种基于数据挖掘的APT攻击检测系统,其特征在于,包括:DNS日志特征提取模块,用于基于DNS日志获取待检测主...

【专利技术属性】
技术研发人员:邢亚君彭海龙孟铭王德胜
申请(专利权)人:北京安信天行科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1