一种基于流量摘要和图采样的僵尸网络混合检测方法及系统技术方案

技术编号:33091513 阅读:55 留言:0更新日期:2022-04-16 23:21
本发明专利技术提供一种基于流量摘要和图采样的僵尸网络混合检测方法及系统,包括将原始流量按照一定的时间窗口大小和主机地址,针对不同通信协议聚合成一条新的流量摘要记录;将新的流量摘要记录形成数据集,利用随机森林算法对数据集进行训练,获得僵尸主机检测模型;预测待检测流量摘要的预测值;利用基于随机游走的通信图节点对采样算法对原始流量进行采样,形成网络主机通信图;构建异常值检测模型,预测待检测流量的主机为僵尸主机的概率值;将待检测流量摘要的预测值和主机为僵尸主机的概率值加权求和,并与阈值进行比较,将超过阈值对应的主机判断为僵尸主机;该方法及系统提高了识别的准确度和检测效率。识别的准确度和检测效率。

【技术实现步骤摘要】
一种基于流量摘要和图采样的僵尸网络混合检测方法及系统


[0001]本专利技术属于僵尸网络检测
,特别涉及一种基于流量摘要和图采样的僵尸网络混合检测方法及系统。

技术介绍

[0002]随着计算机网络在各个领域飞速发展,各类网络安全事件层出不穷。僵尸网络采用某种传播手段,使得大量主机感染僵尸程序病毒,从而在控制者和被感染主机之间形成一个可一对多控制的网络。传统的僵尸网络可以通过流量特征匹配达到检测的目的,主要分为两大类方法:一类是基于网络流量的方法,利用僵尸程序之间以及僵尸程序与控制服务器之间通信的时空相似性和正常用户通信模式的差异,通过对流量特征进行提取与特定特征匹配规则进行对比,对比正常流量和僵尸网络流量的相似性,这样的方法需要考虑更细的流量粒度,但僵尸网络的进化使得流量特征分布更加随机,如果僵尸程序消除了其通信的时空相似性便可绕过这种检测方法,使得针对原始网络流单条流级别的检测误报率过大;另一类是基于图的方法通过构造主机通信图,对僵尸程序之间的网络通信用图的形式进行建模分析,可以挖掘僵尸主机之间的通信模式,对每个节点的图特征进行提取训练异常节点检测模型以发现僵尸主机,但构造整个网络图计算成本较高。现如今僵尸网络技术更加智能与隐蔽,破坏性更强,通信机制更加复杂,使得僵尸网络难以判别和检测。

技术实现思路

[0003]本专利技术的实施例提供一种基于流量摘要和图采样的僵尸网络混合检测方法及系统,能够解决僵尸网络难以判别和检测的问题。
[0004]本专利技术其中一个技术方案提供一种基于流量摘要和图采样的僵尸网络混合检测方法,所述检测方法包括:
[0005]S10、将原始流量按照一定的时间窗口大小和主机地址,针对不同通信协议聚合成一条新的流量摘要记录;
[0006]S20、将新的流量摘要记录形成数据集,利用随机森林算法对数据集进行训练,获得僵尸主机检测模型;
[0007]S30、将待检测流量按照同样时间窗口大小进行摘要,然后输入到僵尸主机检测模型中,输出待检测流量摘要的预测值;
[0008]S40、利用基于随机游走的通信图节点对采样算法对原始流量进行采样,形成网络主机通信图;
[0009]S50、基于形成的网络主机通信图构建异常值检测模型,利用异常值检测模型预测待检测流量的主机为僵尸主机的概率值;
[0010]S60、将待检测流量摘要的预测值和主机为僵尸主机的概率值加权求和,并与阈值进行比较,将超过阈值对应的主机判断为僵尸主机。
[0011]进一步改进的方案中,所述原始流量的字段包括时间戳、通信协议、主机地址和标
签。
[0012]进一步改进的方案中,,步骤S20中所述将新的流量摘要记录形成数据集,利用随机森林算法对数据集进行训练,获得僵尸主机检测模型,包括:
[0013]S201:将新的流量摘要记录形成数据集,将数据集分成第一训练集、第二训练集和测试集;
[0014]S202:从第一训练集内随机采样选出n个样本,每一样本都具有M个特征;其中n和M均大于1;
[0015]S203:从M个特征中随机选择k个特征,对选出的n个样本利用选择的k个特征建立决策树;其中k>1;
[0016]S204:将从第一训练集中选出的n个样本中的a个样本放入第二训练集中,其中,1<a<n;从第二训练集内随机采样选出m个样本,每一样本都具有M个特征;
[0017]S205:从M个特征中随机选择k个特征,对选出的m个样本利用选择的k个特征建立决策树;
[0018]S206:将从第二训练集中选出的m个样本中的a个样本放入第一训练集中,1<a<m,重复进行步骤S202至S205,直至生成d棵决策树;
[0019]S207:将测试集输入到d棵决策树中,计算误差值,当误差值小于阈值时,进行步骤S208,当误差值不小于阈值时,重复步骤S202至S206,直至误差值小于阈值;
[0020]S208:从第一训练集内随机采样选出n个样本;
[0021]S209:从M个特征中随机选择k+c个特征,对选出的n个样本利用选择的k+c个特征建立决策树,其中c≥1;
[0022]S210:将从第一训练集中选出的n个样本中的a个样本放入第二训练集中,从第二训练集中内随机采样选出m个样本;
[0023]S211:从M个特征中随机选择k+c个特征,对选出的m个样本利用选择的k+c个特征建立决策树;
[0024]S212:将从第二训练集中选出的m个样本中的a个样本放入第一训练集中,重复进行步骤S208至S211,直至形成g棵决策树;
[0025]S213:形成的g棵决策树和误差值小于阈值时对应的决策树的棵树构成僵尸主机检测模型。
[0026]进一步改进的方案中,,步骤S40中所述利用基于随机游走的通信图节点对采样算法对原始流量进行采样,形成网络主机通信图包括:
[0027]根据源IP和目的IP构造网络通信图,使用随机游走算法,给定当前起始节点,从其相连的邻居中随机选择一个节点作为下一个访问节点,重复此过程,直到采样的图满足预设条件,形成网络主机通信图。
[0028]进一步改进的方案中,所述预设条件是规定采样图的节点不超过指定的个数。
[0029]进一步改进的方案中,步骤S50中所述基于形成的网络主机通信图构建异常值检测模型,利用异常值检测模型预测待检测流量的主机为僵尸主机的概率值,包括:
[0030]利用网络主机通信图节点结构计算待检测流量节点各类特征值;
[0031]加权组合节点各类特征值生成待检测流量的主机为僵尸主机的概率值。
[0032]进一步改进的方案中,所述节点各类特征包括:节点度、节点中心性、PageRank、聚
类系数。
[0033]本专利技术另一个技术方案提供一种基于流量摘要和图采样的僵尸网络混合检测系统,其特征在于,所述检测系统包括:
[0034]聚合模块,所述聚合模块被配置为用于将原始流量按照一定的时间窗口大小和主机地址,针对不同通信协议聚合成一条新的流量摘要记录;
[0035]僵尸主机检测模型构建模块,所述僵尸主机检测模型构建模块被配置为将新的流量摘要记录形成数据集,利用随机森林算法对数据集进行训练,获得僵尸主机检测模型;
[0036]预测值预测模块,所述预测值预测模块被配置为将待检测流量按照同样时间窗口大小进行摘要,然后输入到僵尸主机检测模型中,输出待检测流量摘要的预测值;
[0037]网络主机通信图构建模块,所述网络主机通信图构建模块被配置为利用基于随机游走的通信图节点对采样算法对原始流量进行采样,形成网络主机通信图;
[0038]概率值预测模块,所述概率值预测模块被配置为基于形成的网络主机通信图构建异常值检测模型,利用异常值检测模型预测待检测流量的主机为僵尸主机的概率值;
[0039]判断模块,所述判断模块被配置为将待检测流量摘要的预测值和主机为僵尸主机的概率值加权求和,并与阈值进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于流量摘要和图采样的僵尸网络混合检测方法,其特征在于,所述检测方法包括:S10、将原始流量按照一定的时间窗口大小和主机地址,针对不同通信协议聚合成一条新的流量摘要记录;S20、将新的流量摘要记录形成数据集,利用随机森林算法对数据集进行训练,获得僵尸主机检测模型;S30、将待检测流量按照同样时间窗口大小进行摘要,然后输入到僵尸主机检测模型中,输出待检测流量摘要的预测值;S40、利用基于随机游走的通信图节点对采样算法对原始流量进行采样,形成网络主机通信图;S50、基于形成的网络主机通信图构建异常值检测模型,利用异常值检测模型预测待检测流量的主机为僵尸主机的概率值;S60、将待检测流量摘要的预测值和主机为僵尸主机的概率值加权求和,并与阈值进行比较,将超过阈值对应的主机判断为僵尸主机。2.根据权利要求1所述的基于流量摘要和图采样的僵尸网络混合检测方法,其特征在于,所述原始流量的字段包括时间戳、通信协议、主机地址和标签。3.根据权利要求1所述的基于流量摘要和图采样的僵尸网络混合检测方法,其特征在于,步骤S20中所述将新的流量摘要记录形成数据集,利用随机森林算法对数据集进行训练,获得僵尸主机检测模型,包括:S201:将新的流量摘要记录形成数据集,将数据集分成第一训练集、第二训练集和测试集;S202:从第一训练集内随机采样选出n个样本,每一样本都具有M个特征;其中n和M均大于1;S203:从M个特征中随机选择k个特征,对选出的n个样本利用选择的k个特征建立决策树;其中k>1;S204:将从第一训练集中选出的n个样本中的a个样本放入第二训练集中,其中,1<a<n;从第二训练集内随机采样选出m个样本,每一样本都具有M个特征;S205:从M个特征中随机选择k个特征,对选出的m个样本利用选择的k个特征建立决策树;S206:将从第二训练集中选出的m个样本中的a个样本放入第一训练集中,1<a<m,重复进行步骤S202至S205,直至生成d棵决策树;S207:将测试集输入到d棵决策树中,计算误差值,当误差值小于阈值时,进行步骤S208,当误差值不小于阈值时,重复步骤S202至S206,直至误差值小于阈值;S208:从第一训练集内随机采样选出n个样本;S209:从M个特征中随机选择k+c个特征,对选出的n个样本利用选择的k+c个特征建立决策树,其中c≥1;S210:将从第一训练集中选出的n个样本中的a个样本放入第二训练集中,从第二训练集中内随机采样选出m个样本;S211:从M个特征中随机选择k+c个特征,对选出的m个样本利用选择的k+c个特征建立
决策树;S212:将从第二训练集中选出的m个样本中的a个样本放入第一训练集中,重复进行步骤S208至S211,直至形成g棵决策树;S213:形成的g棵决策树和误差值小于阈值时对应的决策树的棵树构成僵尸主机检测模型。4.根据权利要求1所述的基于流量摘要和图采样的僵尸网络混合检测方法,其特征在于,步骤S40中所述利用基于随机游走的通信图节点对采样算法对原始流量进行采样,形成网络主机通信图包括:根据源IP和目的IP构造网络通信图,使用随机游走算法,给定当前起始节点,从其相连的邻居中随机选择一个节点作为下一个访问节点,重复此过程,直到采样的图满足预设条件,形成网络主机通信图。5.根据权利要求4所述的基于流量摘要和图采样的僵尸网络混合检测方法,其特征在于,所述预设条件是规定采样图的节点不超过指定的个数。6.根据权利要求1所述的基于流量摘要和图采样的僵尸网络混合检测方法,其特征在于,步骤S50中所述基于形成的网络主机通信图构建异常值检测模型,利用异常值检测模型预测待检测流量的主机为僵尸主机的概率值,包括:利用网络主机通信图节点结构计算待检测流量节点各类特征值;加权组合节点各类特征值生成待检测流量的主...

【专利技术属性】
技术研发人员:龙春肖喜生杜冠瑶赵静万巍杨帆
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1