一种面向物联网的多协议僵尸网络检测方法技术

技术编号:37589254 阅读:15 留言:0更新日期:2023-05-18 11:14
本发明专利技术公开了一种面向物联网的多协议僵尸网络检测方法中,其依次通过样本捕获、样本预处理、样本重采样、样本特征选择、两阶段混合异构模型构建以及模型参数寻优、模型训练和僵尸网络检测实现;该方法通过基于地址三元组和时间窗口的IP聚合与特征重构方法降低了样本中的数据包数量,通过基于多属性决策和邻接关系链的序列前向选择算法对冗余特征进行两次剔除操作,降低物联网网关的计算开销,通过经过优化和训练的两阶段混合异构模型实现从多角度学习僵尸网络中多种通信协议的样本特征,进而实现该方法在准确率、F分数、马修斯相关系数和几何平均数这四个评估指标上均有明显提升,并具有能够较好地适应资源受限的物联网环境的优势。境的优势。境的优势。

【技术实现步骤摘要】
一种面向物联网的多协议僵尸网络检测方法


[0001]本专利技术涉及网络信息安全
,特别涉及一种面向物联网的多协议僵尸网络检测方法。

技术介绍

[0002]随着信息技术的发展,物联网技术已在智能制造、智能交通系统和智能家居等行业得到了广泛的应用与推广,由于物联网的通信协议多样化,物联网网关与终端设备的计算和存储能力有限且自身安全性能较弱,不仅为僵尸网络提供了便利条件,也给物联网的网络安全带来了前所未有的挑战。与传统的网络安全威胁相比,僵尸网络隐蔽性更高,传播速度更快,感染渠道更多,破坏力更强。为加强物联网的网络安全防御体系建设,保护用户隐私安全,研究并提出精准高效的僵尸网络检测方法成为物联网安全领域的一个研究热点。
[0003]目前,僵尸网络检测的研究方法主要包括基于样本的检测方法和基于模型的检测方法。基于样本的检测方法对样本进行重构,并根据传统分类模型对僵尸网络进行检测。基于模型的检测方法采用原始样本,并根据混合分类模型对僵尸网络进行检测;然而,上述两类方法仍然存在一定不足,具体总结如下:
[0004]1)研究中所用的网络流量样本中正常流量和僵尸流量数差距较大,使用传统重采样算法平衡网络流量各类别样本时的计算时空开销较大,不适用于计算资源受限的物联网环境;
[0005]2)研究中所用的特征选择方法,由于忽略了特征间的独立性与相关性,导致特征权重计算存在偏差,进而无法有效剔除冗余特征,不适用于轻量化的物联网环境;
[0006]3)部分研究所提的僵尸网络检测方法仅适用于单一模型或单一通信协议、部分研究所使用的模型参数寻优困难且部分研究模型过于复杂,不适用于通信协议多样化且计算资源受限的物联网环境。部分研究所用的传统检测方法的可扩展性较差,对物联网环境的适应性不足;
[0007]4)部分研究所使用的评估指标仅考虑正常流量或僵尸流量的检测分类效果,忽略了网络流量整体(正常流量和僵尸流量)的检测分类效果,不利于区分真实物联网环境的正常流量和僵尸流量。

技术实现思路

[0008]本专利技术的目的是提供一种解决上述技术问题的面向物联网的多协议僵尸网络检测方法。
[0009]为此,本专利技术技术方案如下:
[0010]一种面向物联网的多协议僵尸网络检测方法,步骤如下:
[0011]S1、样本捕获:捕获流经物联网网关的网络流量,并形成原始样本集;其中,原始样本包含的特征数据信息为:流量开始时间、流量持续时间、协议、源地址、目的地址、交换的
数据包总数、交换的总字节数和源头发送字节数;
[0012]S2、样本预处理:1)基于僵尸流量所用的传输协议类型,对原始样本集进行多协议流量提取,并依据流量开始时间对提取的样本进行时间序列排序,得到预处理样本集;2)采用基于地址三元组和时间窗口的IP聚合与特征重构方法对预处理样本集进行IP聚合,并依据设定的传输协议类型排列顺序对预处理样本进行特征重构,以重新获得若干个具有重构特征的重构样本;3)根据受控设备主机号,对重构样本以正常流量为负样本、僵尸流量为正样本分配标签特征,并采用最大

最小归一化方法对重构样本中各重构特征数值进行规范,形成重构样本集;
[0013]S3、样本重采样:基于正样本的期望样本数,采用近邻合成方法对属于正样本的重构样本集进行重采样,基于负样本的期望样本数,采用近邻压缩方法对属于负样本的重构样本集进行重采样,获得重采样样本集;
[0014]S4、样本特征选择:使用博弈论权重分配模型融合多种特征赋权方法获得重采样样本的特征综合权重值,并依据特征综合权重值和特征相关系数矩阵计算构建邻接关系链,采用基于多属性决策和邻接关系链的序列前向选择算法对重采样样本进行特征选择,得到最优特征子集;
[0015]S5、两阶段混合异构模型构建:模型由第一阶段的异构模型和第二阶段的异构模型构成;第一阶段的异构模型由随机森林算法、自适应提升算法和极限梯度提升算法构成;第二阶段的异构模型由逻辑回归算法构成;
[0016]S6、两阶段混合异构模型参数动态寻优:采用秃鹰搜索算法对步骤S5构建的两阶段混合异构模型中异构模型进行参数动态寻优,得到由最优评估器数量和最优特征个数构成的最优参数集;其中,秃鹰种群数量pop≥10,初始化秃鹰种群利用阵发混沌序列获得;最大迭代次数MaxIter≥10。
[0017]S7、两阶段混合异构模型训练:在重采样样本集中剔除最优特征子集中不包含的特征以得到最优重采样样本集,其分为训练集和测试集;将最优参数集代入两阶段混合异构模型中,并使用训练集以K折交叉验证的方法对模型进行训练,由测试集验证训练效果;
[0018]S8、僵尸网络检测:利用训练好的模型对输出网络检测结果。
[0019]进一步地,在步骤S1中,网络流量的捕获采用网络抓包工具Wireshark实现,原始样本的形成采用流量分析工具Argus实现。
[0020]进一步地,步骤S2中第2)步的具体实施步骤为:
[0021]2.1)依据间隔时间呈梯度增大的原则设置时间窗口;
[0022]2.2)随机获取一个时间窗口,记预处理样本集中序列为1的样本的流量开始时间为当前时间窗口的起始时间,并与当前时间窗口数值相加,得到时间窗口的结束时间;
[0023]2.3)在预处理样本集中,提取起始时间大于等于时间窗口起始时间且小于时间窗口结束时间的样本;
[0024]2.4)先按<源地址,目的地址>对由步骤2.3)获得的样本进行分类,再对各类按协议类型分类,得到若干个按地址三元组<源地址,目的地址,协议类型>分类的新样本集;
[0025]2.5)分别计算由步骤2.4)获得的新样本集中每个样本的流量持续时间、交换的数据包总数、交换的总字节数和源头发送字节数的极差、均值和标准差,及样本中数据包的聚合数量;
[0026]2.6)对由步骤2.5)中具有相同行标识<源地址,目的地址>的样本,按照设定的协议类型顺序,将由步骤2.5)获得的新特征数据信息进行拼接,获得多个具有重构特征的重构样本;
[0027]2.7)更新时间窗口起始时间为当前的时间窗口结束时间,并通过随机获取时间窗口更新时间窗口结束时间,重复步骤2.3)至步骤2.6);
[0028]2.8)重复步骤2.7),直到时间窗口滑动到预处理样本集中序列最后一位的样本。
[0029]进一步地,步骤S2中第3)步的具体实施步骤如下:
[0030]3.1)根据受控设备的主机号,确定涉嫌僵尸流量的源地址或目的地址、或属于正常流量源地址或目的地址;
[0031]3.2)分别为各重构样本分配标签:若重构样本的源地址或目的地址涉嫌僵尸流量,则该重构样本定义为正样本,并在其重构特征后面增加标签特征,其数值为1;若重构样本的源地址或目的地址不涉嫌僵尸流量,则该重构样本定义为负样本,并在其重构特征后面增加标签特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向物联网的多协议僵尸网络检测方法,其特征在于,步骤如下:S1、样本捕获:捕获流经物联网网关的网络流量,并形成原始样本集;其中,原始样本包含的特征数据信息为:流量开始时间、流量持续时间、协议、源地址、目的地址、交换的数据包总数、交换的总字节数和源头发送字节数;S2、样本预处理:1)基于僵尸流量所用的传输协议类型,对原始样本集进行多协议流量提取,并依据流量开始时间对提取的样本进行时间序列排序,得到预处理样本集;2)采用基于地址三元组和时间窗口的IP聚合与特征重构方法对预处理样本集进行IP聚合,并依据设定的传输协议类型排列顺序对预处理样本进行特征重构,以重新获得若干个具有重构特征的重构样本;3)根据受控设备主机号,对重构样本以正常流量为负样本、僵尸流量为正样本分配标签特征,并采用最大

最小归一化方法对重构样本中各重构特征数值进行规范,形成重构样本集;S3、样本重采样:基于正样本的期望样本数,采用近邻合成方法对属于正样本的重构样本集进行重采样,基于负样本的期望样本数,采用近邻压缩方法对属于负样本的重构样本集进行重采样,获得重采样样本集;S4、样本特征选择:使用博弈论权重分配模型融合多种特征赋权方法获得重采样样本的特征综合权重值,并依据特征综合权重值和特征相关系数矩阵计算构建邻接关系链,采用基于多属性决策和邻接关系链的序列前向选择算法对重采样样本进行特征选择,得到最优特征子集;S5、两阶段混合异构模型构建:模型由第一阶段的异构模型和第二阶段的异构模型构成;第一阶段的异构模型由随机森林算法、自适应提升算法和极限梯度提升算法构成;第二阶段的异构模型由逻辑回归算法构成;S6、两阶段混合异构模型参数动态寻优:采用秃鹰搜索算法获得用于两阶段混合异构模型的最优参数集,即最优评估器数量和最优特征个数;其中,秃鹰种群数量pop≥10,初始化秃鹰种群利用阵发混沌序列获得;最大迭代次数MaxIter≥10。S7、两阶段混合异构模型训练:在重采样样本集中剔除最优特征子集中不包含的特征以得到最优重采样样本集,其分为训练集和测试集;将最优参数集代入两阶段混合异构模型中,并使用训练集以K折交叉验证的方法对模型进行训练,由测试集验证训练效果;S8、僵尸网络检测:利用训练好的模型对输出网络检测结果。2.根据权利要求1所述的面向物联网的多协议僵尸网络检测方法,其特征在于,在步骤S1中,网络流量的捕获采用网络抓包工具Wireshark实现,原始样本的形成采用流量分析工具Argus实现。3.根据权利要求1所述的面向物联网的多协议僵尸网络检测方法,其特征在于,步骤S2中第2)步的具体实施步骤为:2.1)依据间隔时间呈梯度增大的原则设置时间窗口;2.2)随机获取一个时间窗口,记预处理样本集中序列为1的样本的流量开始时间为当前时间窗口的起始时间,并与当前时间窗口数值相加,得到时间窗口的结束时间;2.3)在预处理样本集中,提取起始时间大于等于时间窗口起始时间且小于时间窗口结束时间的样本;2.4)先按<源地址,目的地址>对由步骤2.3)获得的样本进行分类,再对各类按协议类
型分类,得到若干个按地址三元组<源地址,目的地址,协议类型>分类的新样本集;2.5)分别计算由步骤2.4)获得的新样本集中每个样本的流量持续时间、交换的数据包总数、交换的总字节数和源头发送字节数的极差、均值和标准差,及样本中数据包的聚合数量;2.6)对由步骤2.5)中具有相同行标识<源地址,目的地址>的样本,按照设定的协议类型顺序,将由步骤2.5)获得的新特征数据信息进行拼接,获得多个具有重构特征的重构样本;2.7)更新时间窗口起始时间为当前的时间窗口结束时间,并通过随机获取时间窗口更新时间窗口结束时间,重复步骤2.3)至步骤2.6);2.8)重复步骤2.7),直到时间窗口滑动到预处理样本集中序列最后一位的样本。4.根据权利要求1所述的面向物联网的多协议僵尸网络检测方法,其特征在于,步骤S2中第3)步的具体实施步骤如下:3.1)根据受控设备的主机号,确定涉嫌僵尸流量的源地址或目的地址、或属于正常流量源地址或目的地址;3.2)分别为各重构样本分配标签:若重构样本的源地址或目的地址涉嫌僵尸流量,则该重构样本定义为正样本,并在其重构特征后面增加标签特征,其数值为1;若重构样本的源地址或目的地址不涉嫌僵尸流量,则该重构样本定义为负样本,并在其重构特征后面增加标签特征,其数值为0;3.3)采用最大

最小归一化方法,将各重构样本中每个重构特征的数值均约束到[0,1]区间内,获得新重构样本;进而基于新重构样本,形成重构样本集。5.根据权利要求1所述的面向物联网的多协议僵尸网络检测方法,其特征在于,在步骤S3中,正样本和负样本的期望样本数的计算公式为:esv
i
=c
i
×
cw
i
,i∈{+,

},式中,i表示样本类别,即正样本或负样本;c
i
表示样本数量,cw
i
表示样本权重,正样本权重为重构样本集中正样本的数量与重构样本的数量的比值,负样本权重为重构样本集中负样本的数量与重构样本的数量的比值。6.根据权利要求1所述的面向物联网的多协议僵尸网络检测方法,其特征在于,步骤S4的具体实施步骤为:4...

【专利技术属性】
技术研发人员:杨宏宇王泽霖谢丽霞胡泽
申请(专利权)人:中国民航大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1