一种基于双重特征选择和贝叶斯优化物联网入侵检测方法技术

技术编号:38343357 阅读:11 留言:0更新日期:2023-08-02 09:23
一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,涉及一种物联网入侵检测方法,本发明专利技术对捕获的流量数据提取特征并添加标签,进而获得描述流量行为特征的流量特征集。对流量特征集进行预处理。通过双重特征选择模块对流量特征集中的无关或弱相关特征进行剔除,以降低模型复杂度并提高模型检测效率。使用LightGBM对选择后的特征集进行交叉验证评估,并采用贝叶斯优化方法实现检测模型参数的快速调优。最后对调优后的检测模型,使用全部的特征集进行训练,然后将训练完成的检测模型嵌入到物联网设备中进行流量的实时监测。相比于现有入侵检测方案,本发明专利技术具有更小的模型体积,更低的内存占用以及更高的检测效率等优点。点。点。

【技术实现步骤摘要】
一种基于双重特征选择和贝叶斯优化物联网入侵检测方法


[0001]本专利技术涉及一种物联网入侵检测方法,特别是涉及一种基于双重特征选择和贝叶斯优化物联网入侵检测方法。

技术介绍

[0002]物联网是一种通过信息传感设备,按约定的协议,把任何物品与互联网相连接,进行信息交换和通信,以实现对物品的智能化管控的网络。近年来,随着5G通信、低功耗广域网、人工智能等相关技术的发展,物联网的应用日益广泛,并逐步衍生出如智能家居、数字医疗、智慧交通以及工业互联网等新型智能网络场景。物联网在人们的生产生活中的开始占据着越来越重要的地位。但随着海量的物联网终端设备直接或间接地接入互联网,物联网所面临的安全风险也与日俱增。因此为了保障物联网系统的安全,对网络中的异常行为进行入侵检测是十分必要的。
[0003]物联网环境中,终端节点设备普遍存在硬件资源受限、功率有限、异构性和多连接性等特点,这些特点使得传统的入侵检测方案难以直接应用在物联网设备中,因此现有检测策略大多都是将数据上传到云端进行统一识别。但是这种方式一方面会增加云端节点的压力。随着物联网设备的增多,网络中大量的节点将会产生海量的数据,这种集中式处理方式会消耗大量收集、汇聚、处理的成本,而且效率难以保证;另一方面,网络中的边缘节点和中心节点通信会占据大量的网络带宽以及通信开销,这会造成较高的检测延迟,而且过多的通信,可能会导致受到攻击的节点会向云端节点发送恶意程序和数据,给数据中心带来额外的风险隐患。鉴于上述问题,有必要开发一种可以部署在物联网终端设备中的轻量级入侵检测方案来保护物联网的安全。

技术实现思路

[0004]本专利技术的目的在于提供一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,本专利技术从数据和模型两个层面来提高模型的轻量化程度。首先在数据层面,通过结合了过滤式和包裹式特征选择的双重特征选择方法,有效去除了原始特征集中无关或弱相关的特征,提高了模型的检测效率和可解释性。而后在模型层面,使用贝叶斯优化的LightGBM对流量数据进行分类,在提高参数寻优效率的同时,也保证了模型的轻量化程度和检测性能;部署在物联网终端设备中的轻量级入侵检测来保护物联网的安全。
[0005]本专利技术的目的是通过以下技术方案实现的:
[0006]一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,所述方法包括以下过程:
[0007]S1.通过相关攻击软件模拟真实物联网环境可能会面临的各种攻击类型,并由流量捕获模块对产生的流量数据包进行捕获,然后按五元组特征将数据包整合为数据流形式;
[0008]S2.对捕获的数据流提取相关流特征信息;
[0009]S3.根据发出攻击的客户端五元组信息,为提取的数据流特征添加标签,构成流量特征数据集;
[0010]S4.对流量特征集进行预处理,使其转变为机器学习模型可以识别的标准结构化数据;
[0011]S5.通过双重特征选择模块对流量特征集中的无关或弱相关特征进行剔除,以降低模型复杂度并提高模型检测效率;
[0012]S6.使用LightGBM对选择后的特征集进行交叉验证评估,并采用贝叶斯优化方法实现检测模型参数的快速调优;
[0013]S7.对于调优后的检测模型,使用全部的特征集进行训练,然后将训练完成的检测模型嵌入到物联网设备中进行流量的实时监测。
[0014]所述的一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,所述S1中流量捕获模块通过设置时间间隔来完成数据流的捕获,这个间隔被称为时间窗口;在时间窗口内的流量数据包被捕获后会按照五元组特征被分组为一条条数据流,五元组特征具体包括源IP和目的IP、源端口和目的端口以及传输层协议。
[0015]所述的一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,所述S2中提取的相关流特征信息分为六类,分别为TCP/UDP连接特征,统计特征,DNS相关特征,SSL相关特征,HTTP相关特征,违规行为相关特征。
[0016]所述的一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,所述S3中构建的流量特征数据集包含100000条正常流量样本,90000条异常流量样本;其中异常流量中包含9种不同的攻击类型,分别为scanning、password、dos、xss、backdoor、injection、ransom、ware、ddos和mitm,每种攻击类型各10000条样本。
[0017]所述的一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,所述S4中数据预处理过程包括特征编码和数据归一化两部分;特征编码即将流量数据集中的字符型离散特征(proto、service、conn_state、dns_query、ssl_version、ssl_cipher、ssl_subject、ssl_issuer、http_method、http_uri、http_version、http_orig_mime_types、http_resp_mime_types、weird_name和weird_addl)编码为数字特征,以便于导入后续的机器学习模型;数据归一化即消除特征之间的量纲差异,这里采用最小值

最大值函数进行归一化,具体归一化式为:
[0018][0019]其中,x表示样本的特征值,x
max
和x
min
分别表示该特征的最大值和最小值,表示归一化后的特征值。
[0020]所述的一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,所述S5中双重特征选择模块由两部分组成:基于SCC的过滤式特征选择和基于SSA的包裹式特征选择;
[0021]其中基于SCC的过滤式特征选择建模过程为:
[0022](1)计算每个特征与分类标签的斯皮尔曼系数;斯皮尔曼相关系数的定义如下:
[0023][0024](2)根据特征的斯皮尔曼相关系数对流量特征进行降序排列;
[0025](3)设定相关系数阈值,然后根据对低于阈值的无关或弱相关特征进行剔除;
[0026]基于SSA的包裹式特征选择建模过程为:
[0027](1)设定适应度函数:
[0028]Fitness=f1

score
[0029]其中f1

score表示默认参数下的LightGBM模型在流量数据集上5折交叉验证的加权F1分数均值;
[0030](2)参数设定。设定种群数量为30,最大迭代次数为200,搜索上界为1,搜索下界为0;
[0031](3)种群初始化;在搜索界限内随机初始化种群中樽海鞘个体的位置;
[0032](4)位置编码;将樽海鞘种群中的每个个体的位置进行二进制编码,以适应特征选择问题;其中1表示特征被选中,0表示特征未选中;具体编码公式如下:
[0033][0034]注意,此处编码仅是为了计算适应度值,种群中樽海鞘个体的位置不会发生变化;
[0035](5)确定食物位置;计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,其特征在于,所述方法包括以下过程:S1.通过相关攻击软件模拟真实物联网环境可能会面临的各种攻击类型,并由流量捕获模块对产生的流量数据包进行捕获,然后按五元组特征将数据包整合为数据流形式;S2.对捕获的数据流提取相关流特征信息;S3.根据发出攻击的客户端五元组信息,为提取的数据流特征添加标签,构成流量特征数据集;S4.对流量特征集进行预处理,使其转变为机器学习模型可以识别的标准结构化数据;S5.通过双重特征选择模块对流量特征集中的无关或弱相关特征进行剔除,以降低模型复杂度并提高模型检测效率;S6.使用LightGBM对选择后的特征集进行交叉验证评估,并采用贝叶斯优化方法实现检测模型参数的快速调优;S7.对于调优后的检测模型,使用全部的特征集进行训练,然后将训练完成的检测模型嵌入到物联网设备中进行流量的实时监测。2.根据权利要求1所述的一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,其特征在于,所述S1中流量捕获模块通过设置时间间隔来完成数据流的捕获,这个间隔被称为时间窗口;在时间窗口内的流量数据包被捕获后会按照五元组特征被分组为一条条数据流,五元组特征具体包括源IP和目的IP、源端口和目的端口以及传输层协议。3.根据权利要求1所述的一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,其特征在于,所述S2中提取的相关流特征信息分为六类,分别为TCP/UDP连接特征,统计特征,DNS相关特征,SSL相关特征,HTTP相关特征,违规行为相关特征。4.根据权利要求1所述的一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,其特征在于,所述S3中构建的流量特征数据集包含100000条正常流量样本,90000条异常流量样本;其中异常流量中包含9种不同的攻击类型,分别为scanning、password、dos、xss、backdoor、injection、ransom、ware、ddos和mitm,每种攻击类型各10000条样本。5.根据权利要求1所述的一种基于双重特征选择和贝叶斯优化物联网入侵检测方法,其特征在于,所述S4中数据预处理过程包括特征编码和数据归一化两部分;特征编码即将流量数据集中的字符型离散特征(proto、service、conn_state、dns_query、ssl_version、ssl_cipher、ssl_subject、ssl_issuer、http_method、http_uri、http_version、http_orig_mime_types、http_resp_mime_types、weird_name和weird_addl)编码为数字特征,以便于导入后续的机器学习模型;数据归一化即消除特征之间的量纲差异,这里采用最小值

最大值函数进行归一化...

【专利技术属性】
技术研发人员:杨忠君刘志黄晴张继雪
申请(专利权)人:沈阳化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1