当前位置: 首页 > 专利查询>广州大学专利>正文

一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法制造技术

技术编号:38989945 阅读:13 留言:0更新日期:2023-10-07 10:20
本发明专利技术公开了一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法,本发明专利技术基于随机森林的算法,用来识别和预防汽车网络中的恶性行为,这种技术利用了决策树的概念,并结合了集成学习(Ensemble Learning)的原理;通过随机森林建立多个虚拟神经网络,使它们能够彼此合作,共同完成任务,从而实现对数据的有效处理,并利用XGboost和LightGBM等相关算法,训练出能够较为准确地识别出网格攻击的模型,完成对网络入侵的检测,解决CAN总线的安全问题。题。题。

【技术实现步骤摘要】
一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法


[0001]本专利技术涉及网络入侵检测的
,具体涉及一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法。

技术介绍

[0002]随着汽车电子设备的不断普及和更新升级,车载CAN总线在现代车辆电气系统中也扮演着越来越重要的角色。CAN总线是汽车内部所有电子控制单元(Electronic Control Unit,ECU)之间进行数据交换的通信协议,可以满足实时性和可靠性的要求,CAN总线系统往往涉及到车辆的控制、监控和故障诊断,且缺少相应的网络安全保护,因此遭到入侵的风险也随之增加。
[0003]对于车载CAN总线的入侵检测算法,存在着很多研究方向,例如GAN模型采用场模糊变异进行车载CAN总线入侵检测,具体设计了一种车载CAN模糊测试消息生成模型,即现场关联变异生成对抗网络。该模型可以生成符合车载CAN协议规范的消息,可应用于入侵检测算法的训练集或测试集,解决传统入侵检测算法覆盖率低、特异性差的问题。还有长短期记忆网络(Long Short

Term Memory,LSTM)成功地检测了CAN网络,结果表明,LSTM在CAN网络上具有良好的检测性能,但也存在显著缺点,首先由于LSTM使用了复杂的门结构和记忆单元,其训练速度相对于其他基于神经网络的模型可能会更慢。这也使得LSTM难以应用于大规模数据集的训练。且难以调试,由于LSTM模型的复杂性,它很难进行调试和分析,因此需要更多的经验和专业技能,再比如根据机器学习技术,通过K

最近邻算法(K

Nearest Neighbors Algorithm,KNN)和支持向量机(Support Vector Machine,SVM)算法对车载CAN中的入侵进行聚类和分类,认为入侵检测技术依赖于对CAN中消息请求和响应之间的偏移率和时间间隔的分析。以检测CAN报文的ID域和数据域,此方法简单有效,适用性高,能够获取较好的分类效果,,具有较强的泛化能力,表现出很好的分类效果,同时也存在着问题,KNN和SVM算法的使用导致计算开销增加,计算复杂度高,使得训练时间增加,还存在着噪声选择敏感,难以选择到合适的参数。
[0004]上述对于车载CAN总线的入侵检测方法中,大都难以对高维度、大数据量的数据进行快速高效地处理,而随着CAN总线的升级和发展,网络入侵也越来越复杂和多元化。

技术实现思路

[0005]本专利技术的
技术实现思路
在于提出一种基于随机森林的入侵检测算法,通过已有的网络入侵数据集,对数据集进行处理后从中构建XGBoost和LightGBM两种模型,并根据数据的特征和属性进行训练,对比使用两种模型进行预测和分类,以确定是否存在网络入侵的行为。与传统的入侵检测算法相比,提出的基于随机森林的入侵检测算法具有更好的泛化能力和更高的准确率。
[0006]本专利技术的技术方案以如下方式实现:一种集成XGBoost和LightGBM模型的车载CAN
总线入侵检测算法,包括以下步骤:
[0007]S1、获取网络入侵检测数据;
[0008]S2、对入侵检测数据进行预处理;
[0009]S3、对预处理后的入侵检测数据进行随机采样;
[0010]S4、分别对XGBoost模型和LightGBM模型进行训练;
[0011]S5、打印精度;
[0012]S6、得到两种模型的最终结果,对比分析。
[0013]优选的,所述S1中,获取网络入侵检测数据,根据时间戳、源和目的IP、源和目的端口、协议和攻击来标记流量。
[0014]优选的,所述S2中,对网络入侵检测数据的类别型特征进行编码,使用LabelEncoder进行编码转换,将数据集中非数值型列都被编码为数值型。
[0015]更优的,所述编码为数值型步骤包括填充nan值,替换inf值。
[0016]优选的,所述S3中,对网络入侵检测数据进行随机采样获得数据集。
[0017]优选的,所述S4中,XGBoost模型中重要参数设置包括:learning_rate学习率设置为0.1,n_estimators树的数量设置为1000,max_depth决策树最大深度设置为5,subsample有放回随机抽样设置为0.8;通过采用两份数据集,再分别用XGBoost模型和LightGBM模型进行训练。
[0018]优选的,所述S5中,将数据集划分为比例为7:3的训练集和测试集,分别在XGBoost和LightGBM模型训练后,打印出最终测试集的精度。
[0019]本专利技术使用两种基于随机森林的入侵检测算法,对比使用XGBoost和LightGBM两种模型,LightGBM具有快速训练和预测的优势,因为它使用了基于树的算法,而不是基于线性的算法,所以它可以处理大数据集,并且它的训练时间比XGboost要短。此外,LightGBM还支持并行训练,这使得它的训练速度更快。另一方面,XGboost支持高维空间的特征,因此它可以更好地处理复杂的数据问题。与传统的入侵检测算法相比,提出的基于随机森林的入侵检测算法具有更好的泛化能力和更高的准确率。
附图说明
[0020]利用附图对本专利技术作进一步说明,但附图中的实施例不构成对本专利技术的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
[0021]图1是本专利技术一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法的实现流程图。
具体实施方式
[0022]以下结合具体实施例对一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法作进一步的详细描述,这些实施例只用于比较和解释的目的,本专利技术不限定于这些实施例中。
[0023]如图1所示,一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法,具体步骤包括:
[0024]S1、获取网络入侵检测数据;
[0025]S2、对入侵检测数据进行预处理;
[0026]S3、对预处理后的入侵检测数据进行随机采样;
[0027]S4、分别对XGBoost模型和LightGBM模型进行训练;
[0028]S5、打印精度;
[0029]S6、得到两种模型的最终结果,对比分析。
[0030]优选的,所述S1中,获取网络入侵检测数据,根据时间戳、源和目的IP、源和目的端口、协议和攻击来标记流量。
[0031]在本实施例中,使用了开源的入侵检测评估数据集CICIDS2017。CICIDS2017数据集包含良性和最新的常见攻击,与真实的现实世界数据相类似。它还包括使用CICFlowMeter(一种流量提取工具)进行网络流量分析的结果,并根据时间戳、源和目的IP、源和目的端口、协议和攻击来标记流量(CSV文件)。此外,还提供了提取的特征定义,数据集内容本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法,其特征在于,包括:S1、获取网络入侵检测数据;S2、对入侵检测数据进行预处理;S3、对预处理后的入侵检测数据进行随机采样;S4、分别对XGBoost模型和LightGBM模型进行训练;S5、打印精度;S6、得到两种模型的最终结果,对比分析。2.根据权利要求1所述的一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法,其特征在于,所述S1中,获取网络入侵检测数据,根据时间戳、源和目的IP、源和目的端口、协议和攻击来标记流量。3.根据权利要求1所述的一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法,其特征在于,所述S2中,对网络入侵检测数据的类别型特征进行编码,使用LabelEncoder进行编码转换,将数据集中非数值型列都被编码为数值型。4.根据权利要求3所述的一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法,其特征在于,所述编...

【专利技术属性】
技术研发人员:尚文利王新宇张曼曹忠浣沙揭海时昊天常志伟
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1