当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于机器学习集成模型的网络入侵检测方法技术

技术编号:28383759 阅读:30 留言:0更新日期:2021-05-08 00:12
本明公开了一种基于机器学习集成模型的网络入侵检测方法,该方法包括流量捕获、特征提取、特征向量降维、模型训练与融合、结果分析。本发明专利技术使用LSTM,实现对时序数据的降维,提高了模型训练和预测的效率;其次本发明专利技术使用多个机器学习模型的融合,实现了对网络中流量的识别与分类,该方法具有较高的检测准确率和较快的处理速度,在网络节点中部署,可以高效地识别并防范恶意攻击行为,保证了实时性和应用性。

【技术实现步骤摘要】
一种基于机器学习集成模型的网络入侵检测方法
本专利技术涉及计算机网络安全
,属于入侵检测(IDS),尤其涉及一种基于机器学习集成模型的网络入侵检测方法。
技术介绍
互联网应用在人们生活的各个方面,网络交互的同时留下了大量的网络痕迹。以往在网络中的流量数据大多以明文形式存在,例如HTTP协议的交互过程。随着网络技术的更新,现在网络中的流量数据都采用TLS/SSL加密协议进行加密。以往的一些基于字段的网络入侵检测方法不再有效,所以加密流量背景下的入侵检测方法是具有研究意义的。传统的流量识别包括基于IP和端口、基于有效负载的方法,现在恶意攻击者常常会伪装自己的IP地址和端口号,并且有效负载进行了加密,大大增加了流量分类的难度。结合机器学习的应用,设计高效且准确的模型具有广泛的前景。模型直接针对高维数据分类时,存在训练时间长,效率低等缺点。对于高维数据的降维,通常采用PCA、CFS等方法进行处理。传统方法在降维时只是根据数据的密度和距离等属性进行分析,没有考虑时序数据的特点;同时没有针对每种类别数据分析特征的权重。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提出了一种能够针对时序数据进行降维的方法,同时能够针对每种类别给出特征的权重排序。同时对机器学习进行模型融合,提出了一种基于机器学习集成模型的网络入侵检测方法,有效提高入侵检测的高效性和准确性。本专利技术的目的是通过以下技术方案来实现的:一种基于机器学习集成模型的网络入侵检测方法,包括以下步骤:步骤(1):将网络节点入口的流量数据进行捕获,保存至本地文件,所述本地文件中包含不同类别的DDoS攻击;步骤(2):数据预处理和特征提取:对于捕获的流量数据中重复的流量数据进行删除,按照五元组进行划分,随后进行特征提取,所述特征构成特征向量;所述特征包括:TCP标志类别相关特征、TCP标志个数相关特征、数据包大小相关特征、包间隔时间相关特征、速率相关特征;所述五元组包括:源IP、目标IP、源端口、目标端口、协议类型;步骤(3):特征向量降维:将步骤(2)中的特征向量转换为包特征向量序列,根据不同类别的DDoS攻击分别训练LSTMi模型,当损失函数值小于0.01时完成对LSTMi模型的训练;对于每一种LSTMi模型,求得前一个包特征向量序列输入训练好的LSTMi模型中的输出结果与当前包特征向量序列的均方误差MSE,并将均方误差MSE由高到低排序,并按照均方误差MSE的排列顺序,保留前10维包特征向量;将所有类别的DDoS攻击的前10维包特征向量求并集,再将并集转化成对应的五元组特征向量;所述LSTMi模型为长短期记忆网络,以神经元为结构单元,i表示DDoS攻击的类别数;步骤(4):模型训练与融合:将步骤(3)中得到的五元组特征向量分别输入随机森林-基尼机器学习模型、随机森林-熵机器学习模型、KNN-均匀权重机器学习模型、KNN-距离倒数机器学习模型、LGB机器学习模型、CatBoost机器学习模型、NN机器学习模型中,分别进行训练,当每个机器学习模型的迭代次数大于1万次或者准确率达到99.9%,完成对机器学习模型的训练;步骤(5):针对待预测流量数据经步骤(1)-(3)处理,最终获得不同类别的DDoS攻击对应的五元组特征向量,将其输入步骤(4)训练好的机器学习模型中,每个机器学习模型均获得待预测流量数据正常或异常的概率,并进行统计,根据统计结果,获得待测流量的判断结果。进一步地,所述特征提取包括:(a)对于五元组中的源IP、源端口、目标IP信息统一将字节置0,统计开始时间戳和结束时间戳、前向包和后向包的个数、长度、间隔时间、TCP标志计数;(b)分别计算前向包和后向包的长度、间隔时间的最大值、最小值、平均值与方差;(c)对于TCP标志,统计FIN、SYN、RST、PSH、ACK、URG、CWE、ECE标志出现的次数。进一步地,所述损失函数为:其中,为第个神经元的输出,为第个神经元输入的包特征向量序列,为第个神经元的均方误差MSE,为神经元个数,X为n个神经元输入的包特征向量序列的集合,Y为n个神经元输出的集合。本专利技术的有益效果是,本专利技术采用针对时序数据降维的方法,可以对每种类别的数据给出相应的特征权重和排序,进而得到降维后的特征向量,提高了模型训练和预测的效率;本专利技术使用多种机器学习算法融合,实现了对网络流量的投票预测,提高了模型的鲁棒性,避免了单个模型的过拟合,保证了高适用性和高准确率。附图说明图1是基于机器学习集成模型的网络入侵检测方法流程图;图2为本专利技术使用LSTM对特征向量进行降维的方法流程图;图3为本专利技术针对不同类别DDoS之间可代替性分析的框架结构图。具体实施方式下面根据附图详细说明本专利技术。图1为本专利技术基于机器学习集成模型的网络入侵检测方法,包括以下步骤:步骤(1):将网络节点入口的流量数据进行捕获,保存至本地文件,所述本地文件中包含不同类别的DDoS攻击。步骤(2)数据预处理和特征提取:对于捕获的流量数据中重复的流量数据进行删除,按照五元组进行划分,随后进行特征提取,所述特征构成特征向量;所述特征包括:TCP标志类别相关特征、TCP标志个数相关特征、数据包大小相关特征、包间隔时间相关特征、速率相关特征;所述五元组包括:源IP,目标IP,源端口,目标端口,协议类型。所述特征提取包括:(a)对于五元组中的源IP、源端口、目标IP信息统一将字节置0,统计开始时间戳和结束时间戳、前向包和后向包的个数、长度、间隔时间、TCP标志计数;(b)分别计算前向包和后向包的长度、间隔时间的最大值、最小值、平均值与方差;(c)对于TCP标志,统计FIN、SYN、RST、PSH、ACK、URG、CWE、ECE标志出现的次数。步骤(3)如图2所示,为特征向量降维流程图:首先将数据集分为测试集和训练集,其中训练集按照类别划分,即每份训练集只包含一种DDoS攻击的数据,将步骤(2)中的特征向量转换为包特征向量序列,根据划分好的数据,提取包特征向量序列得到对应的特征文件,根据每份训练集的特征数据分别训练LSTMi模型,当损失函数值小于0.01时完成对LSTMi模型的训练;所述损失函数为:其中,为第个神经元的输出,为第个神经元输入的包特征向量序列,为第个神经元的均方误差MSE,为神经元个数,X为n个神经元输入的包特征向量序列的集合,Y为n个神经元输出的集合。训练完成后,每一种LSTMi模型是仅由第i类DDoS数据训练得到的;测试时,将总体测试数据中第i类DDoS数据删除,使用剩余数据测试LSTMi模型。循环计算前一个包特征向量序列输入训练好的LSTMi模型中的输出结果与当前包特征向量序列的均方误差MSE,对所有求得的MSE按照特征维度对应求平均后,得到特征在每个维度的权重,将包特征向量按照每个维度的权重由高到低排序,保本文档来自技高网...

【技术保护点】
1.一种基于机器学习集成模型的网络入侵检测方法,其特征在于,包括以下步骤:/n步骤(1):将网络节点入口的流量数据进行捕获,保存至本地文件,所述本地文件中包含不同类别的DDoS攻击;/n步骤(2):数据预处理和特征提取:对于捕获的流量数据中重复的流量数据进行删除,按照五元组进行划分,随后进行特征提取,所述特征构成特征向量;所述特征包括:TCP标志类别相关特征、TCP标志个数相关特征、数据包大小相关特征、包间隔时间相关特征、速率相关特征;所述五元组包括:源IP、目标IP、源端口、目标端口、协议类型;/n步骤(3):特征向量降维:将步骤(2)中的特征向量转换为包特征向量序列,根据不同类别的DDoS攻击分别训练LSTM

【技术特征摘要】
1.一种基于机器学习集成模型的网络入侵检测方法,其特征在于,包括以下步骤:
步骤(1):将网络节点入口的流量数据进行捕获,保存至本地文件,所述本地文件中包含不同类别的DDoS攻击;
步骤(2):数据预处理和特征提取:对于捕获的流量数据中重复的流量数据进行删除,按照五元组进行划分,随后进行特征提取,所述特征构成特征向量;所述特征包括:TCP标志类别相关特征、TCP标志个数相关特征、数据包大小相关特征、包间隔时间相关特征、速率相关特征;所述五元组包括:源IP、目标IP、源端口、目标端口、协议类型;
步骤(3):特征向量降维:将步骤(2)中的特征向量转换为包特征向量序列,根据不同类别的DDoS攻击分别训练LSTMi模型,当损失函数值小于0.01时完成对LSTMi模型的训练;对于每一种LSTMi模型,求得前一个包特征向量序列输入训练好的LSTMi模型中的输出结果与当前包特征向量序列的均方误差MSE,并将均方误差MSE由高到低排序,并按照均方误差MSE的排列顺序,保留前10维包特征向量;将所有类别的DDoS攻击的前10维包特征向量求并集,再将并集转化成对应的五元组特征向量;所述LSTMi模型为长短期记忆网络,以神经元为结构单元,i表示DDoS攻击的类别数;
步骤(4):模型训练与融合:将步骤(3)中得到的五元组特征向量分别输入随机森林-基尼机器学习模型、随机森林-熵机器学习模型、KNN-均匀权重机器学习模型、KNN-...

【专利技术属性】
技术研发人员:张帆赵子鸣林峰张斌任奎赵俊单夏烨任新新段吉瑞
申请(专利权)人:浙江大学光通天下网络科技股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1