一种网络入侵检测方法、装置及设备制造方法及图纸

技术编号:29464946 阅读:23 留言:0更新日期:2021-07-27 17:51
本发明专利技术公开了一种基于多智能体深度确定性策略梯度模型的网络入侵检测方法,涉及计算机网络安全技术领域。包括:获取待检测网络流量数据;将待检测网络流量数据输入至基于多智能体深度确定性策略梯度的神经网络模型中,检测异常网络流量;基于多智能体深度确定性策略梯度的神经网络模型的确定包括:获取网络流量训练样本;采用多智能体深度确定性策略梯度,通过网络流量训练样本,对Actor网络和Critic网络进行训练;采用策略梯度对Actor网络参数进行更新;采用损失函数对Critic网络参数进行更新。本发明专利技术的多智能体深度确定性策略梯度,采用简单快速的神经网络,更易部署在苛刻的网络环境中;也能以对抗性学习方式提高数量较少流量样本的检测准确率。

A network intrusion detection method, device and equipment

【技术实现步骤摘要】
一种网络入侵检测方法、装置及设备
本专利技术涉及网络入侵检测
,更具体的涉及一种基于多智能体深度确定性策略梯度(Multi-AgentDeepDeterministicPolicyGradient,MADDPG)模型的网络入侵检测方法、装置及设备。
技术介绍
网络入侵检测是目前应用最广泛也最有效的以数据驱动的网络安全主动防御方法,基于实时网络流量数据建立相应的攻击评测机制,从而实现对攻击行为的检测和预防。传统的入侵检测方法通常是通过对比已构建的网络行为模式或规则来检测当前网络连接属于正常状态还是攻击风险状态。随着互联网环境的更新换代,网络流量数据呈现出海量,高维复杂且各类别呈现不均衡的特点,直接用来进行攻击行为模式发现十分困难。传统的网络入侵检测方法出现检测效率低下、准确率较低、误报率和漏报率较高的问题,已不能满足网络信息安全的需求。传统的机器学习方法通常需要人工选取特征,且需要大量的领域专业知识,是较为浅层的学习方法。然而,随着网络中海量数据的增加,网络带宽的提升,数据的复杂性和特征的多样性也在不断提升,浅层学习难以达到分析和预测的目的。2006年Hinton教授提出了深度学习理论,与传统机器学习不同,深度学习方法学习的是样本数据的内在规律和表示层次,构建多个隐藏层组建的非线性网络结构能够适应较高维度学习和预测的要求,效率更高,节省了大量特征提取的时间,可根据问题自动建立模型,不局限于某个固定的问题,在解决入侵检测问题中很有前景。但是由于其内部结构复杂,训练预测时间较长,无法部署在苛刻的网络环境当中。此外,虽然其能够应对复杂的高维流量数据,但是很难解决数据集不均衡造成的异常攻击流量识别准确率偏低的问题。
技术实现思路
本专利技术实施例提供一种基于多智能体深度确定性策略梯度模型的网络入侵检测方法、装置及设备,用以解决上述
技术介绍
中提出的问题。本专利技术实施例提供的一种基于多智能体深度确定性策略梯度模型的网络入侵检测方法,包括:获取待检测网络流量数据;将待检测网络流量数据输入至基于多智能体深度确定性策略梯度的神经网络模型中,检测异常网络流量;其中,所述基于多智能体深度确定性策略梯度的神经网络模型的确定,包括:获取网络流量训练样本;采用多智能体深度确定性策略梯度,通过网络流量训练样本,对Actor网络和Critic网络进行训练;采用策略梯度,对Actor当前网络的参数进行更新;采用损失函数,对Critic当前网络的参数进行更新。进一步地,所述网络流量训练样本,包括:当前流量特征集合S=(st,st+1,…st+n)、当前流量特征标签集合和下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)。进一步地,所述对Actor网络和Critic网络进行训练,具体包括:将当前流量特征集合S=(st,st+1,…st+n)输入到Actor当前网络中,通过策略函数提供在给定状态下的动作概率分布,确定当前最佳流量特征标签A=(at,at+1,…at+n);将下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)输入到Actor目标网络中,通过策略函数提供在给定状态下的动作概率分布,确定下一阶段最佳流量特征标签A'=(a′t+n+1,a′t+n+2,…,a′t+2n);将当前最佳流量特征标签A=(at,at+1,…at+n)和当前流量特征标签集合进行匹配,如果一致,奖励值为1;如果不一致,奖励值为0,奖励集合为r=(r1,r2,…,rn);将当前流量特征集合S=(st,st+1,…st+n)和当前最佳流量特征标签A=(at,at+1,…at+n)输入到Critic当前网络中,计算所有当前Q函数值集合;将下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)和下一阶段最佳流量标签A'=(a′t+n+1,a′t+n+2,…,a′t+2n)输入到Critic目标网络中,计算所有目标Q函数值集合。进一步地,所述策略梯度为:其中,n个智能体且策略为θ={θ1,θ2,…θn}参数化的博弈,当前多智能体确定性策略为μ={μ1,μ2,…μn};是所有Critic当前网络的值函数集合。进一步地,所述损失函数为:其中,γ为衰减因子;μ‘=(μ′1,μ'2,…,μ'n)是具有延迟参数θ′i的Actor目标策略集合,是所有Critic目标网络集的值函数集合。进一步地,本专利技术实施例提供的基于多智能体深度确定性策略梯度模型的网络入侵检测方法,还包括:采用软更新方式,通过下式,对Actor目标网络和Critic目标网络的参数进行更新;θ′i←τθi+(1-τ)θ′i其中,τ为软更新系数。另外,本专利技术实施例还提供了一种基于多智能体深度确定性策略梯度模型的网络入侵检测装置,包括:流量获取模块,用于获取待检测网络流量数据;异常流量检测模块,用于将待检测网络流量数据输入至基于多智能体深度确定性策略梯度的神经网络模型中,获得异常网络流量;其中,所述基于多智能体深度确定性策略梯度的神经网络模型,包括:训练样本获取单元,用于获取网络流量训练样本;网络训练单元,用于采用多智能体深度确定性策略梯度,通过网络流量训练样本,对Actor网络和Critic网络进行训练;Actor当前网络参数更新单元,用于采用策略梯度,对Actor当前网络的参数进行更新;Critic当前网络参数更新单元,用于采用损失函数,对Critic当前网络的参数进行更新。另外,本专利技术实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器内存储有程序,所述处理器执行程序时实现上述方法的步骤。本专利技术实施例提供一种基于多智能体深度确定性策略梯度模型的网络入侵检测方法、装置及设备,与现有技术相比,其有益效果如下:本专利技术采用多智能体集中训练、分布式执行的方式,即每个智能体根据自身策略得到当前状态执行的动作,并存入到经验池当中,使用时每个智能体再从经验池当中随机抽取训练自身的网络。由于每个智能体训练一个需要全局的Critic以及一个需要局部信息的Actor,并且允许每个智能体有自己的奖励函数,因此可以用于对抗任务学习过程中,迫使智能体最大限度的学习数量较低且较难学习的流量样本,来解决流量不均衡的问题,以此提升异常攻击流量检测准确率。还有,本专利技术特别适用于不平衡的数据集条件下,可以更精确地检测异常流量。当今进行仿真模拟的数据集各类别间大小极其不均衡,异常攻击流量数量相对偏低。本专利技术在仿真模拟环境下,能够有效应对数据集各类别间相对不平衡问题,提升对少量异常攻击流量的检测准确率,以保护用户的信息和财产安全。附图说明图1为本专利技术实施例提供的深度确定性策略梯度模型;图2为本专利技术实施例提供的多智能体深度确定策略梯度模型。具体实施方式下面将结合本专利技术实施例中本文档来自技高网
...

【技术保护点】
1.一种网络入侵检测方法,其特征在于,包括:/n获取待检测网络流量数据;/n将待检测网络流量数据输入至基于多智能体深度确定性策略梯度的神经网络模型中,检测异常网络流量;其中,/n所述基于多智能体深度确定性策略梯度的神经网络模型的确定,包括:/n获取网络流量训练样本;/n采用多智能体深度确定性策略梯度,通过网络流量训练样本,对Actor网络和Critic网络进行训练;/n采用策略梯度,对Actor网络参数进行更新;/n采用损失函数,对Critic网络参数进行更新。/n

【技术特征摘要】
1.一种网络入侵检测方法,其特征在于,包括:
获取待检测网络流量数据;
将待检测网络流量数据输入至基于多智能体深度确定性策略梯度的神经网络模型中,检测异常网络流量;其中,
所述基于多智能体深度确定性策略梯度的神经网络模型的确定,包括:
获取网络流量训练样本;
采用多智能体深度确定性策略梯度,通过网络流量训练样本,对Actor网络和Critic网络进行训练;
采用策略梯度,对Actor网络参数进行更新;
采用损失函数,对Critic网络参数进行更新。


2.如权利要求1所述的网络入侵检测方法,其特征在于,所述网络流量训练样本,包括:
当前流量特征集合S=(st,st+1,…st+n)、当前流量特征标签集合和下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)。


3.如权利要求2所述的网络入侵检测方法,其特征在于,所述对Actor网络和Critic网络进行训练,具体包括:
将当前流量特征集合S=(st,st+1,…st+n)输入到Actor当前网络中,通过策略函数提供在给定状态下的动作概率分布,确定当前最佳流量特征标签A=(at,at+1,…at+n);
将下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)输入到Actor目标网络中,通过策略函数提供在给定状态下的动作概率分布,确定下一阶段最佳流量特征标签A'=(a't+n+1,a't+n+2,…,a't+2n);
将当前最佳流量特征标签A=(at,at+1,…at+n)和当前流量特征标签集合进行匹配,如果一致,奖励值为1;如果不一致,奖励值为0,奖励集合为r=(r1,r2,…,rn);
将当前流量特征集合S=(st,st+1,…st+n)和当前最佳流量特征标签A=(at,at+1,…at+n)输入到Critic当前网络中,计算所有当前Q函数值集合;
将下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)和下一阶段最佳流量...

【专利技术属性】
技术研发人员:董仕夏元俊
申请(专利权)人:周口师范学院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1