【技术实现步骤摘要】
一种基于模仿学习的智能路由决策保护方法和装置
[0001]本专利技术属于智能路由安全
,尤其涉及一种基于模仿学习的智能路由决策保护方法和装置。
技术介绍
[0002]近年来,随着互联网技术的不断发展,使网络系统连接对象变得海量化、连接关系复杂化,传统基于人工配置的路由决策方法导致在有限时间内无法配置出最优的路由决策,促使研究人员将人工智能算法引入到智能路由决策过程中。随着强化学习的快速发展和应用,强化学习已在机器人控制、计算机视觉、无人驾驶等领域被广泛使用,而深度强化学习结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略,将深度强化学习算法与路由决策结合,可在很大程度上解决网络传输中丢包率高,网络分配流量不均以及资源利用率不高等问题。
[0003]已有研究表明,通过恶意状态输入导致的恶意流量攻击,将会改变训练集中的数据,从而使路由决策发生改变,令智能体动作选取失误,最终使智能体达不到学习目的。
技术实现思路
[0004]目前,互联网应用越来越广泛,随着网络路由决策也面临着越来越大 ...
【技术保护点】
【技术特征摘要】
1.一种基于模仿学习的智能路由决策保护方法,其特征在于,所述方法包括:步骤S1、基于软件定义网络SDN中各个网络节点的流量状态矩阵,利用Q网络算法对目标智能体进行预训练,所述目标智能体为所述软件定义网络SDN中用于将流量下发至所述各个网络节点的控制器;所述预训练具体包括:步骤S1.1、获取第一Q网络的网络结构,构建具有所述第一Q网络的网络结构的第二Q网络,所述第一Q网络为所述Q网络算法中当前状态的Q目标网络,所述第二Q网络为所述Q网络算法中构建的Q预测网络;步骤S1.2、基于所述第一Q网络的Q值和所述第二Q网络的Q值计算Q值损失函数,当所述Q值损失函数具有最小值时,所述预训练过程结束,所述目标智能体具有将所述流量以最优策略进行下发的决策能力;步骤S2、利用经预训练的目标智能体执行流量下发任务。2.根据权利要求1所述的一种基于模仿学习的智能路由决策保护方法,其特征在于,在所述步骤S1中:将所述软件定义网络SDN中各个网络节点在状态转换过程产生的数据存储在经验回放缓冲区中,以基于经验回放机制将所述经验回放缓冲区中的数据作为所述流量状态矩阵,以随机采样的方式执行批处理的预训练过程;对于所述第一Q网络,利用不断最小化的所述Q值损失函数通过迭代更新所述第一Q网络的网络参数,对于所述第二Q网络,以固定时间间隔获取所述第一Q网络的网络参数,以延时更新的方式更新所述第二Q网络的网络参数。3.根据权利要求2所述的一种基于模仿学习的智能路由决策保护方法,其特征在于,在所述步骤S1.2中:所述第一Q网络的Q值和所述第二Q网络的Q值利用如下方式来确定:当用于接收下发的流量的节点接收到所述下发的流量时,将所述第一Q网络的Q值和所述第二Q网络的Q值置为1;当所述用于接收下发的流量的节点在超过第一阈值的时间后仍未接收到所述下发的流量时,首先将所述第一Q网络的Q值和所述第二Q网络的Q值置为0;进一步判断所述用于接收下发的流量的节点所属的交换机是否连接在线,若是,则维持所述第一Q网络的Q值和所述第二Q网络的Q值为0不变,若否,则将所述第一Q网络的Q值和所述第二Q网络的Q值置为
‑
1;在基于所述第一Q网络的Q值和所述第二Q网络的Q值计算所述Q值损失函数时,限制选取所述第一Q网络的Q值和所述第二Q网络的Q值为
‑
1的情况,以减少所述交换机未连接在线的情况下的无效训练探索。4.根据权利要求3所述的一种基于模仿学习的智能路由决策保护方法,其特征在于,在所述步骤S2中,利用经预训练的目标智能体执行流量下发任务时,同步收集由所述经预训练的目标智能体下发的流量的轨迹数据,作为真实状态策略下的序列轨迹数据,所述真实状态策略下的序列轨迹数据用于训练Gail(Generative Adversarial Imitation Learning)判别器网络;所述方法还包括:步骤S3、在利用经预训练的目标智能体执行流量下发任务的过程中检测到恶意流量攻击时,利用经训练的Gail判别器网络生成替代决策,所述经预训练的目标智能体以所述替
代决策执行...
【专利技术属性】
技术研发人员:杨林,冯涛,张京京,高先明,王雯,陶沛琳,
申请(专利权)人:军事科学院系统工程研究院网络信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。