基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法技术

技术编号:35823273 阅读:25 留言:0更新日期:2022-12-03 13:49
本发明专利技术公开了一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,采用强化学习深度Q学习算法(DQN)训练多交叉口信号灯协同控制模型,根据策略诱导攻击方法分别训练替代模型和对手策略,利用训练过程中经验池的样本重构交通状态,使得目标智能体采取对手策略的指定动作,最终对训练过程中传递给邻接路口的Q值发生变化导致协同机制被恶意破坏。本发明专利技术能够在训练的最后阶段通过对替代模型计算扰动交通状态并传递给目标智能体,使得目标智能体采取攻击者指定的动作,大幅降低区域多交叉口的车辆通行效率。叉口的车辆通行效率。叉口的车辆通行效率。

【技术实现步骤摘要】
基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法


[0001]本专利技术属于智能交通与机器学习信息安全的交叉
,具体涉及一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法。

技术介绍

[0002]近年来,随着我国车辆保有量的急剧增加,交通拥堵已成为全国大中小城市普遍存在的交通问题,带来的负面问题也愈加严重,因此,交通拥堵问题的缓解刻不容缓。交叉口是道路交通网络的关键节点和主要瓶颈,因此交叉口信号智能控制在缓解交通拥堵方面起着至关重要的作用。同时,多交叉口交通信号控制越来越成为人们的研究热点。
[0003]强化学习(RL)作为交通信号控制问题的一种机器学习技术,已经产生了令人印象深刻的结果。强化学习不需要事先对环境有全面的了解,例如交通流量。相反,他们通过与环境进行不断地交互试错学习最优策略,从环境中获得观察状态后,对环境施加动作可以得到环境反馈的标量奖励值,在这过程中进行不断地学习最终使累积报酬最大化。
[0004]在多智能体强化学习中包含了协同、博弈等控制机制。在区域交通信号控制中,多智能体协同机制被用于控制区域交本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,包括以下步骤:步骤1:在多交叉口的道路网格上训练强化学习DQN多智能体协同控制模型,训练完成后模型的网络参数不再发生变化,且具有较高的迁移性,在多交叉口测试过程中体现出高流畅度且无拥堵发生;步骤2:再将训练数据用于训练替代模型和对手策略,其中替代模型用于后续生成扰动交通状态迫使目标智能体采取对手策略,对手策略被训练为采取当前交通状态下的次优信号灯相位;步骤3:在训练的最后一个阶段,从经验池提取一批训练样本,将目标智能体下一时刻的交通状态数据输入到对手策略中生成指定的对手动作,根据该对手动作,将交通状态数据输入到替代模型中并生成扰动状态迫使替代模型采取对手动作;步骤4:将上述的扰动状态添加到原始交通状态数据并输入到目标智能体中,目标智能体将输出对手策略生成的对手动作,此时的目标Q值会因为动作的改变而发生变化,使得目标智能体无法学习到最优策略,最终在相邻路口Q值传递过程中也会对邻接交叉口的Q值造成变化导致协同机制被破坏,最后在sumo上对攻击前后的多交叉口智能体模型进行流畅度对比。2.如权利要求1所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,其特征在于,所述步骤1中多交叉口的道路是十字交叉口的道路;首先在多交叉口道路网格上训练强化学习多智能体协同模型,对进入多交叉口的所有道路上的车辆进行离散交通状态编码;由于输入的交通状态数据为所有路口的全局状态信息,因此为了减少输入数据的同时保证决策不被影响,将每个路口的前半部分进行车辆状态的采集;将多交叉口从路段入口到状态采集终点之间长度为l的道路k等距离划分为等间距的c个离散单元,其中k=1,2,3,4;将t时刻第m个交叉口的道路k的车辆位置表示为车辆位置矩阵s
mk
(t),其中m=1,2,3,4;当车辆头部位于某个离散单元上时,则车辆位置矩阵s
mk
(t)对应第i个位置的值为1,否则值为0,其中i=1,2,

,c;公式表示为:其中表示车辆位置矩阵s
mk
(t)第i个位置的值;将t时刻四个交叉口输入端的车辆位置矩阵s
mk
(t)按行首尾拼接构成s
t
,公式表示为:s
t
=[s
11
(t),s
12
(t),......,s
43
(t),s
44
(t)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)再把s
t
作为t时刻的全局交通状态输入到智能体模型中训练,智能体模型输出相应的动作即红绿灯将要执行的相位。3.如权利要求2所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,其特征在于,定义交通灯的相位作为动作空间A={a1,a2,a3,a4},其中a1为东西方向绿灯,a2为东西方向左转绿灯,a3为南北方向绿灯,a4为南北方向左转绿灯;在运行时设a
n
的相位的初始时长为M,黄灯相位时长为N;在t时刻将全局交通状态s
t
输入到智能交通灯模型中,智能交通灯选择相位a
n
,其中n=1,2,3,4;当a
n
相位执行完后,智能交通灯从环境中采集t+1时刻的状态s
t+1
,然后选择相位a
n

,若a
n
≠a
n

,则a
n
相位执行时间不再延长,即a
n
相位结束,在a
n
相位结束后智能交通灯执行黄灯相位,在黄灯相位结束后,执行a
n

相位;若a
n

a
n

,则a
n
相位执行时间延长M;将第m个交叉口的奖励r
tm
设置为每个交叉口的两个连续动作之间路口车辆等待时间之差,公式表示为:其中W
tm
分别表示第m个交叉口t

1时刻和t时刻进入该交叉口所有车道的车辆总体等待时间,根据执行的动作再按照奖励值对动作进行评判,...

【专利技术属性】
技术研发人员:徐东伟王达李呈斌
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1