基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法技术

技术编号:35823243 阅读:8 留言:0更新日期:2022-12-03 13:49
本发明专利技术公开了一种基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法,基于已由强化学习算法DQN训练好的交通信号灯控制模型,利用JSMA攻击的前向导数雅各比矩阵和显著图制作对抗样本,将符合限制的对抗样本输入智能体模型中,最后在sumo上分析单交叉口路段的交通状况,以此检验对抗攻击的效果。本发明专利技术可以在只修改一小部分原始状态的情况下,对最终的信号灯输出动作造成较大的影响,以此高效地影响单交叉口路段的道路交通状况,降低模型的性能。降低模型的性能。降低模型的性能。

【技术实现步骤摘要】
基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法


[0001]本专利技术属于智能交通与深度强化学习的交叉
,具体涉及一种基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法。

技术介绍

[0002]随着城镇化进程的加快和城市发展水平的飞速提高,交通状况越来越成为现代城市系统中的重要考虑因素。面对日趋严重的交通拥堵,可寄希望于设计智能化的交通系统,通过更高水平的自动化来实现更高效的交通管理,从而达到节省交通时间、节约交通能源、降低交通风险等目的。
[0003]智能交通系统对自动控制有着严格的要求,因此考虑借助基于学习模型的人工智能技术,实现对系统自适应的控制。强化学习(RL)作为机器学习中的分支,区别于传统的监督学习和无监督学习,其主要特点在于在交互中学习。即强化学习模型中的智能体会与周围环境进行互动,在输出动作的同时接收反馈。通过预设的奖励机制,智能体能够评估之前采取的动作并逐步学习到环境的信息,从而掌握能够获取最大奖励的行动策略,这也就是强化学习智能体的目标。与深度神经网络结合产生的深度强化学习(DRL),由于其出色的决策和感知能力,目前具备极大的应用潜力。如在交通信号灯的控制优化问题中,DRL就有希望成为新的解决方案。但同时,DRL也被证实容易受到对抗性扰动的影响,可能会带来各种意想不到的潜在危害。
[0004]随着DRL日益成为人工智能研究的热点并在图像、游戏、无人系统等领域得到越发广泛的应用,其对于攻击的鲁棒性也受到更多的关注。通过提出威胁模型和可能的攻击手段,研究人员能够建立更加完善的防御机制,以此提升DRL模型面对攻击的抵抗能力。在本专利技术中,我们采用具有代表性的Deep Q Network(DQN)算法,以单交叉口信号灯的控制为应用场景,并基于雅各比显著图法(JSMA)进行攻击生成对抗样本。

技术实现思路

[0005]为了拓展已有的技术,本专利技术提供一种基于雅各比显著图的单交叉口信号灯控制的交通状态对抗生成方法,可以在只添加少量扰动的前提下形成高效的对抗样本,使得信号灯的输出动作发生显著变化,对模型的性能和单交叉口路段的交通流畅度造成大幅影响。
[0006]本专利技术采用的技术方案是:
[0007]一种基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法,包括以下步骤:
[0008]步骤1:在模拟的单交叉口路段对智能体模型进行训练,并使DQN网络保持训练后的w、b参数不变,模型具有一定的可迁移性;初始训练完成的智能体在模拟路段应表现出较好的交通流畅度,与对抗攻击施加后形成的流畅度形成对比;
[0009]步骤2:在单交叉口的各个路口获取道路状态作为模型的输入,即每条道路上的车辆数量与车辆位置,模型则会给出相应的动作输出,即信号灯的相位,然后基于JSMA攻击算法添加扰动生成对抗样本;
[0010]步骤3:计算扰动的幅度,若扰动在限制的范围以内,则将上一步得到的对抗状态输入模型,否则输入原始的状态;
[0011]步骤4:扰动输入后,模型会输出相应的信号灯动作,来控制单交叉口的道路交通状况,通过对比经过交叉路口车辆的等待时间,可以分析对抗攻击的效果。
[0012]进一步的,所述步骤1的过程如下:
[0013]首先在sumo的单交叉口道路上训练强化学习智能体模型;
[0014]其次对环境中所有道路上的交通状态做离散化处理:设道路入口到停车线的距离为l,将道路上的车道k(k=1,2,3,4)等距离划分为c个单元;t时刻车道k上的车辆位置表示为矩阵s
k
(t),当车辆的头部位于某个离散单元上时,则s
k
(t)对应位置i(i=1,2,...,c)的值为0.5,否则为

0.5;将四个路口的s
k
(t)按行排列,即得到要输入到模型中的原始环境状态s
t

[0015]对于智能体模型,输入作为交通状况的环境状态,将得到特定的交通信号灯动作;将信号灯相位作为智能体的动作空间A={a1,a2,a3,a4},其中a1为南北方向直行绿灯,a2为南北方向左转绿灯,a3为东西方向直行绿灯,a4为东西方向左转绿灯;设置a
i
的初始绿灯相位持续时长为m,黄灯相位时长为n;将当前状态s
t
输入到模型中,智能体输出相应的a
i
(i=1,2,3,4)作为动作,a
i
的持续时间结束后,智能体继续从环境中采集下一时刻的状态s
t+1
,然后输出相位a
j
(j=1,2,3,4);若a
i
≠a
j
,a
i
的绿灯相位结束后执行n时长的黄灯相位,之后再执行a
j
相位;否则将a
i
的执行时间延长m时长;将强化学习的奖励r
t
设置为两个动作之间路口车辆总等待时间之差,公式表示如下:
[0016]r
t
=W
t

W
t+1
ꢀꢀꢀ
(1)
[0017]其中W
t
,W
t+1
分别表示t和t+1时刻进入单交叉口所有车辆的等待时间之和;使用DQN作为强化学习模型,初始化后神经网络的输出即为Q值;深度神经网络的隐含层使用Relu作为激活函数,输出的神经元个数设置为与交通信号灯的动作空间大小相等;公式表示如下:
[0018]Q=h(ws
t
+b)
ꢀꢀꢀ
(2)
[0019]其中w表示神经网络的权重,s
t
为t时刻网络的输入,b为偏置,h(.)代表Relu激活函数。DQN的损失函数表示为:
[0020][0021]L
t
=(y
t

Q(s
t
,a
i
;θ

))2ꢀꢀꢀ
(4)
[0022]其中γ为学习率,θ和θ

分别代表目标网络和估计网络的参数w、b以及w

、b

;随着强化学习智能体的训练,目标网络的参数根据时间步长进行更新,更新方式为每隔时间T从估计网络中直接复制参数到目标网络中,公式表示如下:
[0023][0024][0025]进一步的,所述步骤2的过程如下:
[0026]2.1:获取原始的环境状态s
t
,将其输入已经训练好的DQN智能体模型中,选择出使Q函数值最大的动作a
m
(m=1,2,3,4),即为此时刻最优的信号灯动作,公式表示如下:
[0027][0028]其中θ表示训练好的智能体的参数w、b,am表示交通信号灯接下来的动作。
[0029]2.2:基于JSMA攻击算法,沿梯度方向计算神经网络输出对于输入的雅各比矩阵,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法,包括以下步骤:步骤1:在模拟的单交叉口路段对智能体模型进行训练,并使DQN网络保持训练后的w、b参数不变,模型具有一定的可迁移性;初始训练完成的智能体在模拟路段应表现出较好的交通流畅度,与对抗攻击施加后形成的流畅度形成对比;步骤2:在单交叉口的各个路口获取道路状态作为模型的输入,即每条道路上的车辆数量与车辆位置,模型则会给出相应的动作输出,即信号灯的相位,然后基于JSMA攻击算法添加扰动生成对抗样本;步骤3:计算扰动的幅度,若扰动在限制的范围以内,则将上一步得到的对抗状态输入模型,否则输入原始的状态;步骤4:扰动输入后,模型会输出相应的信号灯动作,来控制单交叉口的道路交通状况,通过对比经过交叉路口车辆的等待时间,可以分析对抗攻击的效果。2.如权利要求1所述的基于雅各比显著图的单交叉口信号灯控制的交通状态对抗扰动生成方法,其特征在于,所述步骤1的过程如下:首先在sumo的单交叉口道路上训练强化学习智能体模型;其次对环境中所有道路上的交通状态做离散化处理:设道路入口到停车线的距离为l,将道路上的车道k(k=1,2,3,4)等距离划分为c个单元;t时刻车道k上的车辆位置表示为矩阵s
k
(t),当车辆的头部位于某个离散单元上时,则s
k
(t)对应位置i(i=1,2,...,c)的值为0.5,否则为

0.5;将四个路口的s
k
(t)按行排列,即得到要输入到模型中的原始环境状态s
t
;对于智能体模型,输入作为交通状况的环境状态,将得到特定的交通信号灯动作;将信号灯相位作为智能体的动作空间A={a1,a2,a3,a4},其中a1为南北方向直行绿灯,a2为南北方向左转绿灯,a3为东西方向直行绿灯,a4为东西方向左转绿灯;设置a
i
的初始绿灯相位持续时长为m,黄灯相位时长为n;将当前状态s
t
输入到模型中,智能体输出相应的a
i
(i=1,2,3,4)作为动作,a
i
的持续时间结束后,智能体继续从环境中采集下一时刻的状态s
t+1
,然后输出相位a
j
(j=1,2,3,4);若a
i
≠a
j
,a
i
的绿灯相位结束后执行n时长的黄灯相位,之后再执行a
j
相位;否则将a
i
的执行时间延长m时长;将强化学习的奖励r
t
设置为两个动作之间路口车辆总等待时间之差,公式表示如下:r
t
=W
t

W
t+1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中W
t
,W
t+1
分别表示t和t+1时刻进入单交叉口所有车辆的等待时间之和;使用DQN作为强化学习模型,初始化后神经网络的输出即为Q值;深度神经网络的隐含层使用Relu作为激活函数,输出的神经元个数设置为与交通信号灯的动作空间大小相...

【专利技术属性】
技术研发人员:徐东伟刘沛文王达李呈斌
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1