基于最大熵框架的强化学习的交通信号控制方法技术

技术编号:36285466 阅读:9 留言:0更新日期:2023-01-13 09:56
本发明专利技术涉及交通信号控制技术领域,提出一种基于最大熵框架的强化学习的交通信号控制方法,包括:构造仿真环境;构造基于最大熵框架的强化学习方法,并且在所述仿真环境中通过所述基于最大熵框架的强化学习方法对智能体进行训练;以及通过训练后的智能体控制交通信号。号。号。

【技术实现步骤摘要】
基于最大熵框架的强化学习的交通信号控制方法


[0001]本专利技术总的来说涉及交通信号控制
具体而言,本专利技术涉 及一种基于最大熵框架的强化学习的交通信号控制方法。

技术介绍

[0002]随着城市化的进程,交通拥堵问题变得日益严重。交通拥堵不仅会 浪费燃料,还会增加温室气体的排放,这些温室气体会导致许多不利的 环境影响,例如会导致酸雨、森林死亡或者大气能见度降低。
[0003]通过交通信号控制可以有效缓解交通拥堵的,传统的交通信号控制 方法包括基于Webster模型以及基于HCM模型的交通信号控制方法,较 为成熟的交通控制系统包括SCOOT系统以及SCATS系统。
[0004]另外随着深度学习的发展,有研究提出将深度强化学习(DRL,deepreinforcement learning)应用于交通信号控制领域,其中使用深度强 化学习控制信号灯,通过直接与环境交互,使得智能体可以通过分析交 通状态来调整交通信号计划,从而提高通行效率。
[0005]然而传统的交通信号控制方法存在依赖给定的交通模型或者依赖 于专家知识的问题,并且SCOOT系统以及SCATS系统等传统的交通控制 系统也存在难以适应动态交通控制的问题。现有的基于强化学习的交通 信号控制方法虽然不依赖于交通模型或者专家知识,然而其智能体的动 作设计仍存在缺陷。

技术实现思路

[0006]为至少部分解决现有技术中的上述问题,本专利技术提出一种基于最大 熵框架的强化学习的交通信号控制方法,包括下列步骤:
[0007]构造仿真环境;
[0008]构造基于最大熵框架的强化学习方法,并且在所述仿真环境中通过 所述基于最大熵框架的强化学习方法对智能体进行训练;以及
[0009]通过训练后的智能体控制交通信号。
[0010]在本专利技术一个实施例中规定,构造仿真环境包括:
[0011]构造智能体的观测状态、构造智能体的动作以及构造智能体的奖 励;
[0012]其中构造智能体的观测状态包括:
[0013]将流量q、平均排队长度I以及上一个周期的信号灯方案P作
[0014]为观测信息,其中所述信号灯方案P表示为下式:
[0015]P=<g1,

,g
M

[0016]其中,所述信号灯方案P由M个相位组成,g
i
表示第i个 相位的绿灯时长;以及
[0017]将环境观测向量s
t
表示为下式:
[0018]s
t
={q1…
q
i

q
N
;l1…
l
i

,l
N
;P}
t
‑1,
[0019]其中,q
i
表示车道i上的流量,l
i
分别表示车道i上的 平均排队长度。
[0020]在本专利技术一个实施例中规定,将所述智能体构造为执行微调每个相 位时长的动作,其中对每个相位分配所述智能体,通过所述智能体单独 调整每个相位的绿灯时长,并且将多个所述智能体组合形成周期循环并 以固定顺序执行。
[0021]在本专利技术一个实施例中规定,将智能体的奖励表示为下式:
[0022][0023]ω
l
∈(

1,0)
[0024]其中,ω
l
表示权重,l0为常数。
[0025]在本专利技术一个实施例中规定,所述基于最大熵框架的强化学习方法 包括下列步骤:
[0026]以表示相位的Q值并且分部对其计算,表示为下式:
[0027][0028]其中通过假设相位独立来计算,表示残差项;
[0029]以KL

散度衡量策略和策略的相似度求解第一式的最大 值,第一式表示为:
[0030][0031]将t时刻的总回报G
t
表示为下式:
[0032][0033]将表示为下式:
[0034][0035]将转换下式:
[0036][0037]根据最大熵原理设以得到下式:
[0038][0039]其中KL

散度值为信息熵与动作个数的差;
[0040]计算Q的差值ΔQ,表示为下式:
[0041]ΔQ=E
s
[r
t
+γ(E
a
[Q
t+1

τlogπ
t
])]‑
Q
t

[0042]化简ΔQ以获得对当前状态值的预测,表示为第二式:
[0043][0044]在本专利技术一个实施例中规定,根据所述第二式计算误差并且更新Q
‑ꢀ
值,其中基于Q

值和玻尔兹曼分布定义概率分布,表示为下式:
[0045]以及
[0046]通过移动平均值μ和方差σ来归一化和裁剪误差,表示为下式:
[0047]δ
t
=Q(s
t
,a
t
)

y
t
;以及
[0048]将损失函数表示为下式:
[0049][0050]本专利技术还提出一种计算机系统,其特征在于,包括:
[0051]处理器,其被配置为执行机器可执行指令;以及
[0052]存储器,其上存储有机器可执行指令,所述机器可执行指令在被处 理器执行时执行根据权利要求1

6之一所述的方法的步骤。
[0053]本专利技术还提出一种交通信号控制系统,其特征在于,包括:
[0054]信号灯;以及
[0055]计算机系统,其是权利要求7所述的计算机系统,所述计算机系统 被配置为控制所述信号灯。
[0056]本专利技术至少具有如下有益效果:本专利技术采用微调每个相位时长的动 作,其中在一个周期下发一次动作,且每次只对相位绿灯时长进行微调。 不仅有较强的鲁棒性,对数据噪声和数据传输延迟不敏感。同时这种动 作设计也将其他交通参与者(例如行人,骑自行车的人)考虑在内,不 会出现某个绿灯相位时长过长或是过短的问题。并且通过基于最大熵框 架的强化学习方法进行训练,该方法不仅考虑了不同相位之间的关系, 同时利用最大熵方法去控制方法探索和利用的平衡,从而在使用所述微 调每个相位时长的动作时,不仅保持了良好的鲁棒性,安全性,舒适性, 还提升了通行效率。
附图说明
[0057]为进一步阐明本专利技术的各实施例中具有的及其它的优点和特征,将 参考附图来呈现本专利技术的各实施例的更具体的描述。可以理解,这些附 图只描绘本专利技术的典型实施例,因此将不被认为是对其范围的限制。在 附图中,为了清楚明了,相同或相应的部件将用相同或类似的标记表示。
[0058]图1示出了实现基于最大熵框架的强化学习的交通信号控制方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于最大熵框架的强化学习的交通信号控制方法,其特征在于,包括下列步骤:构造仿真环境;构造基于最大熵框架的强化学习方法,并且在所述仿真环境中通过所述基于最大熵框架的强化学习方法对智能体进行训练;以及通过训练后的智能体控制交通信号。2.根据权利要求1所述的基于最大熵框架的强化学习的交通信号控制方法,其特征在于,构造仿真环境包括:构造智能体的观测状态、构造智能体的动作以及构造智能体的奖励;其中构造智能体的观测状态包括:将流量q、平均排队长度l以及上一个周期的信号灯方案P作为观测信息,其中所述信号灯方案P表示为下式:P=<g1,

,g
M
>其中,所述信号灯方案P由M个相位组成,g
i
表示第i个相位的绿灯时长;以及将环境观测向量s
t
表示为下式:s
t
={q1…
q
i

q
N
;l1…
l
i

,l
N
;P}
t
‑1,其中,q
i
表示车道i上的流量,l
i
分别表示车道i上的平均排队长度。3.根据权利要求2所述的基于最大熵框架的强化学习的交通信号控制方法,其特征在于,将所述智能体构造为执行微调每个相位时长的动作,其中对每个相位分配所述智能体,通过所述智能体单独调整每个相位的绿灯时长,并且将多个所述智能体组合形成周期循环并以固定顺序执行。4.根据权利要求3所述的基于最大熵框架的强化学习的交通信号控制方法,将智能体的奖励表示为下式:ω
l
∈(

1,0)其中,ω
l
表示权重,l0为常数。5.根据权利要求4所述的基于最大熵...

【专利技术属性】
技术研发人员:阚宇衡王茂南谷心洋
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1