一种基于多智能体深度强化学习的公交优先交通信号协同控制方法技术

技术编号：40772781 阅读：10 留言：0更新日期：2024-03-25 20:20

本发明专利技术提出了一种基于多智能体深度强化学习的公交优先交通信号协同控制方法，旨在优化城市交通流并提高公交车辆的通行效率。该方法包括以下步骤：首先，通过城市交通监控系统实时收集交通状态数据，包括车辆流量、交通拥堵程度和交通信号灯状态等信息。然后，将这些数据输入到预先训练好的深度Q网络模型中。该模型使用历史交通状态数据训练，能够预测不同交通信号灯控制策略对公交车辆通行效率的影响。根据模型预测的结果，系统自动调整交通信号灯的控制策略，优先保障公交车辆的畅通和准点到站。在此基础上，模型还能够根据实时数据不断学习和调整，以适应交通状况的变化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于智能交通控制，具体涉及一种基于多智能体深度强化学习的公交优先交通信号协同控制方法。

技术介绍

1、城市交通拥堵是一个严重的全球性问题，不仅浪费了大量的时间和资源，还对环境造成了负面影响。现有的交通信号控制方法通常是基于预定的定时计划或传感器数据，缺乏灵活性以适应实时交通情况。特别是，公共交通工具，如公交车，通常受到交通拥堵的严重影响，导致不准时和不可预测的公共交通服务。

2、传统的交通信号控制方法往往难以有效地应对多变的路况和需求，通常无法有效协调多个交叉路口的信号灯，以确保公共交通工具的顺畅流动。特别是如果需要进一步考虑公交车的到达准点率问题，这导致了其他车辆的交通拥堵、排放增加和乘客不满。因此，迫切需要一种新的方法，能够在多个交叉路口之间实现协同控制，以提高公共交通工具的运行效率和准时性，同时减少交通拥堵。

3、目前主要探索采用建立绿灯延长与红灯早断策略下的相位快速补偿机制来优化公交车辆通行效率，这一策略旨在根据公交车到达交叉口时间将交通信号灯调整为绿灯，使得公交车辆能够在交叉口快速通过，从而减少在交叉口的停车等候时间，减少公交车的总旅行时间。然而，公共交通优先级得到过多的关注，导致其他交通参与者的通行需求被忽视，造成一般交通的延迟和不便，增加了其他私人车辆在交叉口的等待时间，并增加了停车次数，加剧了车辆对环境的污染。

技术实现思路

1、目的：鉴于以上技术问题中的至少一项，本专利技术提供一种基于多智能体深度强化学习的公交优先交通信号协同控制

2、本专利技术采用的技术方案为：

3、第一方面，本专利技术提供一种公交优先交通信号协同控制方法，包括：

4、获取目标智能体的当前交通状态数据；所述交通状态数据包括车辆流量、交通拥堵程度和交通信号灯状态信息；其中一个智能体对应一个交通信号灯；

5、将所述当前交通状态数据输入深度q网络模型；

6、根据所述深度q网络模型的输出，对目标智能体对应的交通信号灯进行控制；

7、其中所述深度q网络模型的获取方法包括：

8、获取历史时间段目标子区域内所有智能体的交互数据(当前交通状态s，动作a，奖励r，新交通状态s′)，放入经验回放缓冲区中；具体包括：在每个时间步，智能体获取当前交通状态s；将当前交通状态s输入深度q网络模型中，所述模型为每个可能的动作计算一个q值，并基于∈-greedy策略，根据计算出的q值选择动作a；获取执行所述动作a后得到的立即奖励r以及新交通状态s′；

9、从经验回放缓冲区中随机抽取批量样本，利用梯度下降方法训练更新深度q网络模型的网络参数，直至达到预设要求；

10、根据更新后的网络参数，分别对各智能体中的深度q网络模型的网络参数进行更新。

11、在一些实施例中，每个智能体的交通状态数据包括：信号灯的当前相位、标志位、车道密度、车道队列以及公交车专用车道的车辆密度和公交车专用车道的车道队列。

12、进一步地，交通状态s表示为：

13、s＝[current_phase，min_green，lane_density，lane_queue,bus_lane_density,bus_lane_queue]

14、其中current_phase表示交通信号灯的当前相位，采用one-hot独热编码表示；标志位min_green指示当前相位的持续时间是否已达到预设的最小持续时间；若未达到最小持续时间，任何切换相位的动作都将被视为无效；bus_lane_density：公交车专用车道的车辆密度；bus_lane_queue：公交车专用车道的队列长度与车道总长度的比值；

15、车道密度lane_density表示交通信号灯所在路口的驶入车道的占用率；lane_density[i]＝车辆数量number_of_vehicles/总容量total_capacity

16、其中i用于区分交通信号灯所在路口中的不同驶入车道；

17、车道队列lane_queue表示的是驶入车道的队列长度queue_length与车道总长度total_apacity的比值：

18、lane_queue[i]＝queue_length/tatal_apacity

19、当存在多条驶入车道时，i用于区分不同的驶入车道。

20、在一些实施例中，所述奖励函数reward为：

21、reward＝-(β·bt+st)

22、其中bt表示公交车的准点误差，st表示当前交通状态中所有车辆的累计延误时间；β为权重参数。

23、进一步地，所述奖励函数的计算方法包括：

24、(1)根据公交车实时位置与时刻表时间差计算公交车的准点误差bt；

25、bt＝ert+lrt

26、其中，ert和lrt表示公交车进站、出站的奖励值；

27、若公交车提前到站，将损失乘以一个较小的值0.01以降低对提前到站行为的惩罚；

28、

29、

30、

31、其中，δti＝taai-tsai

32、其中，n表示路网中公交车的总停靠次数，taai、tadi表示公交车自发车至进、出i站台的时间间隔，tsai、tsdi表示时刻表规定的公交车自发车至进、出i站台的时间间隔；

33、(2)根据交通信号灯周边每个路口车队长度和等待时间计算当前交通状态中所有车辆的累计延误时间st；

34、

35、其中n是车辆的总数，di，t是第i辆车从时间0到时间t的累计延误时间，车辆的延误时间被定义为该车停车等待的时间；

36、(3)根据公交车的准点误差bt和当前交通状态中所有车辆的累计延误时间st，进行加权计算奖励函数reward。

37、在一些实施例中，所述深度q网络模型，包括：

38、q′(s，a)＝q(s，a)+α[r+γmaxa′q(s′，a′)-q(s，a)]

39、其中：q′(s，a)：更新后的q值；

40、q(s，a)：当前状态s下采取动作a的原始q值；；

41、α：学习率，决定新信息覆盖旧信息的程度；

42、r：执行动作a后获得的立即奖励；

43、γ：折扣因子，用于平衡立即奖励和未来奖励的重要性；

44、maxa′q(s′，a′)：在新交通状态s′下所有可能动作的最大q值。

45、在一些实施例中，利用梯度下降方法训练更新深度q网络模型的参数的过程中，采用的损失函数loss为：

46、

47、其中：q(s，a)表示当前的q值，qtarget(s，a)表示目标q值。

48、第二方面，本专利技术提本文档来自技高网...

【技术保护点】

1.一种公交优先交通信号协同控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，每个智能体的交通状态数据包括：信号灯的当前相位、标志位、车道密度、车道队列以及公交车专用车道的车辆密度和公交车专用车道的车道队列。

3.根据权利要求1或2所述的方法，其特征在于，交通状态s表示为：

4.根据权利要求1所述的方法，其特征在于，所述奖励函数Reward为：

5.根据权利要求1或4所述的方法，其特征在于，所述奖励函数的计算方法包括：

6.根据权利要求1所述的方法，其特征在于，所述深度Q网络模型，包括：

7.根据权利要求1所述的方法，其特征在于，利用梯度下降方法训练更新深度Q网络模型的参数的过程中，采用的损失函数loss为：

8.一种公交优先交通信号协同控制系统，其特征在于，包括处理器及存储介质；

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。

10.一种设备，其特征在于，包括：

【技术特征摘要】

1.一种公交优先交通信号协同控制方法，其特征在于，包括：

3.根据权利要求1或2所述的方法，其特征在于，交通状态s表示为：

4.根据权利要求1所述的方法，其特征在于，所述奖励函数reward为：

5.根据权利要求1或4所述的方法，其特征在于，所述奖励函数的计算方法包括：...

【专利技术属性】
技术研发人员：王从宇，王翀，黎乐齐，梁展，张韵怡，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人