一种基于注意力机制的深度强化学习交通信号控制方法技术

技术编号：40755399 阅读：2 留言：0更新日期：2024-03-25 20:09

本发明专利技术公开了一种基于注意力机制的深度强化学习交通信号控制方法，构建交通道路路网模型，获得各个道路每个车道的车辆交通信息；分析当前道路路网模型，建立以各个交叉口为代理的多智能体深度学习框架，设定抽象定义及集合；采用去中心化思想，基于D3QN增强学习基础网络结构，构建Q学习离线策略以及γ注意力奖励策略；基于γ注意力奖励策略，设计基于注意力机制的修正回放数据缓冲层算法；选取模拟数据和实际检测交通数据，采用Colight算法中超参数邻居作用域确定各个交叉口代理的邻居数目初始化，根据交通流实际数据带入进行仿真迭代，快速得到最优决策仿真结果，解决了多交叉口的城市交通拥堵的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及交通信号控制，具体涉及一种基于注意力机制的深度强化学习交通信号控制方法。

技术介绍

1、当前，城市的交通拥堵问题日趋严重，造成了巨大的经济成本和时间浪费。交通拥堵是由多种因素引起的，如交通超载、车道结构设计不良等。有些因素需要复杂的政策或长期规划。而有效的交通信号控制是提高车道通行效率、缓解交通拥堵最直接、成本最低的途径。

2、交通信号控制对于建设智慧城市至关重要，随着深度强化学习技术的发展，大量的研究将深度强化学习用于单交叉口交通信号控制，但对于城市交通而言，城市交通通常由多交叉口组成，建模过程中不应忽视多个交叉点之间的相互影响。若仅仅对单交叉口进行分析并不能缓解城市交通的拥堵问题，城市交通仍处于拥堵的状态。

3、因此，亟需一种对多交叉口进行综合分析的深度强化学习交通信号控制方法以缓解城市交通拥堵的问题。

技术实现思路

1、针对
技术介绍
所提出的问题，本专利技术目的在于一种基于注意力机制的深度强化学习交通信号控制方法，解决了多交叉口的城市交通拥堵的问题。

2、本专利技术通过下述技术方案实现：

3、本专利技术提供了一种基于注意力机制的深度强化学习交通信号控制方法，包括如下步骤：

4、步骤s1、构建交通道路路网模型并获取车辆交通信息，通过所述交通道路路网模型和所述车辆交通信息构建多智能体深度学习模型；

5、步骤s2、基于d3qn增强学习网络结构构建q学习策略和γ注意力奖励策略，通过所述q学习策略和所述

6、步骤s3、获取模拟数据或/和历史数据，通过colight算法确定训练参数，将所述训练参数以及所述模拟数据或/和历史数据输入修正后的多智能体深度学习模型进行训练；

7、步骤s4、获取实际交通流数据，将所述实际交通流数据输入训练后的多智能体深度学习模型，得到交通信号控制策略。

8、在上述技术方案中，基于开源osm数据或者实际数据构建交通道路路网模型，通过视频分析结合测试雷达等融合数据接口获得各个道路每个车道的车辆交通信息；分析当前道路路网模型，尤其是道路交叉口，建立以各个交叉口为代理(agent)的多智能体深度学习框架(madrl)，而后根据内部各个代理关系抽象设定环境状态集合、动作集合、环境状态的转移概率、奖励值函数、折扣值函数以及学习规则等抽象定义及集合；采用去中心化思想，基于d3qn增强学习基础网络结构，构建兼具探索性和一致性的q学习离线策略以及γ注意力奖励策略；基于γ注意力奖励策略，为了实际系统开发设计基于注意力机制的修正回放数据缓冲层算法；选取符合交叉道路信息和道路路网模型的交通流信息的模拟数据和实际检测交通数据，采用colight算法中超参数邻居作用域确定各个交叉口代理的邻居数目初始化，根据交通流实际数据带入进行仿真迭代，快速得到最优决策仿真结果，解决了多交叉口的城市交通拥堵的问题。

9、在一种可选的实施例中，构建交通道路路网模型包括：

10、通过osm(openstreetmap)获取道路路网文件，利用jsom开源软件netconvert对道路路网文件进行处理得到路网数据；

11、通过netedit修改所述路网数据；

12、对修改后的路网数据进行信息配置；其中，信息配置包括：配置所述路网数据范围内所有路口的路口对象信息和所有道路的路段属性。

13、在一种可选的实施例中，所述修改包括：删除所述路网数据中无关道路和无关河流信息，并完善路网数据。

14、在一种可选的实施例中，所述路口对象信息包括编码、名称、类型和坐标值。

15、在一种可选的实施例中，所述路段属性包括路段编号、路段名称、车道行驶方向、前后方路口编码、限制信息和正常行驶流速。

16、在一种可选的实施例中，获取车辆交通信息包括：

17、获得每个路口的各个道路的道路车辆平均流量、道路车辆等待数量和道路车辆行驶平均速度；

18、设定每个路口的车流信息体，所述车流信息体包括路口编号、时间节点、路口车辆平均流量、路口车辆等待数量和路口车辆行驶平均速度。

19、在一种可选的实施例中，通过所述交通道路路网模型和所述车辆交通信息构建多智能体深度学习模型包括：

20、分析所述交通道路路网模型，每个交叉口建立一个独立的代理，并设定所述代理的环境状态、动作、环境状态的转移概率、奖励函数、折扣值函数和学习规则；

21、将每个交叉口的代理进行整合，生成多智能体深度学习模型，其中，所述多智能体深度学习模型为＜o,a,p,r,π,γ＞。

22、在一种可选的实施例中，构建γ注意力奖励策略包括：

23、构建注意力部分和基于所述注意力部分构建注意力奖励；

24、其中，构建注意力部分包括：

25、利用每个代理节点通过多层感知机制获得观测值；

26、根据代理节点的相邻节点对相应代理节点的权值进行计算，得到隐藏参数，对所述隐藏参数进行归一化处理；

27、将归一化处理后的隐藏参数通过relu激活函数进行计算，得到代理节点的性能参数。

28、在一种可选的实施例中，基于所述注意力部分构建注意力奖励包括：

29、基于注意力部分构建空间差异公式、注意力分数更新公式；

30、设计基于注意力部分的修正回放数据缓冲层算法。

31、在一种可选的实施例中，将所述实际交通流数据输入训练后的多智能体深度学习模型，得到及交通信号控制策略包括：

32、将所述实际交通流数据输入训练后的多智能体深度学习模型，得到最优动作序列；

33、将所述最优动作序列结合环境状态序列对应交叉口的代理节点进行映射，得到交通灯指挥相位；

34、根据所述交通灯指挥相位确定交通信号控制策略。

35、本专利技术与现有技术相比，具有如下的优点和有益效果：

36、构建交通道路路网模型，获得各个道路每个车道的车辆交通信息；分析当前道路路网模型，建立以各个交叉口为代理的多智能体深度学习框架，设定抽象定义及集合；采用去中心化思想，基于d3qn增强学习基础网络结构，构建q学习离线策略以及γ注意力奖励策略；基于γ注意力奖励策略，设计基于注意力机制的修正回放数据缓冲层算法；选取模拟数据和实际检测交通数据，采用colight算法中超参数邻居作用域确定各个交叉口代理的邻居数目初始化，根据交通流实际数据带入进行仿真迭代，快速得到最优决策仿真结果，解决了多交叉口的城市交通拥堵的问题。

本文档来自技高网...

【技术保护点】

1.一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，构建交通道路路网模型包括：

3.根据权利要求2所述的一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，所述修改包括：删除所述路网数据中无关道路和无关河流信息，并完善路网数据。

4.根据权利要求2所述的一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，所述路口对象信息包括编码、名称、类型和坐标值。

5.根据权利要求2所述的一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，所述路段属性包括路段编号、路段名称、车道行驶方向、前后方路口编码、限制信息和正常行驶流速。

6.根据权利要求2所述的一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，获取车辆交通信息包括：

7.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，通过所述交通道路路网模型和所述车辆交通信息构建多智能体深度学习模型包括：

8.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，构建γ注意力奖励策略包括：

9.根据权利要求8所述的一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，基于所述注意力部分构建×注意力奖励包括：

10.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，将所述实际交通流数据输入训练后的多智能体深度学习模型，得到及交通信号控制策略包括：

...

【技术特征摘要】

1.一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，构建交通道路路网模型包括：

4.根据权利要求2所述的一种基于注意力机制的深度强化学习交通信号控制方法，其特征在于，所述路口对象信息包括编码、名称、类型和坐标值。

6...

【专利技术属性】
技术研发人员：吴建光，周舒雅，侯向东，张建斌，梁焜，
申请(专利权)人：四川天奥空天信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人