基于注意力机制的深度强化学习交通信号决策系统及方法技术方案

技术编号：40789729 阅读：3 留言：0更新日期：2024-03-28 19:20

本发明专利技术涉及交通管理领域，公开了一种基于注意力机制的深度强化学习交通信号决策系统及方法，包括交通全域控制器以及与所述交通全域控制器连接的交通信号灯、交通信息指示屏幕、交通信息采集模块、数据存储管理模块以及深度强化学习模块，其中，所述深度强化学习模块用于获得对应该路网的交通流预测模型和交通指挥决策模型，并利用后续道路车流量信息对所述交通流预测模型和交通指挥决策模型进行及时修正；所述交通全域控制器用于接受并转发来自于交通信息采集模块的道路车辆目标信息、道路车流量信息，以及根据所述交通流预测模型和决策模型生成交通灯信号控制数据和交通信息指示信息。本发明专利技术大大地提升了路网车辆的通行效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及交通管理领域，具体涉及一种基于注意力机制的深度强化学习交通信号决策系统及方法。

技术介绍

1、深度强化学习是在复杂调度和控制任务中极具前景的一种学习范式，与深度学习不同点在于，在整个强化学习的过程中都存在智能体与环境交互，智能体在环境中获取到某个状态后，利用该状态输出决策效果，环境根据智能体采取的决策，输出下一个状态并给与这个决策一定的奖励，强化学习输入样本为序列数据，并不像监督学习样本独立，而且奖励信号是延迟的。智能体在环境里面获得了很多信息，然后可以在环境里面取得很大的奖励。最后，通过端到端训练把特征提取和价值估计或者决策一起优化，这样就可以得到一个更强的决策网络。深度强化学习在工业自动化机器人控制、无人驾驶、金融交易、自然语言处理、游戏领域，如广为人知的alphagozero等，解决了很多目标模式识别和决策难题。

2、目前深度强化学习以及在交通管理行业进行应用，但是目前交通管理控制系统在实际使用中仍然不能良好解决道路拥堵问题，存在一定不足之处。

技术实现思路

1、本专利技术提供一种基于注意力机制的深度强化学习交通信号决策系统及方法，解决道路交通拥堵问题，提高交通通行效率。

2、本专利技术通过下述技术方案实现：

3、一种基于注意力机制的深度强化学习交通信号决策系统，包括交通全域控制器以及与所述交通全域控制器连接的交通信号灯、交通信息指示屏幕、交通信息采集模块、数据存储管理模块以及深度强化学习模块，其中，

4、所述交通

5、所述交通信号灯用于通过接受所述交通全域控制器发送的交通信号灯指挥信息来指挥道路车辆在交叉口的行驶；

6、所述数据存储管理模块用于决策系统内部各种原始数据和处理后的数据的存储管理；

7、所述交通信息采集模块用于采集道路车辆行驶的视频数据和雷达测量数据，并结合其中的边缘计算单元完成道路车辆目标信息识别、道路车流量等信息计算以及交通视频编码、交通违规数据获取的工作；

8、所述深度强化学习模块用于接受所述交通全域控制器转发的来自于所述交通信息采集模块采集的道路车辆目标信息、道路车流量等信息，结合路网信息进行训练，获得对应该路网的交通流预测模型和交通指挥决策模型，并利用后续道路车流量信息对所述交通流预测模型和交通指挥决策模型进行及时修正，以提高所述交通流预测模型和交通指挥决策模型的性能和精度；

9、所述交通全域控制器用于接受并转发来自于交通信息采集模块的道路车辆目标信息、道路车流量信息，以及根据所述交通流预测模型和决策模型生成交通灯信号控制数据和交通信息指示信息，同时，所述交通全域控制器将该决策系统内的各数据发送至所述数据存储管理模块中进行存储管理。

10、作为优化，所述当前相关的交通信息包括当前道路车辆整体行驶状态信息、道路车辆规避拥堵提示信息以及前方事故提示、变道引导、交通违规行为信息。

11、作为优化，所述数据存储管理模块包括关系型数据库子模块和大数据管理子模块，所述关系型数据库子模块用于存储交通道路视频监控切片数据、道路车辆目标识别数据、交通流识别数据、交通违规识别数据，所述数据管理子模块的作用是包括关系型数据库管理和大数据管理子模块，所述关系型数据库用于存储交通道路视频监控切片数据、道路车辆目标识别数据、交通流识别数据、交通违规识别数据，所述数据管理子模块的作用是对于交通违规识别数据、交通流识别数据、道路车辆目标识别数据、交通道路视频监控切片数据等采用大数据管理模块进行存储，对于其他如道路编号、摄像头编号、位置编号等预设数据通过关系型数据库子模块进行管理。

12、作为优化，还包括通信模块，所述通信模块用于决策系统内部数据的传输交互，同时移交所述交通全域控制器的控制权限给后台管理系统，实现更高权限用户的统一管控。

13、作为优化，所述交通信息指示屏幕设置有车流密度速度建议展示区、前方事故信息展示区、车辆变道建议展示区以及车辆行驶间距建议展示区、行车违规信息警告区。

14、作为优化，所述交通信息采集模块包含交通视频数据采集子模块、交通雷达数据采集子模块和边缘计算单元，所述交通视频数据采集子模块用于获取该路段道路交通车辆行驶的视频数据，所述交通雷达数据采集子模块用于获取车辆行驶速度、行驶角度、行驶加速度和实时相对位置，所述边缘计算单元完成交通监控摄像头视频数据中的目标识别得到视频目标分析数据，将车道上各个车辆的雷达识别信息在边缘计算单元进行融合，得到融合后的道路车辆个体以及交通流量等相关数据信息。

15、作为优化，所述交通雷达数据采集子模块和交通视频数据采集子模块同时实现交通违规数据的获取，包括速度信息和交通监控视频及车牌识别结果。

16、作为优化，所述深度强化学习模块包括数据预处理子模块、模型训练子模块以及模型数据修正子模块，所述数据预处理子模块用于划分roi区域、距离判断辅助划线、视频数据裁剪缩放、筛选无效路况信息和交通车辆信息，所述模型训练子模块根据道路路况数据和道路车辆行驶数据进行训练，并根据其对应的相关交通道路开源osm数据构建的交通道路基础模型获得该路网的交通流预测模型信息和交通指挥决策模型信息，所述模型数据修正子模型用于根据历史道路路况数据和后续道路车辆行驶信息数据对该道路的交通流预测模型和交通指挥决策策略进行验证修正。

17、本专利技术还公开了一种采用前述的一种基于注意力机制的深度强化学习交通信号决策系统的决策方法，包括如下步骤：

18、数据采集：利用所述交通信息采集模块获得道路交通监控视频和测速雷达数据，对所述道路交通监控视频和测速雷达数据进行存储和发送给后台管理系统，同时利用所述交通信息采集模块内的边缘计算单元获得交通目标识别信息、车辆行驶信息、融合获得交通目标信息融合结果以及交通流参数分析结果，实现交通目标信息和车辆行驶信息以及交通流参数分析数据的融合获取，同时获得交通违规目标数据发送给交通全域控制器在交通信息指示屏幕进行展示，提供后续进行深度强化学习的深度强化学习模型构建和模型修正的数据支持；

19、模型训练：根据道路交通监视视频和测速雷达数据，利用所述边缘计算单元融合获得车辆目标识别信息、道路车辆运行信息以及道路交通流信息，同时依据深度强化学习按需构建道路交通流预测模型和交通指挥决策模型，利用道路车辆运行信息和交通道路基础信息，实现所述交通流预测模型和交通指挥决策模型训练，最后通过获得的优化结果；

20、交通控制：根据基于注意力的深度强化学习模型的训练输出所述交通流预测模型和通指挥决策模型的优化结果发送给所述交通全域控制器，所述交通全域控制器经过数据验证后作出交通信号灯控制指令，并将交通信息指示和交通变道提示信息在交通信息展示屏幕播出。

21、作为优化，在数据采集处理过程中，根据采集的道路交通运行信息及道路车辆违规行为抓取交通违规车辆信息并回传信息到后台管理系统，通过后台管理系统针对本文档来自技高网...

【技术保护点】

1.一种基于注意力机制的深度强化学习交通信号决策系统，其特征在于，包括交通全域控制器以及与所述交通全域控制器连接的交通信号灯、交通信息指示屏幕、交通信息采集模块、数据存储管理模块以及深度强化学习模块，其中，

2.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号决策系统，其特征在于，所述当前相关的交通信息包括当前道路车辆整体行驶状态信息、道路车辆规避拥堵提示信息以及前方事故提示、变道引导、交通违规行为信息。

3.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号决策系统，其特征在于，所述数据存储管理模块包括关系型数据库子模块和大数据管理子模块，所述关系型数据库子模块用于存储交通道路视频监控切片数据、道路车辆目标识别数据、交通流识别数据、交通违规识别数据，所述数据管理子模块的作用是对于交通违规识别数据、交通流识别数据、道路车辆目标识别数据、交通道路视频监控切片数据等采用大数据管理模块进行存储。

4.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号决策系统，其特征在于，还包括通信模块，所述通信模块用于决策系统内部数据

5.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号决策系统，其特征在于，所述交通信息指示屏幕设置有车流密度速度建议展示区、前方事故信息展示区、车辆变道建议展示区以及车辆行驶间距建议展示区、行车违规信息警告区。

6.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号决策系统，其特征在于，所述交通信息采集模块包含交通视频数据采集子模块、交通雷达数据采集子模块和边缘计算单元，所述交通视频数据采集子模块用于获取该路段道路交通车辆行驶的视频数据，所述交通雷达数据采集子模块用于获取车辆行驶速度、行驶角度、行驶加速度和实时相对位置，所述边缘计算单元完成交通监控摄像头视频数据中的目标识别得到视频目标分析数据，将车道上各个车辆的雷达识别信息在边缘计算单元进行融合，得到融合后的道路车辆个体以及交通流量等相关数据信息。

7.根据权利要求6所述的一种基于注意力机制的深度强化学习交通信号决策系统，其特征在于，所述交通雷达数据采集子模块和交通视频数据采集子模块同时实现交通违规数据的获取，包括速度信息和交通监控视频及车牌识别结果。

8.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号决策系统，其特征在于，所述深度强化学习模块包括数据预处理子模块、模型训练子模块以及模型数据修正子模块，所述数据预处理子模块用于划分ROI区域、距离判断辅助划线、视频数据裁剪缩放、筛选无效路况信息和交通车辆信息，所述模型训练子模块根据道路路况数据和道路车辆行驶数据进行训练，并根据其对应的相关交通道路开源OSM数据构建的交通道路基础模型获得该路网的交通流预测模型信息和交通控制策略信息，所述模型数据修正子模型用于根据历史道路路况数据和后续道路车辆行驶信息数据对该道路的交通流预测模型和交通指挥决策策略进行验证修正。

9.一种采用权利要求1-8任一所述的一种基于注意力机制的深度强化学习交通信号决策系统的决策方法，其特征在于，包括如下步骤：

10.根据权利要求9所述的一种基于注意力机制的深度强化学习交通信号决策方法，其特征在于，在数据采集处理过程中，根据采集的道路交通运行信息及道路车辆违规行为抓取交通违规车辆信息并回传信息到所述后台管理系统，通过所述后台管理系统针对违规车辆相应的车主信息，在交通信息指示屏幕实时播发对其的警告信息，警示该车主停止交通违规行为。

...

【技术特征摘要】

4.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号决策系统，其特征在于，还包括通信模块，所述通信模块用于决策系统内部数据的传输交互，同时移交所述交通全域控制器的控制权限给后台管理系统，实现更高权限用户的统一管控。

6.根据权利要求1所述的一种基于注意力机制的深度强化学习交通信号决策系统，其特征在于，所述交通信息采集模块包含交通视频数据采集子模块、交通雷达数据采集子模块和边缘计算单元，所述交通视频数据采集子模块用于获取该路段道路交通车辆行...

【专利技术属性】
技术研发人员：吴建光，周舒雅，侯向东，张建斌，梁焜，
申请(专利权)人：四川天奥空天信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人