一种基于安全强化学习的交通信号控制方法及系统技术方案

技术编号:43962204 阅读:39 留言:0更新日期:2025-01-07 21:46
本发明专利技术公开了一种基于安全强化学习的交通信号控制方法及系统,所述方法包括:获取多个历史状态信息,并利用注意力网络、行动者网络、奖励批评者网络和代价批评者网络处理得到第一概率值、第一奖励价值、第二奖励价值、第一代价价值和第二代价价值,然后通过奖励优势评估函数和代价优势评估函数得到优势评估值和代价评估值;基于优势评估值、代价评估值、第一概率值、奖励值、第一奖励价值、代价值和第一代价价值优化行动者网络、奖励批评者网络和代价批评者网络,重复上述过程,直至超过预设次数,得到训练后的行动者网络;获取当前时刻的观测信息,并输入至训练后的行动者网络得到当前动作以控制交通信号。本发明专利技术在保证效率下确保路口的安全性。

【技术实现步骤摘要】

本专利技术涉及智能交通控制领域。具体而言,涉及一种基于安全强化学习的交通信号控制方法及系统


技术介绍

1、近年来,城市地区交通拥堵以及交通安全问题日益严重,尤其是城市地区的交叉路口,交通事故频繁发生。因此,如何安全高效的优化交通信号灯已经成为城市交通管理的重要组成部分。

2、强化学习因其快速的适应能力以及高效的决策能力,目前已成为交通信号控制优化的主要方法之一。在强化学习中,智能体能够通过尝试不同的行动和接收环境的反馈,并根据预先设计的奖励函数不断提升智能体决策能力,从而获取适应真实交通需求的交通信号控制方案。

3、然而,现有的研究大多集中于如何最大限度地减少交通延误上,却忽视了潜在的不安全状况。在交通信号控制系统中,红灯的溢出长度是影响安全的一个重要因素,如果交叉路口的交通流量不平衡,繁忙车道往往会获得无限优先权以获得最大回报,而空闲车道则会遇到难以忍受的等待时间,这可能会导致驾驶员违规闯红灯。

4、因此,亟需一种交通信号控制方法以平衡交通效率和安全。


技术实现思路b>

1本文档来自技高网...

【技术保护点】

1.一种基于安全强化学习的交通信号控制方法,其特征在于,包括:

2.根据权利要求1所述的一种基于安全强化学习的交通信号控制方法,其特征在于,还包括:

3.根据权利要求1所述的一种基于安全强化学习的交通信号控制方法,其特征在于,还包括:

4.根据权利要求1所述的一种基于安全强化学习的交通信号控制方法,其特征在于,所述溢流奖励函数的表达式为:

5.根据权利要求1所述的一种基于安全强化学习的交通信号控制方法,其特征在于,所述溢流代价函数的表达式为:

6.根据权利要求1所述的一种基于安全强化学习的交通信号控制方法,其特征在于,所述奖励优...

【技术特征摘要】

1.一种基于安全强化学习的交通信号控制方法,其特征在于,包括:

2.根据权利要求1所述的一种基于安全强化学习的交通信号控制方法,其特征在于,还包括:

3.根据权利要求1所述的一种基于安全强化学习的交通信号控制方法,其特征在于,还包括:

4.根据权利要求1所述的一种基于安全强化学习的交通信号控制方法,其特征在于,所述溢流奖励函数的表达式为:

5.根据权利要求1所述的一种基于安全强化学习的交通信号控制方法,其特征在于,所述溢流代价函数的表达式为:

6.根据权利...

【专利技术属性】
技术研发人员:任毅龙付翔于海洋姜涵
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1