【技术实现步骤摘要】
本专利技术涉及一种交通信号控制方法,尤其是涉及一种基于人类反馈的强化学习交通信号控制优化方法。
技术介绍
1、随着经济的不断发展和城镇化步伐的加快,交通拥堵已经逐渐成为许多人口密集的城市面临的主要挑战之一。造成交通拥堵的原因有很多,包括道路通行能力不足、需求不受限制以及交通信号相位调度不当等。为了能缓解交通拥堵,人们已经做出了各种各样的努力,相较于扩建、改建道路、制定复杂的需求限制等方案而言,改进交通信号控制是一种更有机会找到有效策略和更节省成本的方式。
2、显然交通信号控制的改进是一个重要且具有挑战性的现实问题,其目的是在保证安全的前提下通过协调车辆在道路交叉口的运动来最大限度地减少车辆的行驶时间。控制信号交叉口的方法可分为两大类,即传统方法和自适应方法。许多城市都采用传统的信号控制系统,这种系统按照业务专家预期的交通假设计算出的固定时间的方式运行,虽然在一定程度上满足需要,然而知识以及规则都是事先制定的,不能基于内容和知识自动更新信号控制策略。但在自适应方法中,决策是根据交叉口的当前状态做出的,这种方法的使用给交通信号控
...【技术保护点】
1.一种基于人类反馈的强化学习交通信号控制优化方法,其特征在于:采用的强化学习流程中,将路网模拟器作为环境,信号控制网络作为智能体,信号控制网络在与路网模拟器的多轮交互中不断优化自己的信号控制策略,包括以下步骤:
2.根据权利要求1所述的基于人类反馈的强化学习交通信号控制优化方法,其特征在于:所述信号控制策略有三种:信号控制策略网络输出的信号策略;基于信号特殊配置策略修正的信号策略;业务专家输出的人类经验的信号策略。
3.根据权利要求1所述的基于人类反馈的强化学习交通信号控制优化方法,其特征在于:本专利技术的应用场景为多个十字形的交叉口,不限制
...【技术特征摘要】
1.一种基于人类反馈的强化学习交通信号控制优化方法,其特征在于:采用的强化学习流程中,将路网模拟器作为环境,信号控制网络作为智能体,信号控制网络在与路网模拟器的多轮交互中不断优化自己的信号控制策略,包括以下步骤:
2.根据权利要求1所述的基于人类反馈的强化学习交通信号控制优化方法,其特征在于:所述信号控制策略有三种:信号控制策略网络输出的信号策略;基于信号特殊配置策略修正的信号策略;业务专家输出的人类经验的信号策略。
3.根据权利要求1所述的基于人类反馈的强化学习交通信号控制优化方法,其特征在于:本发明的应用场景为多个十字形的交叉口,不限制交叉口的数量,每个交叉口有东西南北四条道路,左侧车道允许车辆直行或左转,右侧车道允许车辆直行或右转。每个交叉口有一个信号灯控制车辆的通行,红色信号到绿色信号相位之间的切换由全红的2秒连接。
4.根据权利要求1所述的基于人类反馈的强化学习交通信号控制优化方法,其特征在于:步骤s3中,构建信号控制网络时,定义有强化学习的状态,所述状态定义为当前时刻...
【专利技术属性】
技术研发人员:柴艳宇,韩伟莉,雷瑞娜,
申请(专利权)人:北京易华录信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。