【技术实现步骤摘要】
一种基于多信号灯强化学习的交通组织方案优化方法
[0001]本专利技术涉及交通信号灯控制领域,具体涉及一种基于多信号灯强化学习的交通组织方案优化方法。
技术介绍
[0002]在科技信息化的时代,人类的生活越来越丰富,现在大多数家庭都拥有自己代步的交通工具
‑
汽车,这就导致了在城市中各种各样的交通问题,比如等待时间过长、车道占有率过高等。随着人工智能的发展出现了许多交通智能化技术,开始有效地控制交通行为。智能体强化学习是当下人工智能发展的技术之一,目前强化学习为交通智能化技术的主流,其包括Q
‑
learning、Sarsa、TD lambda等算法。
[0003]如何让智能体在交通环境中能够高效地学习这一直是近几年以来强化学习中的挑战。在传统的强化学习中训练智能体的方法都是不断地迭代策略进行重复训练,但是如此长此以往的训练只适用于单智能体上,对于多智能体来说并不合适。
[0004]考虑到对城市中的交通进行智能管理的问题,当智能体开始因策略执行行为时,如何在众多策略中选出一个优 ...
【技术保护点】
【技术特征摘要】
1.一种基于多信号灯强化学习的交通组织方案优化方法,其特征在于该方法包括以下步骤:S1:构造Actor网络每个路口的信号灯对应一个智能体,构造与多个智能体相对应的多个Actor网络,所述Actor网络包括状态空间集与行为空间集;S2:传入观察值多智能体观察多个路口的交通状态获得观察值,将所述观察值传入所述Actor网络中的状态空间集中,所述观察值包括对应路口的车辆等待时间和车道占有率;S3:传入行为方案设定多智能体的行为方案,并将所述行为方案传入所述Actor网络中的行为空间集中;S4:计算行为偏转概率在所述Actor网络中,基于所述观察值与行为方案计算行为偏转概率;S5:选择行为并更新状态各个智能体基于所述行为偏转概率选择行为,并根据选择的行为更新状态空间集;S6:Critic网络学习将所述Actor网络中的行为偏转概率、初始状态空间集和更新后的状态空间集传入Critic网络中进行集中学习训练,将学习后的信息反向传输到所述Actor网络中,并将选择的行为方案输出;S7:轨迹重构所述Actor网络进行行为选择后,将被封禁的路段从车辆的轨迹中删除并重新规划路径,并将重新规划的路径输出。2.根据权利要求1所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在于:在所述Acotr网络之后构造Subnet网络,所述Subnet网络将Actor 网络传入的高纬度状态信息压缩处理成低纬度状态信息,然后将所述低纬度状态信息反向传入到所述Actor网络中进行行为偏转概率的计算;所述subnet网络为卷积网络,分有一定层次且每层所采用的的滤波器不同,所述subnet网络与所述Actor网络共享参数;传入所述Subnet网络的矩阵个数为智能体的个数。3.根据权利要求2所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在于:所述Subnet网络在Actor网络与Critic网络之间,所述Subnet网络将各个Actor网络中初始状态空间集和更新后的状态空间集压缩,并和所述行为偏转概率一起传入所述Critic网络中进行集中学习。4.根据权利要求1所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在于:将道路的出车道进行道路离散化分为一定数量的路段,每个路段中含有相应的车辆,分别取每个路段中车辆长度与该段路段的长度进行取值比对得到所述车道占有率;所述车辆等待时间为当前道路中所有车辆的等待时间。5.根据权利要求1所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在于:步骤S3的行为方案为将左转信号灯设置红灯(禁左),和/或将右转信号灯设置红灯(禁右),和/或将直行信号灯设置红灯(禁直),和/或禁直掉头。6.根据权利要求1所述的基于多信号灯强化学习的交通组织方案优化方法,其特征在
于:每个...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。