基于多策略强化学习的交通信号灯控制方法技术

技术编号：38833439 阅读：7 留言：0更新日期：2023-09-17 09:51

本发明专利技术公开了一种基于多策略强化学习的交通信号灯控制方法，包括获取当前时刻目标交通信号灯处的交通数据信息；采用分类宽度学习系统进行复杂度判定；采用当前的评估宽度学习系统计算下一时刻的最佳动作值；获取当前时刻和历史时刻的状态信息和控制策略；训练评估宽度学习系统；实时重复以上完成目标交通信号灯处的基于多策略强化学习的交通信号灯控制。本发明专利技术结合宽度学习系统，提出了一种新的交通信号灯控制方法，不仅能够实现城市路口交通信号灯的控制，而且可靠性更高、实时性更好且精确性更好。性更好。性更好。

全部详细技术资料下载

【技术实现步骤摘要】
基于多策略强化学习的交通信号灯控制方法

[0001]本专利技术属于交通控制系统
，具体涉及一种基于多策略强化学习的交通信号灯控制方法。

技术介绍

[0002]随着经济技术的发展和人们生活水平的提高，交通拥堵问题越来越严重。因此，解决交通拥堵问题，就显得意义重大。
[0003]目前，缓解交通拥堵问题，主要有两种解决方案，一是通过新建道路和改善基础设施来缓解交通问题；二是通过人工智能方案对交通信号灯进行控制，来缓解交通问题。
[0004]目前，研究人员已经提出了大量的基于人工智能技术的交通信号灯控制方案，来优化交通信号控制策略。基于模型预测控制（MPC）的交通信号灯控制方案，通过实时监测道路交通流量，将数据输入预测模型，并依据预测结果调整信号灯周期和相位；该方案虽然能够在一定程度上提升交通效率，但是由于城市道路交通的动态性和偶然性，该类方案依旧存在精确性和可靠性较差的缺陷。另外，也有方案根据实时交通信息来控制信号灯，如基于深度强化学习动态控制交通信号灯的方法；该类方案通过智能体与环境互动，并借助深度神经网络进行训练，从而逐步学习优化的控制策略；但是，该类方案的学习过程速度较慢，并无法满足实时控制需求。

技术实现思路

[0005]本专利技术的目的在于提供一种可靠性高、实时性好且精确性好的基于多策略强化学习的交通信号灯控制方法。
[0006]本专利技术提供的这种基于多策略强化学习的交通信号灯控制方法，包括如下步骤：S1. 获取当前时刻目标交通信号灯处的交通数据信息；S2. 根据步...

【技术保护点】

【技术特征摘要】
1.一种基于多策略强化学习的交通信号灯控制方法，其特征在于包括如下步骤：S1. 获取当前时刻目标交通信号灯处的交通数据信息；S2. 根据步骤S1获取的数据信息，采用分类宽度学习系统进行复杂度判定：若判定为简单系统，则根据获取的数据信息计算下一时刻的交通信号灯的控制策略，当前时刻的交通信号灯控制过程结束，并跳转到步骤S4；若判定为复杂系统，则继续进行后续步骤；S3. 根据当前的状态信息，采用当前的评估宽度学习系统计算下一时刻的最佳动作值；当前时刻的交通信号灯控制过程结束，并跳转到步骤S4；S4. 获取当前时刻和历史时刻的状态信息、控制策略和奖励信息；S5. 从步骤S4获取的数据信息中，抽取若干信息对评估宽度学习系统进行训练，并将训练后的评估宽度学习系统作为当前的评估宽度学习系统；S6. 实时重复步骤S1~S5，完成目标交通信号灯处的基于多策略强化学习的交通信号灯控制。2.根据权利要求1所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的步骤S2，具体包括如下步骤：根据步骤S1获取的数据信息，采用分类宽度学习系统进行复杂度判定：若判定为简单系统，则根据获取的数据信息，采用韦氏算法计算下一时刻的交通信号灯的控制策略；当前时刻的交通信号灯控制过程结束，并跳转到步骤S4；若判定为复杂系统，则继续进行后续步骤。3.根据权利要求2所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的步骤S3，具体包括如下步骤：根据当前的状态信息，采用当前的评估宽度学习系统，基于当前时刻的状态，计算得到下一时刻的最佳动作值，该最佳动作值对应于交通信号灯的控制策略；计算完成后，当前时刻的交通信号灯控制过程结束，并跳转到步骤S4。4.根据权利要求3所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的步骤S3，具体包括如下内容：根据当前的状态信息，采用当前的评估宽度学习系统，基于当前时刻的状态信息，采用如下算式计算得到下一时刻的最佳动作值：式中为动作对应的最大值；为状态下对应的动作的Q值；为当前状态；为评估宽度学习系统中的网络参数；最佳动作值对应于交通信号灯的控制策略。5.根据权利要求4所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的步骤S4，具体包括如下步骤：在每个时刻下，获取上一个时刻的状态信息、动作信息、奖励信息和当前时刻的状态信息，并存储到缓冲区中；当存储缓冲区存满后，用最新存储的状态信息替换最早存储的状态信息。
6.根据权利要求5所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的奖励信息，具体为采用如下步骤计算得到：采用如下算式计算得到奖励信息：式中和为权重值，且；为车辆平均等待时间变量，且，为t时刻道路上等待车辆的总数，为对应车辆的等待时间且，为交通灯在一个相位中的持续时间，为车辆当前速度，为规定的车辆最小速度；为车辆最长等待时间与最短等待时间变量...

【专利技术属性】
技术研发人员：邓晓衡，尹顺梦，桂劲松，万少华，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人