基于经验回放的交通信号控制方法、装置和存储介质制造方法及图纸

技术编号：41909951 阅读：21 留言：0更新日期：2024-07-05 14:13

本发明专利技术公开了一种基于经验回放的交通信号控制方法、装置和存储介质。其中，该方法包括：获取目标路口的交通状态数据，其中，交通状态数据包括目标路口包括的车辆的位置数据和速度数据；将交通状态数据输入预先训练的强化学习模型中，由强化学习模型输出控制目标路口的信号灯的交通信号数据，其中，强化学习模型为采用预先设定的优先级经验回放方法，基于样本训练池包括的多组样本数据，对原始强化学习模型训练得到的学习模型，优先级经验回放方法用于在样本训练池中选取对原始强化学习模型进行训练的样本数据。本发明专利技术解决了由于相关技术中强化学习模型不重复利用训练数据造成的学习效率低下的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及交通信号控制领域，具体而言，涉及一种基于经验回放的交通信号控制方法、装置和存储介质。

技术介绍

1、交通信号配时优化控制是引导车辆通过交叉口的主要方法，通过改进交通信号灯的配时方式，可以使交叉口获得更高的车流吞吐量，并有效的减少拥堵、降低汽车尾气排放、优化出行。

2、随着人工智能技术的发展，应用人工智能技术设计自适应交通信号控制系统变得越来越广泛，相关技术中也采用深度强化学习进行交通信号控制，但是传统的强化学习中，智能体在每次更新完神经网络后将输入数据丢弃，深度神经网络需要大量数据来对网络参数进行训练，传统的算法会导致学习效率低下。

3、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本专利技术实施例提供了一种基于经验回放的交通信号控制方法、装置和存储介质，以至少解决由于相关技术中强化学习模型不重复利用训练数据造成的学习效率低下的技术问题。

2、根据本专利技术实施例的一个方面，提供了一种基于经验回放的交通信号控制方法，包括：...

【技术保护点】

1.一种基于经验回放的交通信号控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述强化学习模型通过如下方式训练得到：

3.根据权利要求2所述的方法，其特征在于，所述采用预先设定的优先级经验回放方法，基于所述样本训练池包括的所述多组样本数据，对所述原始强化学习模型训练，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述多个样本状态数据分别输入所述原始强化学习模型，由所述原始强化学习模型在预先设置的动作集合中，分别选择多个样本交通信号数据输出，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述当前对...

【技术特征摘要】

1.一种基于经验回放的交通信号控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述强化学习模型通过如下方式训练得到：

5.根据权利要求4所述的方法，其特征在于，所述根据所述当前对所述原...

【专利技术属性】
技术研发人员：杨飚，卢兴盛，
申请(专利权)人：联易云科北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人