一种基于SUMO的多智能体强化学习自主开发接口制造技术

技术编号：37291987 阅读：26 留言：0更新日期：2023-04-21 03:22

本申请公开了一种基于SUMO的多智能体强化学习自主开发接口，包括以下步骤：搭建main函数主体；搭建强化学习网络模型构建软件包；基于强化学习网络模型构建软件包，搭建强化学习模型构建软件包；基于main函数主体，构建SUMO环境软件包；基于SUMO环境软件包，搭建SUMO环境更新软件包；基于SUMO环境更新软件包，搭建状态处理软件包；基于main函数主体，搭建奖励函数软件包。本申请利用现有的SUMO软件构建场景过程中伴随产生的.xml文件，将其与python代码结构相结合，通过自主编写的程序对文件信息进行读取并同步到python进程内，从而同时实现可视化的场景建立及其与主程序的连通性。通性。通性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于SUMO的多智能体强化学习自主开发接口

[0001]本申请属于智能交通规划决策以及强化学习算法领域，具体涉及一种基于SUMO的多智能体强化学习自主开发接口。

技术介绍

[0002]在目前的智能交通规划与决策领域，对于车辆规划与决策的研究往往停留于单智能体层面，即在算法评估的环节只涉及个体的利益得失，这种研究可以实现个体利益的最优化，但是如果推广到交通的高交互性场景中会暴露出群体效益不足的问题，往往会形成零和博弈的局面，即某一个体的最优化意味着其他个体利益受损的情况。
[0003]因此，对于智能交通系统来说，研究多智能体的协同规划决策是必要的。多智能体的协同控制可以通过个体之间的合作实现更高的群体收益，例如在拥堵的路口如果添加统筹管理的交警会显著提高群体车流的通过效率。强化学习是目前主流采取的规划决策研究方法，其与基于规则的算法相比具有显著的探索性强、理解性强等优点，而且可以充分利用大数据技术的优势。但是考虑到强化学习算法在学习过程中具有明显的不稳定性，因此无法通过实车试验的方式实行，需要依托于成熟的仿真平台进行。
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于SUMO的多智能体强化学习自主开发接口，其特征在于，包括以下步骤：搭建main函数主体；基于所述main函数主体，搭建强化学习网络模型构建软件包；基于所述强化学习网络模型构建软件包，搭建强化学习模型构建软件包；基于所述main函数主体，构建SUMO环境软件包；基于所述SUMO环境软件包，搭建SUMO环境更新软件包；基于所述SUMO环境更新软件包，搭建状态处理软件包；基于所述main函数主体，搭建奖励函数软件包。2.根据权利要求1所述的基于SUMO的多智能体强化学习自主开发接口，其特征在于，所述main函数主体主要由强化学习的主进程组成，其中包括基本超参数的设置、场景加载、强化学习模型初始化以及强化学习主循环
‑
次循环进程。3.根据权利要求2所述的基于SUMO的多智能体强化学习自主开发接口，其特征在于，所述强化学习模型初始化包括：网络以及buffer的初始化构建，为后续的学习过程提供数据承载点。4.根据权利要求1所述的基于SUMO的多智能体强化学习自主开发接口，其特征在于，所述搭建强化学习网络模型构建软件包储存的是网络构建函数，可以根据实际需求对网络的每一层以及每一层的节点数量进行编辑，同时也可以定义网络层的类型。5.根据权利要求1所述的基于SUMO的多智能体强化学习自主开发接口，其特征在于，所述搭建强化学习模型构建软件包包括：优化器的设定、replay_buffer的设定以及探索性算法的设定，最后定义了网络的更新方式。6.根据权利要求1所述的基于SUMO的多智能体强化学习自主开发接口，其特征在于，所述构建SUMO环境软件包包括：以SUMO场景构建伴随生成的.xml文件为数据源，在python项目进程中形成仿真数据环境。7.根据权利要求1所述的基于SUMO的多智能体强化学习自主开发接口，其特征在于，所述搭建SUMO环境...

【专利技术属性】
技术研发人员：李雪原，杨帆，刘琦，高鑫，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人