虚拟编组列车的动作决策模型的生成方法、装置制造方法及图纸

技术编号：38759202 阅读：22 留言：0更新日期：2023-09-10 09:44

本公开的实施例提供了虚拟编组列车的动作决策模型的生成方法、装置，应用于轨道交通运行控制技术领域。所述方法包括获取目标虚拟编组列车的历史状态信息集；以历史状态信息集为输入，预测加速度向量为输出，对中心化值网络进行训练；基于输出的预测加速度向量和预先构建的运行环境，对目标虚拟编组列车进行运行模拟，得到预测加速度向量的奖励值；当奖励值满足预设条件时，完成中心化值网络的训练，并得到虚拟编组列车的动作决策模型。以此方式，可以根据奖励值对中心化值网络进行调参，加速收敛，提高训练效率，并为后续预测虚拟编组列车下一时刻加速度提供科学和准确的模型。车下一时刻加速度提供科学和准确的模型。车下一时刻加速度提供科学和准确的模型。

全部详细技术资料下载

【技术实现步骤摘要】
虚拟编组列车的动作决策模型的生成方法、装置

[0001]本公开涉及轨道交通运行控制
，尤其涉及虚拟编组列车的动作决策模型的生成方法、装置。

技术介绍

[0002]与公路交通相比，城轨线路存在站间距较小、启停频繁、牵引制动性能响应速度一般、巡航运行时间短等特点，因此城轨列车虚拟编组不能直接参考汽车编队的控制方法。此外，城轨列车运行也具有强烈的公交化运行特征，站台作业占比较大，在编组运行的过程中有频繁的进出站过程。因此，在虚拟编组列车的运行过程中，需要在列车进站停车的过程中将列车追踪间距尽量缩短。而在出站过程中，考虑到高速运行下的安全制动距离，需要适当增加列车追踪间距。与此同时，为了保证站台利用效率最大化，需要保证编组内的前后列车同步启动，以快速出清站台轨道区段。
[0003]虚拟编组列车在站间运行过程中并非始终保持同步，而是在满足一定追踪距离区间的条件下，可以适当调整单车的运行策略，以满足冲击率、能耗等约束条件；列车进站过程中，后车需要比前车运行更长的距离(或采用更加复杂的控制策略)以满足停站时的小间距需求。
[0004]面对虚拟编组下复杂控车场景，探索不同的控车策略使多辆列车可以在满足安全运行的前提下尽可能提高准时率、停准率等指标是需要重点解决的问题。

技术实现思路

[0005]本公开提供了一种虚拟编组列车的动作决策模型的生成方法、装置。
[0006]根据本公开的第一方面，提供了一种虚拟编组列车的动作决策模型的生成方法。该方法包括：
[0007]获取目标虚拟编组列...

【技术保护点】

【技术特征摘要】
1.一种虚拟编组列车的动作决策模型的生成方法，其特征在于，包括：获取目标虚拟编组列车的历史状态信息集；其中，所述历史状态信息集包括多个时刻的历史状态信息；以历史状态信息集为输入，预测加速度向量为输出，对中心化值网络进行训练；基于输出的预测加速度向量和预先构建的运行环境，对所述目标虚拟编组列车进行运行模拟，得到预测加速度向量的奖励值；当所述奖励值满足预设条件时，完成所述中心化值网络的训练；将完成训练的中心化值网络作为虚拟编组列车的动作决策模型。2.根据权利要求1所述的方法，其特征在于，所述历史状态信息包括观测状态数据和理想加速度；所述中心化值网络包括中心化状态价值网络或中心化动作价值网络；所述以历史状态信息集为输入，预测加速度向量为输出，对中心化值网络进行训练，包括：以观测状态数据集为输入，预测加速度向量为输出，对中心化状态价值网络进行训练；或者，以观测状态数据集和理想加速度集为输入，预测加速度向量为输出，对中心化动作价值网络进行训练。3.根据权利要求2所述的方法，其特征在于，所述目标虚拟编组列车包括一列领航车和至少一列跟随车；所述观测状态数据包括领航车的观测状态数据和跟随车的观测状态数据；所述领航车的观测状态数据包括速度、加速度、与目标站台距离、剩余运行时间；所述跟随车的观测状态数据包括速度、加速度、前车速度、前车加速度、与前车的距离。4.根据权利要求1所述的方法，其特征在于，所述运行环境包括以下构建项：限速限制项、加速度变化率限制项、奖励设计项、掩码设计项；其中，所述奖励设计项包括安全性奖励项、停车奖励项、时间奖励项、能耗奖励项和舒适度奖励项；其中，所述掩码设计项包括领航车的掩码项和跟随车的掩码项。5.根据权利要求4所述的方法，其特征在于，所述构建项通过以下步骤进行构建：根据列车的牵引力制动特性、制动力制动特性和道路限速信息，构建限速限制项；根据预设加速度变化绝对值，构建加速度变化率限制项；对紧急制动的动作、与前车撞车的动作、停车距离、运行时间、运行能耗、加速度变化绝对值定义对应的域和奖励值，构建奖励设计项；根据速度为负数...

【专利技术属性】
技术研发人员：王殿元，程高云，付哲，肖骁，
申请(专利权)人：交控科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人