虚拟编组列车的动作决策模型的生成方法、装置制造方法及图纸

技术编号:38759202 阅读:22 留言:0更新日期:2023-09-10 09:44
本公开的实施例提供了虚拟编组列车的动作决策模型的生成方法、装置,应用于轨道交通运行控制技术领域。所述方法包括获取目标虚拟编组列车的历史状态信息集;以历史状态信息集为输入,预测加速度向量为输出,对中心化值网络进行训练;基于输出的预测加速度向量和预先构建的运行环境,对目标虚拟编组列车进行运行模拟,得到预测加速度向量的奖励值;当奖励值满足预设条件时,完成中心化值网络的训练,并得到虚拟编组列车的动作决策模型。以此方式,可以根据奖励值对中心化值网络进行调参,加速收敛,提高训练效率,并为后续预测虚拟编组列车下一时刻加速度提供科学和准确的模型。车下一时刻加速度提供科学和准确的模型。车下一时刻加速度提供科学和准确的模型。

【技术实现步骤摘要】
虚拟编组列车的动作决策模型的生成方法、装置


[0001]本公开涉及轨道交通运行控制
,尤其涉及虚拟编组列车的动作决策模型的生成方法、装置。

技术介绍

[0002]与公路交通相比,城轨线路存在站间距较小、启停频繁、牵引制动性能响应速度一般、巡航运行时间短等特点,因此城轨列车虚拟编组不能直接参考汽车编队的控制方法。此外,城轨列车运行也具有强烈的公交化运行特征,站台作业占比较大,在编组运行的过程中有频繁的进出站过程。因此,在虚拟编组列车的运行过程中,需要在列车进站停车的过程中将列车追踪间距尽量缩短。而在出站过程中,考虑到高速运行下的安全制动距离,需要适当增加列车追踪间距。与此同时,为了保证站台利用效率最大化,需要保证编组内的前后列车同步启动,以快速出清站台轨道区段。
[0003]虚拟编组列车在站间运行过程中并非始终保持同步,而是在满足一定追踪距离区间的条件下,可以适当调整单车的运行策略,以满足冲击率、能耗等约束条件;列车进站过程中,后车需要比前车运行更长的距离(或采用更加复杂的控制策略)以满足停站时的小间距需求。
[0004]面对虚拟编组下复杂控车场景,探索不同的控车策略使多辆列车可以在满足安全运行的前提下尽可能提高准时率、停准率等指标是需要重点解决的问题。

技术实现思路

[0005]本公开提供了一种虚拟编组列车的动作决策模型的生成方法、装置。
[0006]根据本公开的第一方面,提供了一种虚拟编组列车的动作决策模型的生成方法。该方法包括:
[0007]获取目标虚拟编组列车的历史状态信息集;其中,所述历史状态信息集包括多个时刻的历史状态信息;
[0008]以历史状态信息集为输入,预测加速度向量为输出,对中心化值网络进行训练;
[0009]基于输出的预测加速度向量和预先构建的运行环境,对所述目标虚拟编组列车进行运行模拟,得到预测加速度向量的奖励值;
[0010]当所述奖励值满足预设条件时,完成所述中心化值网络的训练;
[0011]将完成训练的中心化值网络作为虚拟编组列车的动作决策模型。
[0012]进一步地,
[0013]所述历史状态信息包括观测状态数据和理想加速度;
[0014]所述中心化值网络包括中心化状态价值网络或中心化动作价值网络;
[0015]所述以历史状态信息集为输入,预测加速度向量为输出,对中心化值网络进行训练,包括:
[0016]以观测状态数据集为输入,预测加速度向量为输出,对中心化状态价值网络进行
训练;
[0017]或者,
[0018]以观测状态数据集和理想加速度集为输入,预测加速度向量为输出,对中心化动作价值网络进行训练。
[0019]进一步地,所述目标虚拟编组列车包括一列领航车和至少一列跟随车;
[0020]所述观测状态数据包括领航车的观测状态数据和跟随车的观测状态数据;
[0021]所述领航车的观测状态数据包括速度、加速度、与目标站台距离、剩余运行时间;
[0022]所述跟随车的观测状态数据包括速度、加速度、前车速度、前车加速度、与前车的距离。
[0023]进一步地,所述运行环境包括以下构建项:
[0024]限速限制项、加速度变化率限制项、奖励设计项、掩码设计项;
[0025]其中,所述奖励设计项包括安全性奖励项、停车奖励项、时间奖励项、能耗奖励项和舒适度奖励项;
[0026]其中,所述掩码设计项包括领航车的掩码项和跟随车的掩码项。
[0027]进一步地,所述构建项通过以下步骤进行构建:
[0028]根据列车的牵引力制动特性、制动力制动特性和道路限速信息,构建限速限制项;
[0029]根据预设加速度变化绝对值,构建加速度变化率限制项;
[0030]对紧急制动的动作、与前车撞车的动作、停车距离、运行时间、运行能耗、加速度变化绝对值定义对应的域和奖励值,构建奖励设计项;
[0031]根据速度为负数的动作、紧急制动的动作和与前车撞车的动作,构建掩码设计项。
[0032]进一步地,所述当所述奖励值满足预设条件时,完成所述中心化值网络的训练,包括:
[0033]将所述奖励值与预设条件进行对比;
[0034]并当所述奖励值满足预设条件时,完成所述中心化值网络的训练;
[0035]当所述奖励值不满足预设条件时,则计算所述奖励值与预设阈值的差值,根据所述差值确定对应的参数值,并调整所述中心化值网络的参数,继续训练;其中,所述奖励值由运行环境的奖励设计项输出。
[0036]根据本公开的第二方面,提供了一种虚拟编组列车的运行控制方法。
[0037]该方法包括:
[0038]获取待运行控制的虚拟编组列车的当前时刻的状态信息;
[0039]将所述当前时刻的状态信息输入根据权利要求1

6任一方法训练得到的虚拟编组列车的动作决策模型,输出下一时刻的加速度;
[0040]基于所述下一时刻的加速度,对所述待运行控制的虚拟编组列车进行运行控制。
[0041]根据本公开的第三方面,提供了一种虚拟编组列车的动作决策模型的生成装置。该装置包括:
[0042]信息获取模块,用于获取目标虚拟编组列车的历史状态信息集;其中,所述历史状态信息集包括多个时刻的历史状态信息;
[0043]模型训练模块,用于以历史状态信息集为输入,预测加速度向量为输出,对中心化值网络进行训练;
[0044]运行模拟模块,用于基于输出的预测加速度向量和预先构建的运行环境,对所述目标虚拟编组列车进行运行模拟,得到预测加速度向量的奖励值;
[0045]模型生成模块,用于当所述奖励值满足预设条件时,完成所述中心化值网络的训练;将完成训练的中心化值网络作为虚拟编组列车的动作决策模型。
[0046]根据本公开的第四方面提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
[0047]根据本公开的第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
[0048]本公开的实施例提供了虚拟编组列车的动作决策模型的生成方法、装置,通过设置可扩展的中心化值网络作为强化学习模型,以适应虚拟编组的编组数量是动态可变的这一特点,并基于历史状态信息集对中心化值网络进行训练,然后根据输出的预测加速度向量在构建的运行环境中进行运行模拟,得到奖励值,然后根据奖励值对中心化值网络进行调参,加速收敛,提高训练效率。并根据训练好的模型预测虚拟编组列车下一时刻的加速度,以便生成运行控制策略,保证列车在充分安全运行的前提下,更好地提高准时率、停准率。
[0049]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟编组列车的动作决策模型的生成方法,其特征在于,包括:获取目标虚拟编组列车的历史状态信息集;其中,所述历史状态信息集包括多个时刻的历史状态信息;以历史状态信息集为输入,预测加速度向量为输出,对中心化值网络进行训练;基于输出的预测加速度向量和预先构建的运行环境,对所述目标虚拟编组列车进行运行模拟,得到预测加速度向量的奖励值;当所述奖励值满足预设条件时,完成所述中心化值网络的训练;将完成训练的中心化值网络作为虚拟编组列车的动作决策模型。2.根据权利要求1所述的方法,其特征在于,所述历史状态信息包括观测状态数据和理想加速度;所述中心化值网络包括中心化状态价值网络或中心化动作价值网络;所述以历史状态信息集为输入,预测加速度向量为输出,对中心化值网络进行训练,包括:以观测状态数据集为输入,预测加速度向量为输出,对中心化状态价值网络进行训练;或者,以观测状态数据集和理想加速度集为输入,预测加速度向量为输出,对中心化动作价值网络进行训练。3.根据权利要求2所述的方法,其特征在于,所述目标虚拟编组列车包括一列领航车和至少一列跟随车;所述观测状态数据包括领航车的观测状态数据和跟随车的观测状态数据;所述领航车的观测状态数据包括速度、加速度、与目标站台距离、剩余运行时间;所述跟随车的观测状态数据包括速度、加速度、前车速度、前车加速度、与前车的距离。4.根据权利要求1所述的方法,其特征在于,所述运行环境包括以下构建项:限速限制项、加速度变化率限制项、奖励设计项、掩码设计项;其中,所述奖励设计项包括安全性奖励项、停车奖励项、时间奖励项、能耗奖励项和舒适度奖励项;其中,所述掩码设计项包括领航车的掩码项和跟随车的掩码项。5.根据权利要求4所述的方法,其特征在于,所述构建项通过以下步骤进行构建:根据列车的牵引力制动特性、制动力制动特性和道路限速信息,构建限速限制项;根据预设加速度变化绝对值,构建加速度变化率限制项;对紧急制动的动作、与前车撞车的动作、停车距离、运行时间、运行能耗、加速度变化绝对值定义对应的域和奖励值,构建奖励设计项;根据速度为负数...

【专利技术属性】
技术研发人员:王殿元程高云付哲肖骁
申请(专利权)人:交控科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1