System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于批量约束深度Q学习的列车节能驾驶曲线计算方法技术_技高网

一种基于批量约束深度Q学习的列车节能驾驶曲线计算方法技术

技术编号:41128336 阅读:2 留言:0更新日期:2024-04-30 17:56
本发明专利技术公开一种基于批量约束深度Q学习的列车节能驾驶曲线计算方法,涉及轨道交通技术领域。本发明专利技术基于列车控制模型和优化目标构建深度强化学习模型,先采用这一强化学习模型从历史经验数据或离线数据集中提取状态‑动作序列。接着,引入动作选择网络,并采用动作选择网络基于状态‑动作序列生成候选动作。然后,将生成的候选动作输入值函数得到策略动作,生成列车节能驾驶曲线,进而能够充分利用历史数据和专家先验知识,得到较好的行车策略,并能够及时响应环境变化,增强适用性,提高列车驾驶控制的智能化程度。

【技术实现步骤摘要】

本专利技术涉及轨道交通,特别是涉及一种基于批量约束深度q学习的列车节能驾驶曲线计算方法。


技术介绍

1、随着经济的快速发展和人们出行需求的不断增长,公共交通的平稳、高效运行成为社会正常运转的重要保障。其中,轨道交通以运量大、速度快、运输成本低、准时、安全等优势占据公共交通核心位置。降低列车能耗是交通领域低碳发展的重要一环,也是未来绿色交通发展的方向。列车牵引能耗占据总能耗的50%左右,因此降低列车牵引能耗有更大的发展潜力,是轨道交通系统节能减排的工作重点。优化列车驾驶策略既可以显著降低牵引能耗,又可以将算法推广到硬件条件不同的线路和车辆上,具有良好的节能效果和较强的适用性。目前列车自动驾驶主要通过数值解法或搜索算法求解最优驾驶控制模型,得到最优驾驶策略。但在实际运营场景中这类模型很难建立,且使用带有先验知识的模型对列车运行进行描述只能做到尽可能相似,全面还原较为困难。通过这类模型计算得到的行车策略在环境出现变化时适用性减弱。与之形成对比的是,列车每天实际运行都会产生大量数据,这类数据利用率较低,一些环境信息和较好的驾驶经验没有得到充分挖掘。基于此,如何研究一种可以充分利用历史数据和先验知识,得到较好的行车策略,并能够及时响应环境变化的列车驾驶节能方法或系统,成为本领域亟待解决的一个技术问题。


技术实现思路

1、为解决现有技术存在的上述问题,本专利技术提供了一种基于批量约束深度q学习的列车节能驾驶曲线计算方法。

2、为实现上述目的,本专利技术提供了如下方案:

3、一种基于批量约束深度q学习的列车节能驾驶曲线计算方法,包括:

4、根据实际线路信息和车辆信息建立列车控制模型和优化目标;

5、基于列车控制模型和优化目标构建强化学习模型;

6、基于强化学习模型从历史经验数据或离线数据集中提取状态-动作序列;

7、采用动作选择网络基于所述状态-动作序列生成候选动作;

8、将所述候选动作输入值函数得到策略动作,生成列车节能驾驶曲线;在得到策略动作的过程中,所述值函数采用批量约束深度q学习更新公式进行更新;所述策略动作为具有最高q值且在动作选择网络的输出中具有设定概率的动作。

9、可选地,根据实际线路信息和车辆信息建立列车控制模型和优化目标,具体包括:

10、根据实际线路信息和车辆信息结合列车运动学方程和牛顿第二定律建立所述列车控制模型;所述车辆信息包括列车质量、可施加的牵引等级和制动力;所述实际线路信息包括线路的坡度信息和线路的限速信息;

11、基于所述列车控制模型确定列车运行时间、列车运行速度和牵引能耗;

12、以最小化牵引能耗为所述优化目标。

13、可选地,将所述候选动作输入值函数得到策略动作,生成列车节能驾驶曲线,具体包括:

14、采用批量约束深度q学习更新公式更新所述值函数;

15、将所述候选动作输入到更新后的值函数得到策略动作;

16、执行所述策略动作得到新的状态;

17、基于新的状态、所述列车控制模型和所述优化目标确定列车运行时间;

18、基于所述列车运行时间确定列车是否能够按照预设时间到达终点;

19、如果列车能够按照预设时间到达终点,则依据预定条件确定更新后的所述值函数是否收敛;

20、如果更新后的所述值函数收敛,则基于收敛后的值函数生成列车节能驾驶曲线;

21、如果列车不能按照预设时间到达终点,则采用更新后的值函数得到新的策略动作,并返回执行所述策略动作得到新的状态的步骤;

22、如果更新后的所述值函数不收敛,则采用动作选择网络基于所述状态-动作序列重新生成候选动作。

23、可选地,批量约束深度q学习更新公式为:

24、θ=arg minθσ(s,a,r,s')∈dlκ(r+γqθ'(s',a')-qθ(s,a));

25、式中,qθ'(s',a')表示状态s'下执行动作a'的值函数,r表示获得的奖励,γ表示折扣因子,θ表示值函数的参数,(s,a,r,s')∈d表示基于强化学习模型从历史经验数据或离线数据集中提取出的状态动作转移序列,s表示当前状态,a表示状态s下选择的动作,s'表示状态s下执行动作a后的新状态,d表示当前状态动作集,lk(*)表示值函数的损失函数,arg min表示函数取值最小时的自变量取值。

26、可选地,所述预定条件为奖励值变化范围小于设定值。

27、根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:

28、本专利技术基于列车控制模型和优化目标构建深度强化学习模型,先采用这一强化学习模型从历史经验数据或离线数据集中提取状态-动作序列。接着,引入动作选择网络,并采用动作选择网络基于状态-动作序列生成候选动作。然后,将生成的候选动作输入值函数得到策略动作,生成列车节能驾驶曲线,进而能够充分利用历史数据和先验知识,得到较好的行车策略,并能够及时响应环境变化,增强适用性。

29、进一步,本专利技术提供了一种列车节能驾驶曲线确定系统,所述系统用于实施上述提供的基于批量约束深度q学习的列车节能驾驶曲线计算方法;所述系统包括:

30、模型及目标构建模块,用于根据实际线路信息和车辆信息建立列车控制模型和优化目标;

31、强化学习模型构建模块,用于基于列车控制模型和优化目标构建强化学习模型;

32、状态-动作序列提取模块,用于基于强化学习模型从历史经验数据或离线数据集中提取状态-动作序列;

33、候选动作生成模块,用于采用动作选择网络基于所述状态-动作序列生成候选动作;

34、列车节能驾驶曲线生成模块,用于将所述候选动作输入值函数得到策略动作,生成列车节能驾驶曲线;在得到策略动作的过程中,所述值函数采用批量约束深度q学习更新公式进行更新;所述策略动作为具有最高q值且在动作选择网络的输出中具有设定概率的动作。

35、再进一步,本专利技术还提供了一种电子设备,该电子设备包括:

36、存储器,用于存储计算机程序;

37、处理器,与所述存储器连接,用于调取并执行所述计算机程序,以实施上述提供的基于批量约束深度q学习的列车节能驾驶曲线计算方法。

38、可选地,所述存储器为计算机可读存储介质。

39、因本专利技术提供的上述系统和电子设备实现的技术效果与本专利技术提供的基于批量约束深度q学习的列车节能驾驶曲线计算方法实现的技术效果相同,故在此不再进行赘述。

本文档来自技高网...

【技术保护点】

1.一种基于批量约束深度Q学习的列车节能驾驶曲线计算方法,其特征在于,包括:

2.根据权利要求1所述的基于批量约束深度Q学习的列车节能驾驶曲线计算方法,其特征在于,根据实际线路信息和车辆信息建立列车控制模型和优化目标,具体包括:

3.根据权利要求1所述的基于批量约束深度Q学习的列车节能驾驶曲线计算方法,其特征在于,将所述候选动作输入值函数得到策略动作,生成列车节能驾驶曲线,具体包括:

4.根据权利要求1所述的基于批量约束深度Q学习的列车节能驾驶曲线计算方法,其特征在于,批量约束深度Q学习更新公式为:

5.根据权利要求3所述的基于批量约束深度Q学习的列车节能驾驶曲线计算方法,其特征在于,所述预定条件为奖励值变化范围小于设定值。

6.一种列车节能驾驶曲线确定系统,其特征在于,所述系统用于实施如权利要求1-5任意一项所述的基于批量约束深度Q学习的列车节能驾驶曲线计算方法;所述系统包括:

7.一种电子设备,其特征在于,包括:

8.根据权利要求7所述的电子设备,其特征在于,所述存储器为计算机可读存储介质。</p>...

【技术特征摘要】

1.一种基于批量约束深度q学习的列车节能驾驶曲线计算方法,其特征在于,包括:

2.根据权利要求1所述的基于批量约束深度q学习的列车节能驾驶曲线计算方法,其特征在于,根据实际线路信息和车辆信息建立列车控制模型和优化目标,具体包括:

3.根据权利要求1所述的基于批量约束深度q学习的列车节能驾驶曲线计算方法,其特征在于,将所述候选动作输入值函数得到策略动作,生成列车节能驾驶曲线,具体包括:

4.根据权利要求1所述的基于批量约束深度q学习的列车节能驾驶曲线计算方法...

【专利技术属性】
技术研发人员:宿帅余祖俊唐涛刘宏杰张淼李昂易海旺惠子南范楷柴铭吕继东
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1