System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多智能体路径规划的公交车辆排班方法技术_技高网

一种基于多智能体路径规划的公交车辆排班方法技术

技术编号:40871663 阅读:4 留言:0更新日期:2024-04-08 16:39
本发明专利技术公开了一种基于多智能体路径规划的公交车辆排班方法,属于公交车辆排班领域。本发明专利技术方法包括:设计公交车辆排班问题的序列决策过程,将公交车辆排班问题映射为多智能体路径规划问题;将车辆作为智能体,设计可选行程和竞争车辆的概念,进行马尔可夫决策过程建模,设计状态空间、动作空间和奖励函数;结合参数共享的思想,使用基于策略的强化学习算法完成车辆智能体与仿真环境的交互,停止迭代后,各车辆智能体按照发车时刻逐步决策,生成完整公交车排班策略。本发明专利技术方法使车辆能基于重点关注的环境信息进行实时决策,能同时解决离线和在线的调度问题,有效降低排班方案所带来的车辆使用成本,能适用于更大规模的场景中。

【技术实现步骤摘要】

本专利技术属于公交车辆排班领域,涉及基于多智能体强化学习的数据处理技术,具体涉及一种基于多智能体路径规划的公交车辆排班方法


技术介绍

1、公交车辆排班,也就是车辆调度,解决了乘车需求与车辆资源的匹配,对保证公交服务质量和降低运营成本都至关重要,是公交运营规划过程中的关键一环。

2、公交车辆排班通常被看作组合优化问题,被建立成数学优化模型求解。根据求解问题的特点,可分为确定环境下的静态调度方法,以及不确定环境下的动态调度方法。对于不确定环境,举例来说,偶发的交通拥堵会导致某时间段公交车行程时间增加,需要对原有方案实时调整。静态调度方法中,一类是精确方法,如线性规划、列生成等,可以得到最优解,但计算时间会因规模增大而难以控制;另一类是启发式算法,如遗传算法等,可以在合理时间内生成近似最优解,但对经验知识的依赖会导致方法灵活性下降。动态调度方法中,一类是重调度方法,基于收集到的或预测的信息来对离线方案进行调整,但前后变化很大,难以应用于实时场景;另一类是鲁棒优化方法,通过对行驶时间进行松弛或随机处理来提高鲁棒性,但会增加不必要的车辆使用成本。

3、近些年,一些研究采用强化学习来解决组合优化问题,如公交时刻表优化、车辆路由问题和作业车间调度问题等。在这些研究中,强化学习方法通过智能体与环境的交互训练出一个策略,然后利用该策略进行实时决策,从而得到优化问题的解。与处理这类问题的传统方法相比,由于强化学习可以通过实时决策生成解,因此更适合在不确定环境下的优化。基于此,有研究者针对线上公交车辆调度问题,提出了基于强化学习方法的求解办法,利用单智能体结合某时刻的所有车辆信息进行决策,是从行程选车的角度出发,即按照发车时刻表的时间先后顺序,在每个发车时刻点到来时从运营的车队中选择一辆车执行对应的行程,这类方法通常需要综合处理若干车辆的信息并进行集中决策。随着问题规模扩大引发时刻点数目增多、运营车辆数目增多,信息收集和处理的成本就会提升,排班策略的输出也会受到影响,方法的性能可能会显著下降。

4、因此,亟需提出一种既能够满足线上公交车辆排班过程中实时决策、动态调整需求,又能保证方法扩展性足以在大规模问题上保证求解效果的公交车辆排班方法。


技术实现思路

1、针对上述现有公交车辆排班技术中的问题和需求,本专利技术创新性地从车选行程的角度进行设计,提出了一种基于多智能体路径规划的公交车辆排班方法。每一辆运营中的公交车辆,在完成上一趟行程后,都可以独立地根据实时信息选择自己的下一趟行程。不同的车辆都只聚焦自身需要关注的信息,实现分布式决策,大大降低了问题规模扩大产生的影响,有利于提高方法的可扩展性。

2、本专利技术提出的基于多智能体路径规划的公交车辆排班方法,包括以下步骤:

3、步骤1:设计公交车辆排班问题的序列决策过程,将公交车辆排班问题映射为多智能体路径规划问题。

4、将车队中的车辆看作智能体,将公交线路上的始发站和终点站作为控制点;选择车辆到站且休息最小休息时间的时刻作为决策点;将公交车辆排班问题映射为多智能体路径规划问题:使用节点表示行程,节点间的有向边连接表示行程间的相容,车辆v的一个决策过程是,将该车辆执行的上一个行程作为父节点,该节点与可候选为下一行程的w个子节点相连,边上的权值表示选择相应子节点作为下一行程的概率;每个车辆进行序列决策过程得到自己的行程选择路径,所有车辆的行程选择路径构成车辆排班问题的解;w大于或等于1。

5、步骤2:将车辆作为智能体,进行马尔可夫决策过程建模,设计状态空间、动作空间和奖励函数。

6、在完成车辆序列决策过程的设计后,需要考虑马尔可夫决策过程建模的三要素:状态、动作和奖励。根据公交车辆排班问题,提出了可选行程和竞争车辆的概念,并基于此设计三要素。状态是车辆智能体在决策时的输入信息,包含行程信息和竞争车辆信息;动作是车辆智能体的决策输出,动作空间包含车辆选择不同行程的动作及高峰休眠动作;奖励是环境对车辆智能体所执行动作的反馈信号,奖励函数由主线奖励和支线奖励组成。以使用的车辆数越少和执行奇数个行程的车辆数越少为优化目标设计主线奖励。在每执行一步车辆智能体的决策后计算一次支线奖励,以为覆盖遗漏的发车时刻点使用的新车数越少和新增陷入休眠或达到工作上限、且执行奇数个行程的车辆数越少作为优化目标设计支线奖励。

7、步骤3:结合参数共享的思想,使用基于策略的强化学习算法完成智能体与仿真环境的交互,训练得到最优策略。

8、为每个车辆智能体设置actor网络用于动作决策,所有actor网络共享一套参数;每回合迭代中,车辆智能体基于序列决策过程与仿真环境交互,在每一步决策,车辆智能体将观测的状态s和动作掩码m输入到actor网络,输出各动作的选择概率p,依概率选择动作a,计算奖励r,将交互产生的<s,a,p,r,m>元组存入经验池;每回合的迭代完成对发车时刻表的全覆盖,生成一个完整的公交车辆排班策略;使用经验池中元组数据基于critic网络评价当前actor网络,梯度更新actor网络所共享的参数和critic网络参数;在停止迭代后,各车辆智能体使用最后更新的共享参数的actor网络,按照发车时刻表逐步进行决策,获得完整公交车排班策略。

9、本专利技术的一种基于多智能体路径规划的公交车辆排班方法的优点在于:

10、(1)从车选行程的角度,本专利技术方法创新性地提出了一种使用多智能体路径规划求解公交车辆排班问题的方式,为将多旅行商问题、车辆路由问题等经典组合优化问题的方法应用到公交车辆排班这一传统问题提供了更多可能性。

11、(2)本专利技术方法通过对公交车辆排班的序列决策过程设计,通过马尔可夫决策过程建模,实现基于强化学习方法的求解,能够同时解决离线和在线调度问题。

12、(3)本专利技术方法提出了可选行程和竞争车辆的概念,在此基础上框定智能体决策时所需关注的状态信息,提高了方法的可扩展性。在马尔可夫决策过程的建模中,引入可选行程窗口的概念,限制了状态空间和动作空间大小;引入休眠动作,减少车辆类型转换这一过程对规则的依赖;设计支线奖励,避免奖励稀疏的问题;通过与目标一致的奖励信号引导多智能体合作,避免了无关奖励项的干扰,促进训练过程收敛的同时降低了多智能体通信成本。

13、(4)本专利技术方法在智能体学习过程中,将不同运营状态和类型的车辆设计为同质智能体,并采用参数共享的方式,在每次回合迭代开始时为所有智能体的策略模型设置统一的参数,使得不同车辆类型、不同运营状态的车辆智能体都共有一套参数,能够实现分布式采样和执行,很大程度上降低了训练成本,提高了可扩展性。

14、(5)本专利技术方法相比已有方法,能有效降低排班方案所带来的车辆使用成本,能够实现不确定环境下的动态调整,同时问题规模对方法求解效果的影响不大,能够方便地迁移到更大规模、更复杂场景的问题求解中。

本文档来自技高网...

【技术保护点】

1.一种基于多智能体路径规划的公交车辆排班方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,设计公交车辆排班问题的序列决策过程如下:

3.根据权利要求1所述的方法,其特征在于,所述的步骤2中,设置可选行程和竞争车辆的概念;可选行程是指车辆所在控制点的发车时刻表中,当前决策点时刻后尚未被选择的发车时刻点对应的行程;竞争车辆是指对某个行程而言,所有能选择该行程的车辆。

4.根据权利要求1或3所述的方法,其特征在于,所述的步骤2中,设置车辆智能体观测的状态用W×(1+3C)的矩阵表示,其中W是可选行程数量,C是每个行程需要关注的竞争车辆数量,状态矩阵的每行都对应一个行程,对每个行程观测1项行程信息和C个竞争车辆的各3项车辆信息,1项行程信息是指行程的行驶时间,3项车辆信息是指车辆的剩余行程数、剩余工作时间和额外休息时间。

5.根据权利要求1或3所述的方法,其特征在于,所述的步骤2中,设置车辆智能体的动作空间为A={0,1,…,W-1,W};其中前W个动作a∈{0,1,…,W-1},代表车辆选择可选行程窗口中第a个行程作为将要执行的下一行程,可选行程窗口中行程的索引从0开始;动作a=W代表高峰休眠动作,短班车在选择该动作后进入休眠状态,等待作为长班车或高峰车唤醒;

6.根据权利要求5所述的方法,其特征在于,所述的步骤2中,车辆智能体的决策动作时,在车辆生成观测状态时也生成动作掩码,动作掩码用于标记哪些动作是非法动作以及标记休眠动作是否被允许。

7.根据权利要求1或3所述的方法,其特征在于,所述的步骤2中,设计的主线奖励rm如下:

8.根据权利要求1所述的方法,其特征在于,所述的步骤3中,在每一步决策中,车辆智能体根据Actor网络输出的动作选择概率,在训练过程中根据概率随机选择动作并执行,在每执行一步决策后计算支线奖励作为奖励r保存,在每回合迭代的最后一步决策后计算主线奖励作为奖励r保存。

9.根据权利要求1或8所述的方法,其特征在于,所述的步骤3包括如下步骤:

...

【技术特征摘要】

1.一种基于多智能体路径规划的公交车辆排班方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,设计公交车辆排班问题的序列决策过程如下:

3.根据权利要求1所述的方法,其特征在于,所述的步骤2中,设置可选行程和竞争车辆的概念;可选行程是指车辆所在控制点的发车时刻表中,当前决策点时刻后尚未被选择的发车时刻点对应的行程;竞争车辆是指对某个行程而言,所有能选择该行程的车辆。

4.根据权利要求1或3所述的方法,其特征在于,所述的步骤2中,设置车辆智能体观测的状态用w×(1+3c)的矩阵表示,其中w是可选行程数量,c是每个行程需要关注的竞争车辆数量,状态矩阵的每行都对应一个行程,对每个行程观测1项行程信息和c个竞争车辆的各3项车辆信息,1项行程信息是指行程的行驶时间,3项车辆信息是指车辆的剩余行程数、剩余工作时间和额外休息时间。

5.根据权利要求1或3所述的方法,其特征在于,所述的步骤2中,设置车辆智能体的动作空间为a={...

【专利技术属性】
技术研发人员:左兴权张云龙黄海王飞扬吴炳林艾冠群
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1