当前位置: 首页 > 专利查询>清华大学专利>正文

基于导师学生制框架的车船资源动态调度方法及系统技术方案

技术编号:36191248 阅读:29 留言:0更新日期:2022-12-31 21:07
本发明专利技术提供一种基于导师学生制框架的车船资源动态调度方法及系统,涉及交通运输和资源调度技术领域。该导师学生制框架包含导师层和学生层,该方法包括:步骤S110,获取待调度资源的多维状态信息;步骤S120,根据多维状态信息,设置待调度资源的基本假设,基本假设包括多个运营区域和多个运营时间段的划分;步骤S130,在导师层,根据基本假设,利用马尔科夫决策过程对待调度资源的运营规划过程建立神经网络模型,并通过强化学习优化神经网络模型,生成当前运营时间段内的指导策略;步骤S140,在学生层,根据指导策略,利用预设的分配模型对待调度资源执行调度行动,并将当前的行动执行结果重新反馈至上述步骤S130。行结果重新反馈至上述步骤S130。行结果重新反馈至上述步骤S130。

【技术实现步骤摘要】
基于导师学生制框架的车船资源动态调度方法及系统


[0001]本专利技术涉及交通运输和资源调度
,尤其涉及一种基于导师学生制框架的车船资源动态调度方法、系统、电子设备以及存储介质。

技术介绍

[0002]近年来,网约车的快速发展给人们的生活方式带来了巨大影响。网约车平台通过整合实时供需信息,在乘客和司机之间实现实时匹配,提供在线出行服务,极大降低了乘客打车的等待时间。随着技术进步和对未来交通系统发展的诉求,电动化已经成为未来智能汽车发展的必然趋势,其在污染排放和噪声方面都具有环境友好性。电动网约车和燃油网约车将共同在未来的交通系统中发挥重要作用,在现实生活中,需求产生的随机性和动态性,以及电动车的行驶里程限制都给电动网约车的大规模在线运营优化问题带来一定挑战。
[0003]类似的大规模供需资源动态调度问题也同样存在于海上交通,即不定期船运输市场的船舶调度和船货匹配难题。不定期船不同于集装箱船,不固定航线和挂靠港口,仅以签订租船合同的方式从事某一具体航线或航次运营,与网约车的运营模式存在一定的共性。随着世界经济的快速发展,不定期船运输市场快速成长,如何快速调整运力并获取最佳船货匹配组合对航运企业的经营收益至关重要。然而,一方面,不定期船市场船货信息不对称、市场供需信息传递不及时、需求也存在波动;另一方面,不定期船运输的供需分布极不均匀、运输航线长,这些都造成了不定期船空载率较高、空载航程长等问题,提高了船货匹配决策的难度。

技术实现思路

[0004]鉴于上述问题,本专利技术提供了一种基于导师学生制框架的车船资源动态调度方法、系统、电子设备以及存储介质。
[0005]根据本专利技术的第一个方面,提供了一种基于导师学生制框架的车船资源动态调度方法,所述导师学生制框架包含导师层和学生层,所述方法包括:步骤S110,获取待调度资源的多维状态信息;步骤S120,根据所述多维状态信息,设置所述待调度资源的基本假设,所述基本假设包括多个运营区域和多个运营时间段的划分;步骤S130,在导师层,根据所述基本假设,利用马尔科夫决策过程对所述待调度资源的运营规划过程建立神经网络模型,并通过强化学习优化所述神经网络模型,生成当前运营时间段内的指导策略;步骤S140,在学生层,根据所述指导策略,利用预设的分配模型对所述待调度资源执行调度行动,并将当前的行动执行结果重新反馈至上述步骤S130。
[0006]本专利技术的第二方面提供了一种基于导师学生制框架的车船资源动态调度系统,所述导师学生制框架包含导师层和学生层,所述系统包括:状态信息获取模块,用于获取待调度资源的多维状态信息;基本假设设置模块,用于根据所述多维状态信息,设置所述待调度资源的基本假设,所述基本假设包括多个运营区域和多个运营时间段的划分;指导策略生
成模块,用于在导师层,根据所述基本假设,利用马尔科夫决策过程对所述待调度资源的运营规划过程建立神经网络模型,并通过强化学习优化所述神经网络模型,生成当前运营时间段内的指导策略;调度行动执行模块,用于在学生层,根据所述指导策略,利用预设的分配模型对所述待调度资源执行调度行动,并将当前的行动执行结果重新反馈至上述指导策略生成模块。
[0007]本专利技术的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
[0008]本专利技术的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
[0009]通过本专利技术提供的基于导师学生制框架的车船资源动态调度方法、系统、电子设备以及存储介质,至少具有以下有益效果:
[0010](1)本专利技术提出一个两步的导师学生制框架,制定电动网约车的司乘匹配、车辆调度以及充电控制等指导策略;也可为燃油网约车和不定期船提供供需匹配的决策支持;
[0011](2)导师

学生制框架是一个双层模型,导师层利用强化学习将所有区域的电动车进行整体上的调度,在考虑制定的策略对未来可用供给的影响下,分配车辆以满足乘客的出行需求、派遣车辆到其他区域去满足未来可能的高峰需求、派遣车辆前往充电设施进行充电。强化学习中的奖励函数具有高度的非线性,因此嵌套神经网络存储系统状态、决策和奖励的关系,进而再通过强化学习更新神经网络中刻画这些关系的权重。导师层的目的是通过决策去尽可能最大化当前和未来阶段总的奖励的策略,以减小当下阶段做出短视决策的可能;
[0012](3)导师学生制框架同样可以拓展到燃油网约车车乘匹配和船货匹配上;并且,导师层不局限于强化学习,模型预测控制、随机优化等方法均可嵌入到导师层中。
附图说明
[0013]通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其他目的、特征和优点将更为清楚,在附图中:
[0014]图1示意性示出了根据本专利技术实施例的基于导师学生制框架的车船资源动态调度方法的流程图;
[0015]图2示意性示出了根据本专利技术实施例的导师学生制框架的演化过程;
[0016]图3示意性示出了根据本专利技术实施例的离线训练的过程流程图;
[0017]图4示意性示出了根据本公开实施例的基于导师学生制框架的车船资源动态调度系统的结构框图;
[0018]图5示意性示出了根据本公开实施例的适于实现基于导师学生制框架的车船资源动态调度方法的电子设备的方框图。
具体实施方式
[0019]以下,将参照附图来描述本专利技术的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细
节以提供对本专利技术实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。
[0020]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本专利技术。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
[0021]在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
[0022]在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
[0023]附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于导师学生制框架的车船资源动态调度方法,其特征在于,所述导师学生制框架包含导师层和学生层,所述方法包括:步骤S110,获取待调度资源的多维状态信息;步骤S120,根据所述多维状态信息,设置所述待调度资源的基本假设,所述基本假设包括多个运营区域和多个运营时间段的划分;步骤S130,在导师层,根据所述基本假设,利用马尔科夫决策过程对所述待调度资源的运营规划过程建立神经网络模型,并通过强化学习优化所述神经网络模型,生成当前运营时间段内的指导策略;步骤S140,在学生层,根据所述指导策略,利用预设的分配模型对所述待调度资源执行调度行动,并将当前的行动执行结果重新反馈至上述步骤S130。2.根据权利要求1所述的基于导师学生制框架的车船资源动态调度方法,其特征在于,所述待调度资源包括多辆电动网约车;所述待调度资源的多维状态信息包括需求分布、车辆分布、车辆电量和充电桩占用情况;所述待调度资源的基本假设包括多个运营区域和多个运营时间段的设置;所述指导策略包括在每个所述运营区域内的各种电量的电动网约车的调度数和充电数,所述调度数包括派遣至其他运营区域内的车辆数,所述充电数包括需要去充电的车辆数;所述调度行动包括每一辆电动网约车的行动,具体包括派遣服务某个特定的乘客、调度到另一个区域或者去某个充电站充电。3.根据权利要求2所述的基于导师学生制框架的车船资源动态调度方法,其特征在于,所述待调度资源的基本假设具体包括:获取所述多辆电动网约车的目标运营区域,将所述目标运营区域划分为密铺且不相交的多个六边形区域,使得相邻两个六边形区域的中心点之间的距离相同,将每个六边形区域放入集合J;从所述多个六边形区域中筛选出含有充电基础设施的区域并记为充电服务区域,将每个充电服务区域放入集合I;获取所述多辆电动网约车的每日运营时间,将所述每日运营时间划分成T个等间隔的运营时间段;在每个运营时间段内,根据所述需求分布和车辆分布,设定乘客从所述集合J中的任意第i个六边形区域到第j个六边形区域的出行概率,i≠j,i∈J,j∈J。4.根据权利要求1所述的基于导师学生制框架的车船资源动态调度方法,其特征在于,所述强化学习包括主体、环境状态、动作、状态转移和奖励函数,其中:所述主体为车辆,根据车辆所在的运营区域和电量划分不同的主体;所述环境状态包括当前运营时间段t内的四种状态:每个运营区域内每种电量的可用车辆的数量每个运营区域内等待服务的乘客数量已经指派到某运营区域但仍处于空驶状态未到达的将来可用的车辆数量充电站的位置和占用信息
所述动作是指导师层生成的指导策略,包括运营区域j内有多少电量为e的车辆会被派遣到另一运营区域以及运营区域j内有多少辆电量为e的车辆被派遣到充电站去充电;所述状态转移是指在学生层执行调度行动后,将当前运营时间段t内的环境状态向下一运营时间段t+1演化;所述奖励函数是指学生层执行调度行动后产生的预期成本,包括乘客的等待时间、乘客放弃需求的惩罚、车辆的行驶成本以及车辆的充电和排队成本,所述预期成本反馈至所述主体。5.根据权利要求4所述的基于导师学生制框架的车船资源动态调度方法,其特征在于,所述神经网络模型包含底层、中间层和上层,其中:所述底层输入环境状态、动作以及表示没被考虑到的隐含要素的常数项;所述中间层包括下隐含层和上隐含层,所述底层的节点加权求和得到所述下隐含层,所述下隐含层通过RELU激活函数产生所述上隐含层;所述上层输出由所述上隐含层加权求和得到的奖励函数。6.根据权利要求5所述的基于导师学生制框架的车船资源动态调度方法,其特征在于,在使用所述神经网络模型之前,还包括对所述神经网络模型进行在线训练或者离线训练,其中:在训练过程中设置有不断迭代的内循环和外循环,所述外循环用于进行神经网络模型的参数的迭代,包括两次加权和的权重;所述内循环用于推进当前运营时间段t;在每一次内循环完成,比较当前神经网络模型输出的奖励函数和真实决策带来的实际成本的差异,以对所述两次加权和的权重进行校正。7.根据权利要求6所述的基于导师学生制框架的车船资源动态调度方法,其特征在于,所述离线训练过程具体包括:步骤S610,获取预设的迭代次数阈值M和运营时间段阈值T;步骤S620,判断当前迭代次数m是否小于所述迭代次数阈值M,如果是,则执行以下步骤S630~步骤S670;否则执行以下步骤S680;步骤S630,在初始运营时间段t=0时,初始化所述神经网络模型中的环境状态、动作和奖励函数之间的关系;步骤S640,判断当前运营时间段t是否小于所述运营时间段阈值T,如果是,则执行以下步骤S650~步骤S660;否则执行以下步骤S670;步骤S650,将当前运营时间段t推进至下一个运营时间段t+1,获得该运营时间段t+1内的指导策略和预期成本,根据该预期成本优化该运营时间段t+1内的指导策略;步骤S660,更新所述神经网络模型中的环境状态,并获得实际成本;步骤S670,根据运营时间段阈值T下的预期成本和实际成本,更新所述神经网络模型中的环境状态、动作和奖励函数之间的关系,并将当前迭代次数m推进至下一个迭代次数m+1;步骤S680,离线训练结束,输出最新的神经网络模型中的环境状态、动作和奖励函数之间的关系。8.根据权利要求6所述的基于导师学生制框架的车船资源动态调度方法,其特征在于,所述真实决策带来的实际成本根据以下方式模拟得出:建立一个仿真器来模拟所述待调度资源的运营规划过程,在该仿真器中,设置N辆随机
分布的电动网约车,其电量随机设定;在该仿真器中,设置相互嵌套的外层循环和内层循环,所述外层循环表示运营时间段的推进,所述内层循环用于进行不同运营区域的仿真;基于所述仿真器的输出结果,得出所述真实决策带来的实际成本。9.根据权利要求3所述的基于导师学生制框架的车船资源动态调度方法,其特征在于:所述分配模型中预先定义有在每个运营时间段t内的每个运营区域的等待服务的乘客集合运营区域o∈J内空闲车辆的集合以及充电行程集合I
t
,其中,该乘客集合包含新到达的需求和在上一个运营时间段内遗留下来的需求且所述分配模型中设置有决策变量x
kr
、y

【专利技术属性】
技术研发人员:何方白茜文高畅程靓琦林犀
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1