一种模型训练和调度无人设备的方法及装置制造方法及图纸

技术编号:29792513 阅读:22 留言:0更新日期:2021-08-24 18:12
本发明专利技术公开了一种模型训练和调度无人设备的方法及装置,本发明专利技术实施例以所有无人设备的使用总成本最小化为训练目标,对第一机器学习模型进行训练,可以使训练后的第一机器学习模型输出合适的调度策略,采用该调度策略调度无人设备时,既可以满足各待分配订单对应的配送需求,又可以降低无人设备的使用成本,同时为了提高第一机器学习模型的训练效率,本发明专利技术实施例还通过第二机器学习模型输出评价值,用于对训练过程中的第一机器学习模型输出的调度策略进行评价,在训练第一机器学习模型时,以所有无人设备的使用总成本最小化、评价值最大化为训练目标调整第一机器学习模型的模型参数,可加速第一机器学习模型的收敛速度。

【技术实现步骤摘要】
一种模型训练和调度无人设备的方法及装置
本专利技术涉及自动驾驶
,尤其涉及一种模型训练和调度无人设备的方法及装置。
技术介绍
随着电子商务技术的广泛应用,线下物流技术也得到了长足的发展,目前,使用无人设备进行线下的配送成为了一种趋势。在现有技术中,使用无人设备进行线下配送时,通常考虑的是使用全部的无人设备进行配送时,应该如何调度各无人设备,即,对于一个无人设备来说,该无人设备应该执行哪些配送任务,执行各配送任务的顺序是什么,如何规划执行各配送任务的路径。但是,由于用户在不同的时间对配送的需求并不相同,例如,在用餐高峰时段对配送量的需求较大,在非用餐高峰时段对配送量需求较小,因此,如何在降低无人设备的使用成本的同时,满足用户的配送需求,成为一个亟待解决的问题。
技术实现思路
本专利技术实施例提供一种模型训练和调度无人设备的方法及装置,以部分解决上述现有技术存在的问题。本专利技术实施例采用下述技术方案:本专利技术提供的一种模型训练的方法,包括:确定指定时刻的待分配订单以及所述指定时刻的可用无人设备,作为所述指定时刻的状态;将所述指定时刻的状态输入第一机器学习模型,得到所述第一机器学习模型输出的在所述指定时刻的状态下调度各可用无人设备的调度策略;并确定在所述调度策略的条件下,所有无人设备的使用总成本;根据所述调度策略,确定所述指定时刻的下一时刻的待分配订单以及所述下一时刻的可用无人设备,作为所述下一时刻的状态;将所述下一时刻的状态输入第二机器学习模型,得到所述第二机器学习模型输出的对所述调度策略的评价值;以所述使用总成本最小化、所述评价值最大化为训练目标,对所述第一机器学习模型进行训练。可选地,将所述下一时刻的状态输入第二机器学习模型,具体包括:根据所述下一时刻的状态,确定所述调度策略对应的奖励;将所述下一时刻的状态以及所述调度策略对应的奖励输入第二机器学习模型。可选地,得到所述第二机器学习模型输出的对所述调度策略的评价值,具体包括:通过所述第二机器学习模型,根据所述下一时刻的状态以及所述调度策略对应的奖励,预估在所述指定时刻的状态下所能达到的所有无人设备的最小使用总成本;根据所述最小使用总成本和所述调度策略的条件下所有无人设备的使用总成本,确定对所述调度策略的评价值。可选地,根据所述最小使用总成本和所述调度策略的条件下所有无人设备的使用总成本,确定对所述调度策略的评价值,具体包括:确定所述调度策略的条件下所有无人设备的使用总成本与所述最小使用总成本的差值;根据所述差值,确定所述调度策略的评价值,其中,所述评价值与所述差值负相关。可选地,以所述使用总成本最小化、所述评价值最大化为训练目标,对所述第一机器学习模型进行训练,具体包括:根据所述调度策略的条件下所有无人设备的使用总成本,确定所述调度策略的条件下所有无人设备的使用总成本的梯度;根据所述梯度和所述差值,以所述使用总成本最小化、所述评价值最大化为训练目标,对所述第一机器学习模型中的模型参数进行调整。可选地,所述第一机器学习模型包括actor网络;所述第二机器学习模型包括critic网络。本专利技术提供的一种调度无人设备的方法,所述方法包括:确定当前时刻的待分配订单以及当前时刻的可用无人设备,作为当前时刻的状态;将所述当前时刻的状态输入第一机器学习模型,得到所述第一机器学习模型输出的调度策略;其中,所述第一机器学习模型是采用如上所述的模型训练的方法训练得到的;通过所述调度策略对各可用无人设备进行调度。本专利技术提供的一种模型训练的装置,所述装置包括:确定模块,用于确定指定时刻的待分配订单以及所述指定时刻的可用无人设备,作为所述指定时刻的状态;输入模块,用于将所述指定时刻的状态输入第一机器学习模型,得到所述第一机器学习模型输出的在所述指定时刻的状态下调度各可用无人设备的调度策略;并确定在所述调度策略的条件下,所有无人设备的使用总成本;仿真模块,用于根据所述调度策略,确定所述指定时刻的下一时刻的待分配订单以及所述下一时刻的可用无人设备,作为所述下一时刻的状态;评价模块,用于将所述下一时刻的状态输入第二机器学习模型,得到所述第二机器学习模型输出的对所述调度策略的评价值;训练模块,用于以所述使用总成本最小化、所述评价值最大化为训练目标,对所述第一机器学习模型进行训练。本专利技术提供的一种调度无人设备的装置,所述装置包括:确定模块,用于确定当前时刻的待分配订单以及当前时刻的可用无人设备,作为当前时刻的状态;输入模块,用于将所述当前时刻的状态输入第一机器学习模型,得到所述第一机器学习模型输出的调度策略;其中,所述第一机器学习模型是采用如上所述的模型训练的方法训练得到的;调度模块,用于通过所述调度策略对各可用无人设备进行调度。本专利技术提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的模型训练的方法或调度无人设备的方法。本专利技术提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的模型训练的方法或调度无人设备的方法。本专利技术实施例采用的上述至少一个技术方案能够达到以下有益效果:本专利技术实施例以所有无人设备的使用总成本最小化为训练目标,对第一机器学习模型进行训练,可以使训练后的第一机器学习模型输出合适的调度策略,采用该调度策略调度无人设备时,既可以满足各待分配订单对应的配送需求,又可以降低无人设备的使用成本,同时为了提高第一机器学习模型的训练效率,本专利技术实施例还通过第二机器学习模型输出评价值,用于对训练过程中的第一机器学习模型输出的调度策略进行评价,在训练第一机器学习模型时,以所有无人设备的使用总成本最小化、评价值最大化为训练目标调整第一机器学习模型的模型参数,可加速第一机器学习模型的收敛速度。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例提供的模型训练的方法示意图;图2为本专利技术实施例提供的一种模型训练的装置结构示意图;图3为本专利技术实施例提供的一种调度无人设备的装置结构示意图;图4为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术具体实施例及相应的附图对本专利技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。以下结合附图,详细说明本专利技术各实施例提供的技术方案。图本文档来自技高网...

【技术保护点】
1.一种模型训练的方法,其特征在于,包括:/n确定指定时刻的待分配订单以及所述指定时刻的可用无人设备,作为所述指定时刻的状态;/n将所述指定时刻的状态输入第一机器学习模型,得到所述第一机器学习模型输出的在所述指定时刻的状态下调度各可用无人设备的调度策略;并确定在所述调度策略的条件下,所有无人设备的使用总成本;/n根据所述调度策略,确定所述指定时刻的下一时刻的待分配订单以及所述下一时刻的可用无人设备,作为所述下一时刻的状态;/n将所述下一时刻的状态输入第二机器学习模型,得到所述第二机器学习模型输出的对所述调度策略的评价值;/n以所述使用总成本最小化、所述评价值最大化为训练目标,对所述第一机器学习模型进行训练。/n

【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:
确定指定时刻的待分配订单以及所述指定时刻的可用无人设备,作为所述指定时刻的状态;
将所述指定时刻的状态输入第一机器学习模型,得到所述第一机器学习模型输出的在所述指定时刻的状态下调度各可用无人设备的调度策略;并确定在所述调度策略的条件下,所有无人设备的使用总成本;
根据所述调度策略,确定所述指定时刻的下一时刻的待分配订单以及所述下一时刻的可用无人设备,作为所述下一时刻的状态;
将所述下一时刻的状态输入第二机器学习模型,得到所述第二机器学习模型输出的对所述调度策略的评价值;
以所述使用总成本最小化、所述评价值最大化为训练目标,对所述第一机器学习模型进行训练。


2.如权利要求1所述的方法,其特征在于,将所述下一时刻的状态输入第二机器学习模型,具体包括:
根据所述下一时刻的状态,确定所述调度策略对应的奖励;
将所述下一时刻的状态以及所述调度策略对应的奖励输入第二机器学习模型。


3.如权利要求2所述的方法,其特征在于,得到所述第二机器学习模型输出的对所述调度策略的评价值,具体包括:
通过所述第二机器学习模型,根据所述下一时刻的状态以及所述调度策略对应的奖励,预估在所述指定时刻的状态下所能达到的所有无人设备的最小使用总成本;
根据所述最小使用总成本和所述调度策略的条件下所有无人设备的使用总成本,确定对所述调度策略的评价值。


4.如权利要求3所述的方法,其特征在于,根据所述最小使用总成本和所述调度策略的条件下所有无人设备的使用总成本,确定对所述调度策略的评价值,具体包括:
确定所述调度策略的条件下所有无人设备的使用总成本与所述最小使用总成本的差值;
根据所述差值,确定所述调度策略的评价值,其中,所述评价值与所述差值负相关。


5.如权利要求4所述的方法,其特征在于,以所述使用总成本最小化、所述评价值最大化为训练目标,对所述第一机器学习模型进行训练,具体包括:
根据所述调度策略的条件下所有无人设备的使用总成本,确定所述调度策略的条件下所有无人设备的使用总成本的梯度;
根据所述梯度和所述差值,以所述使用总成本最小化、所述评价值最大化为训练目标,对所述第一机器学习模型中的模型参数进行调整。...

【专利技术属性】
技术研发人员:刘欣姜媛
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1