一种模型训练和调度无人设备的方法及装置制造方法及图纸

技术编号：29792513 阅读：22 留言：0更新日期：2021-08-24 18:12

本发明专利技术公开了一种模型训练和调度无人设备的方法及装置，本发明专利技术实施例以所有无人设备的使用总成本最小化为训练目标，对第一机器学习模型进行训练，可以使训练后的第一机器学习模型输出合适的调度策略，采用该调度策略调度无人设备时，既可以满足各待分配订单对应的配送需求，又可以降低无人设备的使用成本，同时为了提高第一机器学习模型的训练效率，本发明专利技术实施例还通过第二机器学习模型输出评价值，用于对训练过程中的第一机器学习模型输出的调度策略进行评价，在训练第一机器学习模型时，以所有无人设备的使用总成本最小化、评价值最大化为训练目标调整第一机器学习模型的模型参数，可加速第一机器学习模型的收敛速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练和调度无人设备的方法及装置
本专利技术涉及自动驾驶
，尤其涉及一种模型训练和调度无人设备的方法及装置。
技术介绍
随着电子商务技术的广泛应用，线下物流技术也得到了长足的发展，目前，使用无人设备进行线下的配送成为了一种趋势。在现有技术中，使用无人设备进行线下配送时，通常考虑的是使用全部的无人设备进行配送时，应该如何调度各无人设备，即，对于一个无人设备来说，该无人设备应该执行哪些配送任务，执行各配送任务的顺序是什么，如何规划执行各配送任务的路径。但是，由于用户在不同的时间对配送的需求并不相同，例如，在用餐高峰时段对配送量的需求较大，在非用餐高峰时段对配送量需求较小，因此，如何在降低无人设备的使用成本的同时，满足用户的配送需求，成为一个亟待解决的问题。
技术实现思路
本专利技术实施例提供一种模型训练和调度无人设备的方法及装置，以部分解决上述现有技术存在的问题。本专利技术实施例采用下述技术方案：本专利技术提供的一种模型训练的方法，包括：确定指定时刻的待分配订单以及所述指定时刻的可用无人设备，作为所述指定时刻的状态；将所述指定时刻的状态输入第一机器学习模型，得到所述第一机器学习模型输出的在所述指定时刻的状态下调度各可用无人设备的调度策略；并确定在所述调度策略的条件下，所有无人设备的使用总成本；根据所述调度策略，确定所述指定时刻的下一时刻的待分配订单以及所述下一时刻的可用无人设备，作为所述下一时刻的状态；将所述下一时刻的状态输入...

【技术保护点】
1.一种模型训练的方法，其特征在于，包括：/n确定指定时刻的待分配订单以及所述指定时刻的可用无人设备，作为所述指定时刻的状态；/n将所述指定时刻的状态输入第一机器学习模型，得到所述第一机器学习模型输出的在所述指定时刻的状态下调度各可用无人设备的调度策略；并确定在所述调度策略的条件下，所有无人设备的使用总成本；/n根据所述调度策略，确定所述指定时刻的下一时刻的待分配订单以及所述下一时刻的可用无人设备，作为所述下一时刻的状态；/n将所述下一时刻的状态输入第二机器学习模型，得到所述第二机器学习模型输出的对所述调度策略的评价值；/n以所述使用总成本最小化、所述评价值最大化为训练目标，对所述第一机器学习模型进行训练。/n

【技术特征摘要】
1.一种模型训练的方法，其特征在于，包括：
确定指定时刻的待分配订单以及所述指定时刻的可用无人设备，作为所述指定时刻的状态；
将所述指定时刻的状态输入第一机器学习模型，得到所述第一机器学习模型输出的在所述指定时刻的状态下调度各可用无人设备的调度策略；并确定在所述调度策略的条件下，所有无人设备的使用总成本；
根据所述调度策略，确定所述指定时刻的下一时刻的待分配订单以及所述下一时刻的可用无人设备，作为所述下一时刻的状态；
将所述下一时刻的状态输入第二机器学习模型，得到所述第二机器学习模型输出的对所述调度策略的评价值；
以所述使用总成本最小化、所述评价值最大化为训练目标，对所述第一机器学习模型进行训练。

2.如权利要求1所述的方法，其特征在于，将所述下一时刻的状态输入第二机器学习模型，具体包括：
根据所述下一时刻的状态，确定所述调度策略对应的奖励；
将所述下一时刻的状态以及所述调度策略对应的奖励输入第二机器学习模型。

3.如权利要求2所述的方法，其特征在于，得到所述第二机器学习模型输出的对所述调度策略的评价值，具体包括：
通过所述第二机器学习模型，根据所述下一时刻的状态以及所述调度策略对应的奖励，预估在所述指定时刻的状态下所能达到的所有无人设备的最小使用总成本；
根据所述最小使用总成本和所述调度策略的条件下所有无人设备的使用总成本，确定对所述调度策略的评价值。

4.如权利要求3所述的方法，其特征在于，根据所述最小使用总成本和所述调度策略的条件下所有无人设备的使用总成本，确定对所述调度策略的评价值，具体包括：
确定所述调度策略的条件下所有无人设备的使用总成本与所述最小使用总成本的差值；
根据所述差值，确定所述调度策略的评价值，其中，所述评价值与所述差值负相关。

5.如权利要求4所述的方法，其特征在于，以所述使用总成本最小化、所述评价值最大化为训练目标，对所述第一机器学习模型进行训练，具体包括：
根据所述调度策略的条件下所有无人设备的使用总成本，确定所述调度策略的条件下所有无人设备的使用总成本的梯度；
根据所述梯度和所述差值，以所述使用总成本最小化、所述评价值最大化为训练目标，对所述第一机器学习模型中的模型参数进行调整。...

【专利技术属性】
技术研发人员：刘欣，姜媛，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人