基于强化学习的多目标模型训练、多目标分配方法和装置制造方法及图纸

技术编号：43660221 阅读：14 留言：0更新日期：2024-12-13 12:51

本公开提供了一种基于强化学习的多目标模型训练方法和装置，涉及人工智能技术领域。该方法的一具体实施方式包括：获取预置的样本集以及基于强化学习预先构建的多目标网络；执行以下训练步骤：从样本集中选取样本任务组和该样本任务组对应的车辆组的剩余工作时长；该样本任务组的任务信息和该样本任务组对应的车辆组的剩余工作时长输入多目标网络；基于多目标网络输出的任务车辆分配策略，计算多目标网络的奖励函数的期望值，奖励函数至少用于表征车辆短驳距离和车辆数量的减少量；响应于期望值达到训练完成条件，得到对应多目标网络的多目标模型。该实施方式提高了序贯决策的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，具体涉及人工智能，尤其涉及基于强化学习的多目标模型训练方法和装置、多目标分配方法和装置、电子设备、计算机可读介质。

技术介绍

1、随着互联网与电子商务的飞速发展，物流作为流通领域最基础和重要的环节，也得到了空前的发展。

2、针对电商物流配送领域，目前的调度模型和优化策略主要分为两大类：对需要运输的任务(订单)和车辆的调度进行建模，通常以车辆数最少、所有车辆的总里程最低、总成本最低中的任一项为单一目标进行整数规划建模，采用启发式算法、局部搜索、遗传算法等进行求解，但是现有的调度模型在车辆配送过程中均未考虑接驳费用的影响。

技术实现思路

1、本公开的实施例提出了基于强化学习的多目标模型训练方法和装置、多目标分配方法和装置、电子设备、计算机可读介质。

2、第一方面，本公开的实施例提供了一种基于强化学习的多目标模型训练方法，该方法包括：获取预置的样本集以及基于强化学习预先构建的多目标网络，其中，样本集包括：至少一个样本任务组的任务信息和与该样本任务组对应的...

【技术保护点】

1.一种基于强化学习的多目标模型训练方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述多目标网络对应的策略函数用于表征输入状态和输出任务的条件概率；

3.根据权利要求1所述的方法，所述多目标网络还用于表征车辆类型与任务车辆分配策略之间的对应关系；所述样本集包括：车辆组的车辆类型，所述方法还包括：

4.根据权利要求1-3之一所述的方法，其中，所述方法还包括：

5.一种多目标分配方法，所述方法包括：

6.一种基于强化学习的多目标模型训练装置，所述装置包括：

7.根据权利要求6所述的装置，其中，所述多目标网络对...

【技术特征摘要】

1.一种基于强化学习的多目标模型训练方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述多目标网络对应的策略函数用于表征输入状态和输出任务的条件概率；

4.根据权利要求1-3之一所述的方法，其中，所述方法还包括：

5.一种多目标分配方法，所述方法包括：

6.一种基于强化学习的多目标模型训练装置，所述装置包括：

7.根据权利要求6所述的装置，其中，所述多目标网络对应的策略函数用于表征输入状态和输出任务的条件概率；

8....

【专利技术属性】
技术研发人员：丑强，赵芝锐，李佳峻，李亮曈，
申请(专利权)人：北京京东乾石科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人