【技术实现步骤摘要】
本公开涉及计算机,具体涉及人工智能,尤其涉及基于强化学习的多目标模型训练方法和装置、多目标分配方法和装置、电子设备、计算机可读介质。
技术介绍
1、随着互联网与电子商务的飞速发展,物流作为流通领域最基础和重要的环节,也得到了空前的发展。
2、针对电商物流配送领域,目前的调度模型和优化策略主要分为两大类:对需要运输的任务(订单)和车辆的调度进行建模,通常以车辆数最少、所有车辆的总里程最低、总成本最低中的任一项为单一目标进行整数规划建模,采用启发式算法、局部搜索、遗传算法等进行求解,但是现有的调度模型在车辆配送过程中均未考虑接驳费用的影响。
技术实现思路
1、本公开的实施例提出了基于强化学习的多目标模型训练方法和装置、多目标分配方法和装置、电子设备、计算机可读介质。
2、第一方面,本公开的实施例提供了一种基于强化学习的多目标模型训练方法,该方法包括:获取预置的样本集以及基于强化学习预先构建的多目标网络,其中,样本集包括:至少一个样本任务组的任务信息和与该样本任务组对应的
...【技术保护点】
1.一种基于强化学习的多目标模型训练方法,所述方法包括:
2.根据权利要求1所述的方法,其中,所述多目标网络对应的策略函数用于表征输入状态和输出任务的条件概率;
3.根据权利要求1所述的方法,所述多目标网络还用于表征车辆类型与任务车辆分配策略之间的对应关系;所述样本集包括:车辆组的车辆类型,所述方法还包括:
4.根据权利要求1-3之一所述的方法,其中,所述方法还包括:
5.一种多目标分配方法,所述方法包括:
6.一种基于强化学习的多目标模型训练装置,所述装置包括:
7.根据权利要求6所述的装置,其
...【技术特征摘要】
1.一种基于强化学习的多目标模型训练方法,所述方法包括:
2.根据权利要求1所述的方法,其中,所述多目标网络对应的策略函数用于表征输入状态和输出任务的条件概率;
3.根据权利要求1所述的方法,所述多目标网络还用于表征车辆类型与任务车辆分配策略之间的对应关系;所述样本集包括:车辆组的车辆类型,所述方法还包括:
4.根据权利要求1-3之一所述的方法,其中,所述方法还包括:
5.一种多目标分配方法,所述方法包括:
6.一种基于强化学习的多目标模型训练装置,所述装置包括:
7.根据权利要求6所述的装置,其中,所述多目标网络对应的策略函数用于表征输入状态和输出任务的条件概率;
8....
【专利技术属性】
技术研发人员:丑强,赵芝锐,李佳峻,李亮曈,
申请(专利权)人:北京京东乾石科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。