【技术实现步骤摘要】
一种任务调度方法及其装置
本申请涉及人工智能领域,尤其涉及一种任务调度方法及其装置。
技术介绍
调度问题是大型制造、物流、生产等环节中最常见的问题之一,在不同的场景下,调度总是有不同的意义。例如:物流调度主要是指在物流过程中,物流公司根据待发货物的重量、去向、规格、加急程度等对所属的车辆和人员进行合理的安排和调度;而生产环境中的调度是根据不同产线中不同机器的产能以及生产需求,在若干任务(job)中完成对任务的排序以及任务和机器(可调度资源)之间的匹配;大型制造工厂/机场的工人/空乘排班(timetabling)也是调度问题的一种,这是由于这类问题的目标也是依照工人/空乘的工作特点以及场景需要在不同的时间段内完成最优匹配。因此,核心是排序以及最优分配,而不局限任务是人还是货物。一般来讲,调度问题的目标是在给定任务数的前提下得到最小总工时(makespan)所对应的排序。在现有技术中,往往采用例如贪婪法或者混合整数规划(MixedIntegerProgramming,MIP)或者约束规划(ConstraintProgra ...
【技术保护点】
1.一种任务调度方法,其特征在于,所述方法包括:/n获取多个待调度任务以及多个可调度资源组;其中,所述多个可调度资源组中的每个可调度资源组包括多个可调度资源;/n通过第一强化学习模型处理所述多个待调度任务以及所述多个可调度资源组,以得到第一分配关系,所述第一分配关系包括所述多个待调度任务与所述多个可调度资源组之间的对应关系;/n至少基于所述第一分配关系,通过第二强化学习模型处理所述多个待调度任务和所述多个可调度资源,以得到第二分配关系,所述第二分配关系包括所述多个待调度任务与所述多个可调度资源之间的对应关系;其中,在所述第二分配关系中,部分或全部所述多个待调度任务中的每个待 ...
【技术特征摘要】
1.一种任务调度方法,其特征在于,所述方法包括:
获取多个待调度任务以及多个可调度资源组;其中,所述多个可调度资源组中的每个可调度资源组包括多个可调度资源;
通过第一强化学习模型处理所述多个待调度任务以及所述多个可调度资源组,以得到第一分配关系,所述第一分配关系包括所述多个待调度任务与所述多个可调度资源组之间的对应关系;
至少基于所述第一分配关系,通过第二强化学习模型处理所述多个待调度任务和所述多个可调度资源,以得到第二分配关系,所述第二分配关系包括所述多个待调度任务与所述多个可调度资源之间的对应关系;其中,在所述第二分配关系中,部分或全部所述多个待调度任务中的每个待调度任务与对应的可调度资源所属的可调度资源组满足所述第一分配关系。
2.根据权利要求1所述的方法,其特征在于,所述多个可调度资源组中的每个可调度资源组为生产线,所述多个可调度资源中的每个可调度资源为所述生产线中的生产设备;或,
所述多个可调度资源组中的每个可调度资源组为时间段,所述多个可调度资源中的每个可调度资源为所述时间段中的子时间段。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述第一分配关系,通过第二强化学习模型处理所述多个待调度任务和所述多个可调度资源,包括:
至少基于所述第一分配关系,通过第二强化学习模型处理所述多个待调度任务中的部分待调度任务和所述多个可调度资源,以得到子分配关系,所述子分配关系表示所述部分待调度任务与所述多个可调度资源之间的对应关系。
4.根据权利要求1或2所述的方法,其特征在于,所述多个待调度任务包括多个目标待调度任务,所述多个可调度资源组包括目标可调度资源组,所述目标可调度资源组包括多个目标可调度资源,在所述第一分配关系中,所述多个目标待调度任务对应于所述目标可调度资源组;所述方法还包括:
在所述多个目标可调度资源中少于预设数量的目标可调度资源可被分配至所述至少一个目标待调度任务的情况下,确定目标约束,所述目标约束表示所述至少一个目标待调度任务不对应于所述目标可调度资源组。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
至少基于所述目标约束和所述第二分配关系,通过第一强化学习模型处理所述多个待调度任务以及所述多个可调度资源组,以得到更新后的第一分配关系,所述更新后的第一分配关系表示所述多个待调度任务与所述多个可调度资源组之间的对应关系;其中,在所述更新后的第一分配关系中,所述至少一个目标待调度任务对应于所述多个可调度资源组中除所述目标可调度资源组之外的可调度资源组;
至少基于所述更新后的第一分配关系,通过所述第二强化学习模型处理所述多个待调度任务和所述多个可调度资源,以得到更新后的第二分配关系,所述更新后的第二分配关系表示所述多个待调度任务与所述多个可调度资源之间的对应关系;其中,在所述更新后的第二分配关系中,所述多个待调度任务中的每个待调度任务与对应的可调度资源所属的可调度资源组满足所述更新后的第一分配关系。
6.根据权利要求1至5任一所述的方法,其特征在于,对所述第一强化学习模型和所述第二强化学习模型分别进行训练。
7.根据权利要求1至6任一所述的方法,其特征在于,所述第一强化学习模型包括第一奖励函数;所述第二强化学习模型包括第二奖励函数。
8.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:
生成第一共享向量,所述第一共享向量包括多个状态变量;其中每个状态变量可以表示一个待调度任务的分配状态或一个可调度资源组的被占用状态;
所述至少基于所述第一分配关系,通过第二强化学习模型处理所述多个待调度任务和所述多个可调度资源,包括:
至少基于所述第一共享向量以及所述第一分配关系,通过第二强化学习模型处理所述多个待调度任务和所述多个可调度资源。
9.根据权利要求5至7任一所述的方法,其特征在于,所述方法包括:
生成第二共享向量,所述第二共享向量包括多个状态变量;其中每个状态变量可以表示一个待调度任务的分配状态、一个可调度资源组的被占用状态或一个可调度资源的被占用状态;
所述至少基于所述目标约束和所述第二分配关系,通过第一强化学习模型处理所述多个待调度任务以及所述多个可调度资源组,包括:
至少基于所述第二共享向量、所述目标约束和所述第二分配关系,通过第一强化学习模型处理所述多个待调度任务以及所述多个可调度资源组。
10.一种系统,其特征在于,包括:由一个或多个计算机实施的第一强化学习模型和第二强化学习模型;
所述第一强化学习模型,用于获取多个待调度任务以及多个可调度资源组,并处理所述多个待调度任务以及所述多个可调度资源组,以得到第一分配关系;其中,所述多个可调度资源组中的每个可调度资源组包括多个可调度资源,所述第一分配关系包括所述多个待调度任务与所述多个可调度资源组之间的对应关系;
所述第二强化学习模型,用于至少基于所述第一分配关系,通过第二强化学习模型处理所述多个待调度任务和所述多个可调度资源,以得到第二分配关系,所述第二分配关系包括所述多个待调度任务与所述多个可调度资源之间的对应关系;其中,在所述第二分配关系中,部分或全部所述多个待调度任务中的每个待调度任务与对应的可调度资源所属的可调度资源组满足所述第一分配关系。
11.根据权利要求10所述的系统,其特征在于,所述多个可调度资源组中的每个可调度资源组为生产线,所述多个可调度资源中的每个可调度资源为所述生产线中的生产设备;或,
所述多个可调度资源组中的每个可调度资源组为时间段,所述多个可调度资源中的每个可调度资源为所述时间段中的子时间段。
12.根据权利要求10或11所述的系统,其特征在于,
所述第二强化学习模型,用于至少基于所述第一分配关系,通过第二强化学习模型处理所述多个待调度任务中的部分待调度任务和所述多个可调度资源,以得到子分配关系,所述子分配关系表示所述部分待调度任务与所述多个可调度资源之间的对应关系。
13.根据权利要求10或11所述的系统,其特征在于,所述多个待调度任务包括多个目标待调度任务,所述多个可调度资源组包括目标可调度资源组,所述目标可调度资源组包括多个目标可调度资源,在所述第一分配关系中,所述多个目标待调度任务对应于所述目标可调度资源组;
所述第二强化学习模型,还用于在所述多个目标可调度资源中少于预设数量的目标可调度资源可被分配至所述至少一个目标待调度任务的情况下,确定目标约束,所述目标约束表示所述至少一个目标待调度任务不对应于所述目标可调度资源组。
14.根据权利要求13所述的系统,其特征在于,所述第一强化学习模型还用于:
至少基于所述目标约束和所述第二分配关系,通过第一强化学习模型处理所述多个待调度任务以及所述多个可调度资源组,以得到更新后的第一分配关系,所述更新后的第一分配关系表示所述多个待调度任务与所述多个可调度资源组之间的对应关系;其中,在所述更新后的第一分配关系中,所述至少一个目标待调度任务对应于所述多个可调度资源组中除所述目标可调度资源组之外的可调度资源组;
所述第二强化学习模型还用于:
至少基于所述更新后的第一分配关系,通过所述第二强化学习模型处理所述多个待调度任务和所述多个可调度资源,以得到更新后的第二分配关系,所述更新后的第二分配关系表示所述多个待调度任务与所述多个...
【专利技术属性】
技术研发人员:甄慧玲,李隆康,陆佳文,袁明轩,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。