【技术实现步骤摘要】
一种无人设备调度方法、装置、存储介质及电子设备
[0001]本说明书涉及强化学习
,尤其涉及一种无人设备调度方法
、
装置
、
存储介质及电子设备
。
技术介绍
[0002]随着工业人工智能技术的发展,自动引导车或者自动引导机器人(
Automated Guided Vehicle
,
AGV
)已广泛应用于柔性车间物料搬运,实现生产效率的提高,并使得企业生产成本降低
。
[0003]目前,在对
AGV
进行无人设备调度时通常会采用静态调度方法,这种方法可以在假设所有的任务信息都可以被预先获取,并且所有的任务信息均为稳定不变或者变化较小的基础上,建立一个解析模型并使用元启发式算法求解以对
AGV
进行无人设备调度
。
[0004]但是,由于真实环境中容易出现各种扰动事件(例如:机器故障
、AGV
碰撞导致死锁
、
订单插入等),导致车间环境的复杂性和不确定性较高,从而导致为
AGV
规划的调度方案的路径容易出现异常,使得
AGV
的完工时间和延迟率较高
。
技术实现思路
[0005]本说明书提供一种无人设备调度方法
、
装置
、
存储介质及电子设备,以部分的解决现有技术存在的上述问题
。
[0006]本说明书采用下述技术方案:本说明书提供了一种 ...
【技术保护点】
【技术特征摘要】
1.
一种无人设备调度方法,其特征在于,包括:获取指定任务场景当前的状态数据,所述状态数据包括:待取货货架数据
、
无人设备的运动状态数据
、
当前正在执行任务的任务数据以及待执行任务的任务数据;将所述状态数据输入到预先训练的目标调度模型中,以通过所述目标调度模型根据所述状态数据以及预先确定的调度规则集,确定目标调度方案,所述目标调度方案包括:为所述待执行任务分配的取货点
、
分拣点
、
执行该待执行任务的目标无人设备以及所述目标无人设备的基础路径;对所述基础路径进行碰撞检测,根据所述碰撞检测的检测结果,判断所述基础路径是否为目标路径;若否,则根据所述检测结果对所述基础路径进行优化,得到目标路径;根据所述目标路径,对所述目标无人设备进行调度,以通过所述目标无人设备进行任务执行
。2.
如权利要求1所述的方法,其特征在于,训练所述目标调度模型,包括:获取所述指定任务场景的历史状态数据
、
历史调度方案以及第一初始调度模型
、
第二初始调度模型,所述第一初始调度模型和所述第二初始调度模型为采用不同模型参数的初始调度模型;将所述历史状态数据输入到所述第一初始调度模型中,以通过所述第一初始调度模型根据所述历史状态数据,确定出符合所述调度规则集的每个调度方案被选择的概率分布,作为第一概率分布,并根据所述第一概率分布,确定出所述历史调度方案被选择的概率值,作为第一概率值;以及将所述历史状态数据输入到所述第二初始调度模型中,以通过所述第二初始调度模型根据所述历史状态数据,确定出符合所述调度规则集的每个调度方案被选择的概率分布,作为第二概率分布,并根据所述第二概率分布,确定出所述历史调度方案被选择的概率值,作为第二概率值;根据所述第一概率值以及所述第二概率值对所述初始调度模型进行训练,得到目标调度模型
。3.
如权利要求2所述的方法,其特征在于,根据所述第一概率值以及所述第二概率值对所述初始调度模型进行训练,得到目标调度模型,包括:获取所述历史调度方案对应的优势函数,所述优势函数用于表征所述历史调度方案相比于符合所述调度规则集的每个调度方案的合理性;根据所述第一概率值和所述第二概率值之间的相似度以及所述优势函数,确定目标损失;以最小化所述目标损失为优化目标,对所述初始调度模型进行训练,得到目标调度模型
。4.
如权利要求1所述的方法,其特征在于,确定调度规则集,具体包括:获取初始调度规则集;针对所述初始调度规则集,通过若干轮迭代,确定调度规则集,其中,针对每轮迭代,确定该轮迭代中的各基础调度规则,并每个基础调度规则对应的适应权重,根据所述适应权重,从所述各基础调度规则中筛选出各目标调度规则,针对至少部分所述目标调度规则,对
至少部分所述目标调度规则进行指定迭代操作,得到迭代后目标调度规则,将所述迭代后目标调度规则以及其它目标调度规则作为下一轮迭代中的各基础调度规则,所述指定迭代操作包括:交叉操作
、
变异操作,所述各基础调度规则是将所述初始调度规则集中包含的各初始调度规则迭代至上一轮后得到;当确定满足预设的终止条件时,得到调度规则集
。...
【专利技术属性】
技术研发人员:邵彬,王永恒,王超,周华键,巫英才,张杨,刘冰洁,金星,王靖锐,曾洪海,连建晓,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。