【技术实现步骤摘要】
基于奖励的机器人调度方法、装置、设备及介质
[0001]本申请涉及机器人
,尤其涉及一种基于奖励的机器人调度方法、装置、设备及介质。
技术介绍
[0002]随着数字化和智能化技术在各个领域的深入发展,更多的智能化设备在酒店、商场、写字楼等场景下得到广泛应用。智能机器人作为智能化设备中使用频率较高的一种设备,能够实现酒店客户提供诸如送物、迎宾、巡游等服务。利用酒店机器人提供送物服务,不仅降低酒店工作人员的劳动量,而且提升酒店的智能化服务水平。
[0003]在商用机器人的调度场景中,例如酒店、楼宇等场景下提供服务的机器人,机器人在执行调度任务时,在机器人的行驶过程中,通常需要借助垂直运力,比如电梯等的帮助,并且还可能经过场地内的一些闸机。因此,商用机器人的调度并非简单的在两点之间做平移运动,随着调度需求以及机器人数量的增加,需要在一定的空间区域内为机器人找到最优的调度方案。目前,现有的机器人调度系统无法通过奖励的方式实现机器人的调度,因此,无法得到全局最优的调度方案,降低机器人调度系统的调度能力。
专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种基于奖励的机器人调度方法,其特征在于,包括:根据预设时间周期内的业务请求生成任务序列,并确定用于执行当前周期内调度任务的目标机器人、所述目标机器人的当前位置和仓位状态;基于所述任务序列以及所述目标机器人的当前位置,确定一个或多个起始节点和目的节点,以及所述起始节点和目的节点之间的中间节点;根据所述任务序列、所述仓位状态、所述起始节点、所述目的节点以及所述中间节点,模拟完成当前周期内调度任务的调度方案,每个所述调度方案中包括目标机器人的行驶路径及仓位状态变化;利用预设的调度奖励模型计算每个调度方案对应的奖励值,根据奖励值最高的调度方案对应的所述目标机器人的行驶路径生成调度指令,将所述调度指令发送给所述目标机器人。2.根据权利要求1所述的方法,其特征在于,所述根据预设时间周期内的业务请求生成任务序列,并确定用于执行当前周期内调度任务的目标机器人、所述目标机器人的当前位置和仓位状态,包括:响应于每个所述时间周期内业务端发送的业务请求,根据所述业务请求对应的时间顺序生成所述任务序列,所述任务序列中包含按照时间顺序排列的调度任务;根据所述任务序列中每个调度任务对应的场景信息,确定场景内的全部机器人,根据机器人的当前工作状态、仓位状态及位置信息,确定用于执行当前周期内调度任务的目标机器人。3.根据权利要求1所述的方法,其特征在于,所述基于所述任务序列以及所述目标机器人的当前位置,确定一个或多个起始节点和目的节点,以及所述起始节点和目的节点之间的中间节点,包括:根据所述任务序列中每个调度任务的任务信息以及所述目标机器人的当前位置,从地图中选择一个或多个起始节点和目的节点,根据所述起始节点和目的节点确定所述中间节点;其中,所述起始节点为所述目标机器人执行所述调度任务时的开始位置,所述目的节点为所述目标机器人执行一个或多个所述调度任务时的终点位置。4.根据权利要求1所述的方法,其特征在于,所述根据所述任务序列、所述仓位状态、所述起始节点、所述目的节点以及所述中间节点,模拟完成当前周期内调度任务的调度方案,包括:依据每个调度任务的任务信息、所述目标机器人的仓位状态信息、所述起始节点、所述目的节点以及所述中间节点,在虚拟化的地图中模拟所述目标机器人完成当前周期内调度任务的全部调度方案;其中,所述调度方案中的行驶路径包括多个所述目标机器人对应的节点组合。5.根据权利要求1所述的方法,其特征在于,所述利用预设的调度奖励模型计算每个调度方案对应的奖励值,包括:获取与所述当...
【专利技术属性】
技术研发人员:龚汉越,支涛,
申请(专利权)人:北京云迹科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。