一种基于并行强化学习的云机器人任务调度方法和系统技术方案

技术编号:20943679 阅读:46 留言:0更新日期:2019-04-24 02:04
本发明专利技术实施例提供一种基于并行强化学习的云机器人任务调度方法和系统,该方法包括:调度中心加载原始问题,并且将所述原始问题分割为多个子问题;所述调度中心将所述多个子问题与多个计算节点进行匹配;所述调度中心将各子问题发送到与其匹配的计算节点;所述多个计算节点对多个子问题进行并行的强化学习,并将对所述多个子问题的学习结果反馈给所述调度中心;所述调度中心根据对该多个子问题的学习结果和预设的收敛条件,判断所述原始问题是否已经收敛,如果所述原始问题已经收敛,则输出所述原始问题的最优策略。该方法可得到精确的最优策略,并且减少时间开销。

A Cloud Robot Task Scheduling Method and System Based on Parallel Reinforcement Learning

The embodiment of the present invention provides a task scheduling method and system for cloud robots based on parallel reinforcement learning, which includes: the scheduling center loads the original problem and divides the original problem into multiple sub-problems; the scheduling center matches the multiple sub-problems with multiple computing nodes; and the scheduling center sends each sub-problem to a matching computing section. Points; the multiple computing nodes conduct parallel reinforcement learning for multiple sub-problems and feedback the learning results of the multiple sub-problems to the scheduling center; the scheduling center determines whether the original problem has converged or not based on the learning results of the multiple sub-problems and the preset convergence conditions, and outputs the original problem if the original problem has converged. The optimal strategy of the question. This method can obtain the precise optimal strategy and reduce the time overhead.

【技术实现步骤摘要】
一种基于并行强化学习的云机器人任务调度方法和系统
本专利技术涉及一种基于并行强化学习的云机器人任务调度策略,属于机器学习领域,涉及云机器人、分布式计算、强化学习的结合及使用,具体地涉及一种基于并行强化学习的云机器人任务调度方法和系统。
技术介绍
近几年机器人进入了快速发展时期,人力成本的上升催生了使用机器替换人力的需求。目前由于机器人的能力,尤其是智能水平和期望相差很远,导致商业机器人的应用主要集中在汽车和电子设备等大规模重复生产领域。随着云计算的广泛使用,无论是租赁公有云还是部署本地云,都为大计算量的任务提供了解决方案。同时随着机器学习等技术进步,可以满足给机器人更高智能化程度的要求。传统机器人系统框架由调度中心分配任务给机器人执行,当执行的任务越来越复杂,需要更强的计算能力时,一种解决方式是提升每台机器人的性能,但是带来整体系统成本的大幅提升,另一种方式是采用云机器人框架。在2010年的Humanoids会议上卡耐基梅隆大学JamesKuffner教授提出了将云计算和机器人学相结合的“云机器人”框架被看作是机器人学下一个发展趋势。在该框架下将机器人需要的计算能力和存储资源卸载到到本文档来自技高网...

【技术保护点】
1.一种基于并行强化学习的云机器人任务调度方法,其特征在于,包括:调度中心加载原始问题,并且将所述原始问题分割为多个子问题;所述调度中心将所述多个子问题与多个计算节点进行匹配;所述调度中心将各子问题发送到与其匹配的计算节点;所述多个计算节点对多个子问题进行并行的强化学习,并将对所述多个子问题的学习结果反馈给所述调度中心;所述调度中心根据对所述多个子问题的学习结果和预设的收敛条件,判断所述原始问题是否已经收敛,如果所述原始问题已经收敛,则输出所述原始问题的最优策略。

【技术特征摘要】
1.一种基于并行强化学习的云机器人任务调度方法,其特征在于,包括:调度中心加载原始问题,并且将所述原始问题分割为多个子问题;所述调度中心将所述多个子问题与多个计算节点进行匹配;所述调度中心将各子问题发送到与其匹配的计算节点;所述多个计算节点对多个子问题进行并行的强化学习,并将对所述多个子问题的学习结果反馈给所述调度中心;所述调度中心根据对所述多个子问题的学习结果和预设的收敛条件,判断所述原始问题是否已经收敛,如果所述原始问题已经收敛,则输出所述原始问题的最优策略。2.根据权利要求1所述的方法,其特征在于,所述调度中心将所述原始问题分割为多个子问题,包括:所述调度中心将所述原始问题的状态空间进行分割,得到多个子问题;和/或,所述方法还包括:不同子问题之间通过边界状态传递Q值。3.根据权利要求1所述的方法,其特征在于,所述调度中心将所述多个子问题与多个计算节点进行匹配,包括:所述调度中心从计算节点列表中按索引顺序依次选择计算节点;对于每个被选择的计算节点,所述调度中心根据子问题的优先级从高到低的顺序,选择相应的子问题分配给该计算节点。4.根据权利要求1所述的方法,其特征在于,所述调度中心判断所述原始问题是否已经收敛,包括:所述调度中心判断是否所述计算节点学习到的Q值更新达到了所述原始问题的预设收敛阈值,如果是,则所述原始问题已经收敛;所述输出原始问题的最优策略包括:输出所述原始问题的最优策略h*(x)为在各状态下选择Q值最大的行动。5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述计算节点对于每个子问题采用Q-Learning算法进行强化学习;和/或,每个计算节点将对子问题的学习结果通过异步方式反馈给所述调度中心。6.一种基于并行强化学习的云机器人任务调度系统,其特征在于,包括:调度中心,用于加载原始问题,并且将所述原始问题分割为多个子问题;将所述多个子问题与多个计算节点进行匹配;并且将各子问题发送到与其匹配的计算节点;多个计算节点,用于对所述多个子问题进行并行的强化学习,并将对所述多个子问题的...

【专利技术属性】
技术研发人员:唐恒亮薛菲刘涛董晨刚
申请(专利权)人:北京物资学院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1