【技术实现步骤摘要】
【国外来华专利技术】机器人演示学习的技能模板分发
技术介绍
[0001]本说明书涉及机器人,并且特别地涉及规划机器人运动。
[0002]机器人控制指控制机器人的物理运动以执行任务。例如,制造汽车的工业机器人可被编程以首先拾起汽车部件,然后将该汽车部件焊接到汽车的框架上。这些动作中的每一个本身可能包括机器人电机和执行器的几十或数百种单独的运动。
[0003]机器人规划通常需要大量的手动编程,以细致地规定机器人部件应如何移动,以完成特定的任务。手动编程乏味、耗时,且容易出错。此外,为一个工作单元手动生成的调度通常不能用于其他工作单元。在本说明书中,工作单元是机器将在其中运行的物理环境。工作单元具有特定的物理属性,例如,物理维度,其限制了机器人在工作单元内的移动方式。因此,用于一个工作单元的手动编程的调度可能与具有不同机器人、不同数量的机器人或不同物理维度的工作单元不兼容。
[0004]一些研究已经朝向使用机器学习控制算法,例如,强化学习,以控制机器人执行特定的任务。然而,机器人具有一些缺点,使传统的学习方法通常不令人满意。
[0005]首先,机器人自然有一个非常复杂的、高维的、连续的动作空间。因此,生成和评估所有可能的候选动作是计算昂贵的。其次,机器人控制是具有极其稀疏奖励的环境,因为大多数可能的动作都不会导致完成特定的任务。一种称为奖励成型的技术被用以缓解稀疏奖励问题,但它通常不可扩展到手工设计的奖励函数。
[0006]另外的复杂的问题是,使用机器人学习进行机器人控制的传统技术是极其脆弱的。这意味着,即使成功地训练了可行的模 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个计算机执行的方法,所述方法包括:通过技能模板分发系统从用户设备上接收对可用技能模板的选择;通过所述技能模板分发系统提供技能模板,其中所述技能模板包括表示一个或多个任务的状态机的信息,以及其中所述技能模板指定所述一个或多个任务中哪些是需要本地演示数据的演示子任务;通过所述技能模板分发系统,为所述技能模板的演示子任务接收本地演示数据;使用所述本地演示数据为所述演示子任务训练机器学习模型,以生成学习参数值;以及向所述用户设备提供所述学习参数值和所述演示子任务的基本控制策略。2.如权利要求1所述的方法,还包括:通过技能模板分发系统从用户设备接收可用技能模板将训练的请求,以使机器人执行具有多个任务的技能;以及响应于所述请求,向所述用户设备提供描述一个或多个可用技能模板的信息。3.如权利要求2所述的方法,其中所述请求指定特定的机器人类型或模型,并且其中提供描述所述一个或多个可用技能模板的所述信息包括提供与所述特定的机器人类型或模型兼容的一个或多个技能模板。4.如权利要求1所述的方法,还包括:从技能模板开发者接收由所述技能模板开发者生成的新技能模板;以及将所述新技能模板添加到可用技能的集合,其中对所述可用技能模板的所述选择包括对由所述技能模板开发者生成的所述新技能模板的选择。5.如权利要求4所述的方法,其中所述技能模板开发者是非附属于所述技能模板分发系统或拥有所述用户设备的组织的实体。6.如权利要求1所述的方法,其中所述用户设备位于具有机器人的设施中,并且其中所述本地演示数据是通过向所述机器人演示如何执行所选技能模板的演示子任务而捕获的数据。7.如权利要求6所述的方法,其中训练所述技能模板在非附属于具有所述机器人的所述设施的训练系统中执行。8.如权利要求7所述的方法,其中所述基本控制策略由非附属于具有所述机器人的所述设施的所述训练系统生成。9.一种系统,包括:一个或多个计算机和存储可操作指令的一个或多个存储设备,所述指令由一个或多个计算机执行时,使所述一个或多个计算机执行操作,所述操作包括:通过技能模板分发系统从用户设备上接收对可用技能模板的选择;通过所述技能模板分发系统提供技能模板,其中所述技能模板包括表示一个或多个任务的状态机的信息,以及其中所述技能模板指定所述一个或多个任务中哪些是需要本地演示数据的演示子任务;通过所述技能模板分发系统,为所述技能模板的演示子任务接收本地演示数据;使用所述本地演示数据为所述演示子任务训练机器学习模型,以生成学习参数值;以
及向所述用户设备提供所述学习参数值和所述演示子任务的基本控制策略。10.如权利要求1所述的系统,其中所述操作还包括:通过技能模板分发系统从用户设备接收可用技能模板将训练的请求,以使机器人执行具有多个任务的技能...
【专利技术属性】
技术研发人员:BVSRK科鲁里,S沙尔,BM达维斯,ROM舒赫尔,N叶,
申请(专利权)人:因思创新有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。