机器人演示学习的技能模板分发制造技术

技术编号:37155511 阅读:33 留言:0更新日期:2023-04-06 22:16
用于分发用于机器人演示学习技能模板的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。其中的一种方法包括通过技能模板分发系统从用户设备接收对可用技能模板的选择。所述技能模板分发系统提供技能模板,其中所述技能模板包括表示一个或多个任务的状态机的信息,并且其中所述技能模板指定所述一个或多个任务中哪些是需要本地演示数据的演示子任务。技能模板分发系统使用本地演示数据训练演示子任务的机器学习模型,以生成学习参数值。参数值。参数值。

【技术实现步骤摘要】
【国外来华专利技术】机器人演示学习的技能模板分发

技术介绍

[0001]本说明书涉及机器人,并且特别地涉及规划机器人运动。
[0002]机器人控制指控制机器人的物理运动以执行任务。例如,制造汽车的工业机器人可被编程以首先拾起汽车部件,然后将该汽车部件焊接到汽车的框架上。这些动作中的每一个本身可能包括机器人电机和执行器的几十或数百种单独的运动。
[0003]机器人规划通常需要大量的手动编程,以细致地规定机器人部件应如何移动,以完成特定的任务。手动编程乏味、耗时,且容易出错。此外,为一个工作单元手动生成的调度通常不能用于其他工作单元。在本说明书中,工作单元是机器将在其中运行的物理环境。工作单元具有特定的物理属性,例如,物理维度,其限制了机器人在工作单元内的移动方式。因此,用于一个工作单元的手动编程的调度可能与具有不同机器人、不同数量的机器人或不同物理维度的工作单元不兼容。
[0004]一些研究已经朝向使用机器学习控制算法,例如,强化学习,以控制机器人执行特定的任务。然而,机器人具有一些缺点,使传统的学习方法通常不令人满意。
[0005]首先,机器人自然有一个非常复杂的、高维的、连续的动作空间。因此,生成和评估所有可能的候选动作是计算昂贵的。其次,机器人控制是具有极其稀疏奖励的环境,因为大多数可能的动作都不会导致完成特定的任务。一种称为奖励成型的技术被用以缓解稀疏奖励问题,但它通常不可扩展到手工设计的奖励函数。
[0006]另外的复杂的问题是,使用机器人学习进行机器人控制的传统技术是极其脆弱的。这意味着,即使成功地训练了可行的模型,即便任务、机器人或环境发生了非常微小的变化,也会导致整个模型完全不可使用。
[0007]所有这些问题都意味着,使用诸如用于机器人控制的强化学习等技术的传统方式会导致计算昂贵的处理,根本难以起作用,无法很好地扩展,并且无法推广到其他情况。

技术实现思路

[0008]本说明书描述了有关用于基于演示的机器人学习的分发技能模板的技术。特别地,本说明书描述了技能模板分发系统能够如何分发技能模板,技能模板允许机器人被编程以使用利用演示数据学习的自定义控制策略来执行机器人任务。
[0009]在本说明书中,任务指涉及执行一个或多个子任务的特定的机器人的能力。例如,连接器插入任务是使得机器人将有线连接器插入接口的能力。此任务通常包括两个子任务:1)将机器人的工具移到接口的位置,以及2)将该连接器插入特定位置处的接口。
[0010]在本说明书中,子任务是由机器人使用工具执行的操作。例如,当机器人仅有一个工具时,子任务可以被描述为将由机器人作为整体来执行的操作。示例子任务包括焊接、点胶、部件定位和表面打磨。子任务通常与指示执行子任务所需的工具类型,以及在工作单元的坐标系统内执行子任务的位置相关联。
[0011]在本说明书中,技能模板(或简称为“模板”)是数据和软件的集合,允许机器人被调整为执行特定的任务。技能模板数据表示执行任务所需的一个或多个子任务,以及描述
该技能的哪些子任务需要本地演示学习的信息以及将需要哪些感知流以确定成功或失败的信息。因此,技能模板可以定义需要本地演示学习的演示子任务、不需要本地演示学习的非演示子任务,或定义这两者。
[0012]这些技术对于传统难以使用机器学习控制的机器人任务尤其有利,例如,强化学习。这些任务包括那些涉及在工作空间中与物体物理接触,例如,打磨、连接和插入任务,以及布线。仅举几个示例。
[0013]本说明书中描述的主题的特定实施例可以实施,以实现下述优点中的一个或多个。使用本说明书中描述的演示数据进行学习,解决了传统强化学习方法的稀疏奖励和无法泛化问题。
[0014]系统可以使用视觉、本体感觉(关节)数据、触觉数据,以及任何其他特征执行任务,该任务允许系统迅速地适应特定的机器人模型且具有高精度。重点在“传感器丰富的机器人操纵”,与机器人中的最小感知的经典观点相反。一般来说,这意味着可以使用更便宜的机器人使用更短的时间完成同样的任务。
[0015]下文描述的技术允许机器学习技术迅速地适应于任何具有适当地安装的硬件抽象的适当的机器人。在典型的场景中,单个非专业人员可以在少于一天的设置时间内训练机器人执行技能模板。这在传统方法上是巨大的改进,传统方法可能需要专家团队在该问题上工作数周以设计奖励函数以及需要在非常巨大的数据中心花费数周的训练时间。这有效地允许了机器学习机器人控制广泛地分发给许多类型的机器人,以及甚至是系统从未见过的机器人。
[0016]这些技术可以有效地将机器人学习实现为服务,从而使得人们更好地使用该技术。这反过来使整个机器人工业更安全和更高效。
[0017]强化学习、使用机器学习的感知数据处理,和增强的阻抗/导纳控制的组合,尽管任务复杂,但将能够使得机器人技能在如工业应用所要求的非常高成功率下执行。
[0018]本说明书中的主题的一个或多个实施例的细节在下文的附图和说明书中列出。该主题的其他特征、方面和优点将从说明书、附图和权利要求中变得明显。
[0019]附图的简要说明
[0020]图1是示例演示学习系统的示意图。
[0021]图2A是使用基于本地演示数据的自定义控制策略执行子任务的示例系统的示意图。
[0022]图2B是使用本地演示数据执行子任务的另一个示例系统的示意图。
[0023]图2C是使用残余强化学习执行子任务的另一个示例系统的示意图。
[0024]图3A是用于结合来自多个不同传感器流的传感器数据的示例过程的流程图。
[0025]图3B是相机腕带的示意图。
[0026]图3C是相机腕带的另一个示例视图。
[0027]图3D是相机腕带的另一个示例视图。
[0028]图4示出了示例技能模板。
[0029]图5是用于配置机器人以使用技能模板执行技能的示例处理的流程图。
[0030]图6A是使用技能模板进行使用力为引导的任务的示例处理的流程图。
[0031]图6B是使用基于云的训练系统训练技能模板的示例处理的流程图。
[0032]图7是分发技能模板的示例系统的示意图。
[0033]图8是通过技能模板分发系统分发技能模板的示例过程的流程图。
[0034]在各附图中的相似的附图标记和型号指示相似的元素。
具体实施方式
[0035]图1是示例演示学习系统的示意图。系统100是可以实施本说明书中描述的基于演示的学习技术的系统的示例。
[0036]系统100包括多个功能组件,包括在线执行系统110,训练系统120,和机器人接口子系统160。这些组件中的每一个都可以作为安装在一个或多个地点的一个或多个计算机上的计算机程序实施,这些组件通过任何适当的通信网络,例如,内联网或互联网,或网络的组合耦合到彼此。
[0037]系统100在两个基本模式下操作以控制机器人170a

n:演示模式和执行模式。
[0038]在演示模式中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个计算机执行的方法,所述方法包括:通过技能模板分发系统从用户设备上接收对可用技能模板的选择;通过所述技能模板分发系统提供技能模板,其中所述技能模板包括表示一个或多个任务的状态机的信息,以及其中所述技能模板指定所述一个或多个任务中哪些是需要本地演示数据的演示子任务;通过所述技能模板分发系统,为所述技能模板的演示子任务接收本地演示数据;使用所述本地演示数据为所述演示子任务训练机器学习模型,以生成学习参数值;以及向所述用户设备提供所述学习参数值和所述演示子任务的基本控制策略。2.如权利要求1所述的方法,还包括:通过技能模板分发系统从用户设备接收可用技能模板将训练的请求,以使机器人执行具有多个任务的技能;以及响应于所述请求,向所述用户设备提供描述一个或多个可用技能模板的信息。3.如权利要求2所述的方法,其中所述请求指定特定的机器人类型或模型,并且其中提供描述所述一个或多个可用技能模板的所述信息包括提供与所述特定的机器人类型或模型兼容的一个或多个技能模板。4.如权利要求1所述的方法,还包括:从技能模板开发者接收由所述技能模板开发者生成的新技能模板;以及将所述新技能模板添加到可用技能的集合,其中对所述可用技能模板的所述选择包括对由所述技能模板开发者生成的所述新技能模板的选择。5.如权利要求4所述的方法,其中所述技能模板开发者是非附属于所述技能模板分发系统或拥有所述用户设备的组织的实体。6.如权利要求1所述的方法,其中所述用户设备位于具有机器人的设施中,并且其中所述本地演示数据是通过向所述机器人演示如何执行所选技能模板的演示子任务而捕获的数据。7.如权利要求6所述的方法,其中训练所述技能模板在非附属于具有所述机器人的所述设施的训练系统中执行。8.如权利要求7所述的方法,其中所述基本控制策略由非附属于具有所述机器人的所述设施的所述训练系统生成。9.一种系统,包括:一个或多个计算机和存储可操作指令的一个或多个存储设备,所述指令由一个或多个计算机执行时,使所述一个或多个计算机执行操作,所述操作包括:通过技能模板分发系统从用户设备上接收对可用技能模板的选择;通过所述技能模板分发系统提供技能模板,其中所述技能模板包括表示一个或多个任务的状态机的信息,以及其中所述技能模板指定所述一个或多个任务中哪些是需要本地演示数据的演示子任务;通过所述技能模板分发系统,为所述技能模板的演示子任务接收本地演示数据;使用所述本地演示数据为所述演示子任务训练机器学习模型,以生成学习参数值;以
及向所述用户设备提供所述学习参数值和所述演示子任务的基本控制策略。10.如权利要求1所述的系统,其中所述操作还包括:通过技能模板分发系统从用户设备接收可用技能模板将训练的请求,以使机器人执行具有多个任务的技能...

【专利技术属性】
技术研发人员:BVSRK科鲁里S沙尔BM达维斯ROM舒赫尔N叶
申请(专利权)人:因思创新有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1