当前位置: 首页 > 专利查询>辉达公司专利>正文

从机器人系统和应用的复杂指令中解译离散任务技术方案

技术编号:38870262 阅读:10 留言:0更新日期:2023-09-22 14:07
本公开涉及从机器人系统和应用的复杂指令中解译离散任务。提供了用于执行复杂(例如,复合)任务的方法,所述复杂任务可涉及多个离散任务,所述多个离散任务在执行所述复杂任务的指令中并不明显。可以使用捕获的图像数据来确定环境的条件集,并且分析所述指令以确定在执行所述指令之后存在于所述环境中的最终条件集。这些初始条件和结束条件用于确定要执行的离散任务序列,以使机器人或自动化设备执行所述指令。这可以涉及在至少一些实施例中使用符号或视觉规划器,以及搜索可用于所述机器人或自动化设备的可能的动作序列。可以使机器人执行所述离散任务序列,以及提供反馈使得所述任务序列可以被酌情修改。任务序列可以被酌情修改。任务序列可以被酌情修改。

【技术实现步骤摘要】
从机器人系统和应用的复杂指令中解译离散任务


[0001]本公开涉及从机器人系统和应用的复杂指令中解译离散任务。

技术介绍

[0002]机器人和其他自动化设备越来越多地用于协助执行各种任务。然而,为了让机器人能够协助人类完成复杂(complex)的任务或目标,这些机器人需要能够解译给出的关于这些复杂任务的指令。人类语言可能复杂、模糊、难以理解,而且也可能并不明显,从复杂任务或目标的描述来看,为了完成整体、更复杂的任务或实现长期目标,需要执行哪些单独的子任务或动作。例如,诸如“从抽屉里抓取一把刀”之类的指令没有明确指定是哪把刀或哪个抽屉,也没有明确指定抓取一把刀后如何处理。如果在场景中有多个抽屉和多把刀,机器人需要推理出哪个抽屉应该包含一把刀,以及要取出哪把刀。此外,在一个抽屉里可能是日常刀具,而在另一个抽屉里可能是牛排刀具或雕刻刀具,而机器人必须能够推理出哪个动作会满足指令。

技术实现思路

[0003]在一个方面,提供了一种计算机实现的方法。所述方法包括:接收音频数据,所述音频数据与执行复合任务的口头请求相对应,所述复合任务涉及待执行的未指定的多个离散任务;分析所述音频数据以生成所述口头请求的文本表示;获取图像数据,所述图像数据表示环境的当前状态,所述复合任务要在所述环境中执行;分析所述图像数据以获取用于所述环境的所述当前状态的当前条件集,以及分析所述口头请求的所述文本表示以获取在执行所述复合任务之后的所述环境的期望条件集;至少部分地基于可执行动作集,确定待被执行以从所述当前条件集转变到所述环境的所述期望条件集的离散任务序列;以及使所述离散任务序列的指令被执行以执行所述复合任务。
[0004]在一个方面,提供了一种系统。所述系统包括:语言模型,用于将口头指令转换为复合任务的文本表示;图像模型,用于确定视觉特征集,所述视觉特征集与在环境图像中表示的对象相对应,所述复合任务要在所述环境中执行;任务规划器,用于至少部分地基于所述文本表示、所述视觉特征集和可执行动作集来确定要为所述复合任务执行的离散任务序列;以及执行模块,用于使所述离散任务序列的指令被执行。
[0005]在一个方面,提供了一种非暂时性计算机可读存储介质。所述介质包括指令,所述指令如果由一个或更多个处理器执行,使得所述一个或更多个处理器:分析音频数据以生成口头请求的文本表示,所述口头请求与使用所述音频数据表示的复合任务的执行相对应;分析图像数据以获取用于环境的当前状态的当前条件集,以及分析具有所述口头请求的所述文本表示的所述图像数据以获取在执行所述复合任务之后的所述环境的期望条件集;至少部分地基于可执行动作集,确定待被执行以从所述环境的所述当前条件集转变到所述期望条件集的离散任务序列;以及使所述离散任务序列的指令被执行以执行所述复合任务。
附图说明
[0006]根据本公开的各个实施例将参照附图进行描述,在附图中:
[0007]图1A、图1B、图1C和图1D示出了根据各个实施例执行离散任务序列的机器人的图像;
[0008]图2A和图2B示出了根据各个实施例的任务执行系统的组件;
[0009]图3示出了根据至少一个实施例的示例编码器/解码器模型;
[0010]图4示出了根据至少一个实施例的用于收集人类语言数据的界面;
[0011]图5A和图5B示出了根据至少一个实施例的用于确定待被执行作为复杂任务的一部分的离散任务序列的示例过程;
[0012]图6示出了根据至少一个实施例的可用于确定和/或执行任务的分布式系统的组件;
[0013]图7A示出了根据至少一个实施例的推理和/或训练逻辑;
[0014]图7B示出了根据至少一个实施例的推理和/或训练逻辑;
[0015]图8示出了根据至少一个实施例的示例数据中心系统;
[0016]图9示出了根据至少一个实施例的计算机系统;
[0017]图10示出了根据至少一个实施例的计算机系统;
[0018]图11示出了根据一个或更多个实施例的图形处理器的至少部分;
[0019]图12示出了根据一个或更多个实施例的图形处理器的至少部分;
[0020]图13是根据至少一个实施例的高级计算管线的示例数据流图;
[0021]图14是根据至少一个实施例的用于在高级计算管线中训练、适配、实例化和部署机器学习模型的示例系统的系统图;以及
[0022]图15A和图15B示出了根据至少一个实施例的用于训练机器学习模型的过程的数据流图,以及利用预训练的注释模型来增强注释工具的客户端

服务器架构。
具体实施方式
[0023]在以下描述中,将描述各个实施例。出于解释的目的,阐述了具体配置和细节,以便提供对实施例的透彻理解。然而,对于本领域技术人员来说,显而易见的是,可以在没有具体细节的情况下实施实施例。此外,为了不使所描述的实施例模糊,可以省略或简化众所周知的特征。
[0024]根据各个实施例的方法可以接受可能与复杂(例如,复合(compound))任务或长期目标相关的指令,例如口头指令(spoken instruction)。复杂的任务或长期目标可能涉及几个离散任务的执行,或几个中间目标的实现,这从指令来看可能并不明显。本文提出的方法可以使用例如捕获的图像数据来确定环境的条件状态或条件集,并且可以分析指令以确定在执行指令后在环境中存在的最终条件集。这些初始条件和结束条件可用于确定要执行的离散任务序列或要实现的中间目标,以使机器人或自动化设备或其他此类执行者执行指令。这可以涉及在至少一些实施例中使用符号规划器或视觉规划器,以及搜索可用于机器人或自动化设备的可能动作序列。然后可以生成可执行指令以供执行,以使机器人或自动化设备执行指令序列。可以提供反馈以监测执行以及环境的任何变化,使得可以酌情修改任务序列。
[0025]鉴于本文所包含的教导和建议,在各个实施例的范围内也可以使用各种其他这样的功能,这对于本领域普通技术人员来说是显而易见的。
[0026]图1A示出了可以在其中执行各种任务的示例环境的第一图像100。在该环境中,存在机器人102或机器人组件,以及定位在桌子上的若干个块。用于操作机器人的这样的环境可以包括任何适当的环境,诸如实验室、用户家、仓库、工作台、交通工具、医院或工厂等,这些环境可以与机器人的用户或操作者位于同一位置,或者可以位于可能相隔很远的不同地理位置。在至少一些实施例中,可以至少部分地使用人类提供的命令来操作该机器人,该命令可以是交互式的、记录的或通过算法合成的。此外,虽然块被示出作为对象可以与之交互的示例对象,但是应当理解,这样的对象可以是可以位于这些操作环境中的一者的任何物理对象。机器人102可以被编程或指示,或可以学习,用于通过机器人组件的各种组件的协调运动或加速来执行至少一些任务。例如,这些任务可以包括抓取物体、将该物体移动到不同的位置以及释放物体。通常,多个离散任务按顺序执行,以实现特定目标或执行更复杂的任务。例如,机器人102可以被编本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:接收音频数据,所述音频数据与执行复合任务的口头请求相对应,所述复合任务涉及待执行的未指定的多个离散任务;分析所述音频数据以生成所述口头请求的文本表示;获取图像数据,所述图像数据表示环境的当前状态,所述复合任务要在所述环境中执行;分析所述图像数据以获取用于所述环境的所述当前状态的当前条件集,以及分析所述口头请求的所述文本表示以获取在执行所述复合任务之后的所述环境的期望条件集;至少部分地基于可执行动作集,确定待被执行以从所述当前条件集转变到所述环境的所述期望条件集的离散任务序列;以及使所述离散任务序列的指令被执行以执行所述复合任务。2.根据权利要求1所述的方法,其中所述复合任务将使用机器人设备来执行,以及其中所述可执行动作集至少部分地使用所述机器人设备的类型来确定。3.根据权利要求1所述的方法,进一步包括:使用基于树的搜索来确定所述离散任务序列,其中所述树的至少一个分支包括至少部分地基于相应条件子集被满足而选择的可执行动作的子集。4.根据权利要求3所述的方法,其中所述序列是被选择用于最小化所述复合任务的执行成本的多个候选序列中的一者。5.根据权利要求1所述的方法,其中所述当前条件集是基于使用所述图像数据针对在所述环境中检测到的对象而生成的分割掩码集来确定的。6.根据权利要求1所述的方法,其中所述当前条件集是至少部分地基于识别在所述环境中使用所述图像数据表示的对象集来确定的。7.根据权利要求1所述的方法,进一步包括:在执行所述复合任务期间监测所述环境的状态;以及至少部分地基于所述环境的变化来调整所述离散任务序列。8.根据权利要求1所述的方法,进一步包括:将所述图像数据编码到潜在空间中以被提供作为神经网络的输入,其中分析所述图像数据包括使用所述神经网络来分析所述图像数据,以获取针对所述环境的所述当前状态的所述当前条件集中的至少一个当前条件。9.根据权利要求1所述的方法,进一步包括:生成表示所述环境的所述当前条件集和所述期望条件集的符号集,其中所述离散任务序列是使用所述符号集来确定的。10.一种系统,包括:语言模型,用于将口头指令转换为复合任务的文本表示;图像模型,用于确定视觉特征集,所述视觉特征集与在环境图像中表示的对象相对应,所述复合任务要在所述环境中执行;任务规划器,用于至少部分地基于所述文本表示、所述视觉特征集和可执行动作集来确定要为所述复合任务执行的离散任务序列;以及执行模块,用于使所述离散任务序列的指令被执行。
11.根据权利要求10所述的系统,其中所述复合任务使用机器人设备执行...

【专利技术属性】
技术研发人员:C
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1