当前位置: 首页 > 专利查询>渊慧科技有限公司专利>正文

用于智能体控制的分层潜在混合策略制造技术

技术编号：41408882 阅读：2 留言：0更新日期：2024-05-20 19:35

用于控制智能体的方法、系统和设备，包括在计算机存储介质上编码的计算机程序。具体地，可以使用分层控制器来控制智能体，分层控制器包括高层级控制器神经网络、中层级控制器神经网络和低层级控制器神经网络。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

技术介绍

1、本说明书涉及使用机器学习模型处理数据。

2、机器学习模型接收输入并且基于接收到的输入生成输出，例如预测输出。一些机器学习模型是参数模型，并且基于接收到的输入和模型的参数的值生成输出。

3、一些机器学习模型是针对接收到的输入采用多层模型来生成输出的深度模型。例如，深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型，每个隐藏层对接收到的输入应用非线性变换以生成输出。

技术实现思路

1、本说明书大体描述了在一个或多个位置中的一个或多个计算机上实施为计算机程序的系统，该系统控制与环境交互的智能体(agent)以尝试使用包括高层级控制器神经网络、中层级控制器神经网络和低层级控制器神经网络的分层控制器在环境中执行任务。

2、可以实施本说明书中描述的主题的特定实施例以便实现以下优点中的一个或多个。

3、所描述的技术通过利用离散且连续的潜在变量的三层级层次结构来控制智能体，以捕获抽象高层级行为集合，同时允许它们的执行方式中的变化。具体地，系统使用模型，该模型包括可以学习运动原语的低层级潜在条件控制器、连续潜在中层级技能集合，以及可以在这些抽象中层级行为中进行组合和选择的离散高层级控制器，从而允许对智能体进行有效控制。

4、通过如上所述训练此模型，系统可以使模型将离线数据有效地聚类为不同的可执行行为，同时保持连续潜在变量模型的灵活性。与现有的基于技能和模仿的方法相比，由此产生的技能可以针对新任务、看不见的对象以及基

5、此外，所学到的技能鼓励定向探索以覆盖与任务相关的状态空间的大区域，从而使系统即使在具有挑战性的稀疏奖励(reward)设置中也能够有效地控制智能体。

6、在本文描述的一个示例中，一种用于控制与环境交互的智能体来执行任务的方法，方法包括在多个时间步中的每个时间步处：接收表征在时间步处环境的状态的观察；使用高层级控制器神经网络处理从观察得出的高层级输入，以生成包括技能集合中的每个技能的相应分数的高层级输出；使用高层级输出从技能集合中选择技能；在中层级控制器神经网络以所选技能为条件的同时使用中层级控制器神经网络处理从观察得出的中层级输入，以生成来自潜在动作空间的潜在动作向量；以及使用低层级控制器神经网络处理从观察得出的低层级输入和潜在动作向量，以生成定义将由智能体响应于观察而执行的动作的策略输出。使用高层级控制器神经网络处理从观察得出的高层级输入，以生成包括技能集合中的每个技能的相应分数的高层级输出可以包括：在高层级控制器神经网络以在前一时间步处选择的技能为条件的同时使用高层级控制器神经网络处理高层级输入。高层级控制器神经网络可以包括用于技能集合中的每个技能的相应高层级神经网络头。在高层级控制器神经网络以在前一时间步选择的技能为条件的同时使用高层级控制器神经网络处理高层级输入可以包括：仅使用与在前一时间步处选择的技能对应的相应高层级神经网络头来处理高层级输入。中层级控制器神经网络可以被配置成处理中层级输入，以生成包括潜在动作空间上的分布的参数的中层级输出。使用中层级控制器神经网络处理中层级输入可以包括：对由中层级输出参数化的潜在动作空间上的分布进行采样以生成潜在动作向量。中层级控制器神经网络可以包括用于技能集合中的每个技能的相应中层级神经网络头。在中层级控制器神经网络以所选技能为条件的同时使用中层级控制器神经网络处理从观察得出的中层级输入，以生成来自潜在动作空间的潜在动作向量可以包括：仅使用与在时间步处选择的所选技能对应的相应中层级神经网络头来处理中层级输入。低层级输入可以包括来自在时间步的观察的与中层级输入和高层级输入不同的信息。低层级输入可以仅包括智能体在时间步的本体感觉信息(proprioceptive)。中层级和/或高层级输入除了本体感觉信息之外还可以包括附加信息。高层级输入、中层级输入或两者都可以包括在时间步处环境的视觉观察，而低层级输入不包括环境的视觉观察。可以已经通过对任务的训练数据的强化学习对高层级控制器神经网络和中层级控制器神经网络进行了训练。低层级控制器神经网络可以已经进行了预训练并在高层级控制器神经网络和中层级控制器神经网络通过对任务的训练数据的强化学习的训练期间冻结。低层级控制器神经网络可已经与被配置成接收与高层级控制器神经网络不同类型的观察数据作为输入的不同高层级控制器神经网络联合预训练。低层级控制器神经网络可以已经与被配置成接收与中层级控制器神经网络不同类型的观察数据作为输入的不同中层级控制器神经网络联合预训练。可以已经通过对任务的训练数据的强化学习对高层级控制器神经网络进行了训练，而低层级控制器神经网络和中层级控制器神经网络可以已经进行了预训练并在高层级控制器神经网络通过对任务的训练数据的强化学习的训练期间冻结。低层级控制器神经网络和中层级控制器神经网络可以已经与被配置成接收与高层级控制器神经网络不同类型的观察数据作为输入的不同高层级控制器神经网络联合预训练。在预训练期间，不同高层级控制器神经网络可以被配置成接收对象状态数据、来自当前时间步之后的未来时间步的数据，或两者。在预训练期间，可以基于由不同高层级控制器神经网络生成的高层级输出与以在紧接的前一时间步选择的技能为条件的技能集合中的技能的先验分布之间的差异，对不同高层级控制器神经网络的训练进行正则化。可以在预训练期间学习先验分布。可以对离线数据执行预训练。在一些示例中，离线数据可以不包括任务的任何奖励数据。智能体可以是机械智能体。环境可以是真实世界环境。观察可以包括由被配置成感测环境的一个或多个传感器感测的传感器数据。

7、在本文描述的另一示例中，一种系统包括一个或多个计算机；以及通信地耦合到一个或多个计算机的一个或多个存储装置。一个或多个存储装置存储指令，指令当由一个或多个计算机执行时使一个或多个计算机执行本文描述的任何方法的操作。

8、在本文描述的另一示例中，一种或多种存储指令的非暂时性计算机存储介质，指令当由一个或多个计算机执行时使一个或多个计算机执行本文描述的任何方法的操作。

9、在附图和以下描述中阐述本说明书的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将从说明书、附图和权利要求书中显而易见。

本文档来自技高网...

【技术保护点】

1.一种用于控制与环境交互的智能体来执行任务的方法，所述方法包括在多个时间步中的每个时间步处：

2.根据权利要求1所述的方法，其中，使用所述高层级控制器神经网络处理从所述观察得出的高层级输入，以生成包括技能集合中的每个技能的相应分数的所述高层级输出包括：

3.根据权利要求2所述的方法，其中，所述高层级控制器神经网络包括用于所述技能集合中的每个技能的相应高层级神经网络头，并且其中，在所述高层级控制器神经网络以在前一时间步处选择的技能为条件的同时使用所述高层级控制器神经网络处理所述高层级输入包括：

4.根据任一前述权利要求所述的方法，其中，所述中层级控制器神经网络被配置成处理所述中层级输入，以生成包括所述潜在动作空间上的分布的参数的中层级输出，并且其中，使用所述中层级控制器神经网络处理所述中层级输入包括：

5.根据任一前述权利要求所述的方法，其中，所述中层级控制器神经网络包括用于所述技能集合中的每个技能的相应中层级神经网络头，并且其中，在中层级控制器神经网络以所选技能为条件的同时使用所述中层级控制器神经网络处理从所述观察得出的中层级输入

6.根据任一前述权利要求所述的方法，其中，所述低层级输入包括来自在所述时间步处的所述观察的与所述中层级输入和所述高层级输入不同的信息。

7.根据权利要求6所述的方法，其中，所述低层级输入仅包括所述智能体在所述时间步处的本体感觉信息，并且所述中层级和高层级输入除了所述本体感觉信息之外还包括附加信息。

8.根据权利要求6或7所述的方法，其中，所述高层级输入、所述中层级输入或两者都包括在所述时间步处所述环境的视觉观察，并且所述低层级输入不包括所述环境的所述视觉观察。

9.根据任一前述权利要求所述的方法，其中，已经通过对所述任务的训练数据的强化学习对所述高层级控制器神经网络和所述中层级控制器神经网络进行了训练，而所述低层级控制器神经网络已经进行了预训练并在所述高层级控制器神经网络和所述中层级控制器神经网络通过对所述任务的所述训练数据的强化学习的训练期间冻结。

10.根据权利要求9所述的方法，其中，所述低层级控制器神经网络与被配置成接收与所述高层级控制器神经网络不同类型的观察数据作为输入的不同高层级控制器神经网络和与被配置成接收与所述中层级控制器神经网络不同类型的观察数据作为输入的不同中层级控制器神经网络联合预训练。

11.根据权利要求1至8中任一项所述的方法，其中，已经通过对所述任务的训练数据的强化学习对所述高层级控制器神经网络进行了训练，而所述低层级控制器神经网络和所述中层级控制器神经网络已经进行了预训练并在所述高层级控制器神经网络通过对所述任务的所述训练数据的强化学习的训练期间冻结。

12.根据权利要求11所述的方法，其中，所述低层级控制器神经网络和所述中层级控制器神经网络与被配置成接收与所述高层级控制器神经网络不同类型的观察数据作为输入的不同高层级控制器神经网络联合预训练。

13.根据权利要求10或12中任一项所述的方法，其中，在所述预训练期间，所述不同高层级控制器神经网络被配置成接收对象状态数据、来自当前时间步之后的未来时间步的数据，或两者。

14.根据权利要求10、12或13中任一项所述的方法，其中，在所述预训练期间，基于由所述不同高层级控制器神经网络生成的高层级输出与以在紧接的前一时间步处选择的技能为条件的所述技能集合中的技能的先验分布之间的差异，对所述不同高层级控制器神经网络的所述训练进行正则化。

15.根据权利要求14所述的方法，其中，在所述预训练期间学习所述先验分布。

16.根据权利要求9至15中任一项所述的方法，其中，所述预训练是对离线数据执行的。

17.根据权利要求16所述的方法，其中，所述离线数据不包括所述任务的任何奖励数据。

18.根据任一前述权利要求所述的方法，其中，所述智能体是机械智能体，所述环境是真实世界环境，并且所述观察包括由被配置成感测所述环境的一个或多个传感器感测的传感器数据。

19.一种系统，包括：

20.一种或多种存储指令的非暂时性计算机存储介质，所述指令当由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至18中任一项所述的相应方法的操作。

...

【技术特征摘要】
【国外来华专利技术】

1.一种用于控制与环境交互的智能体来执行任务的方法，所述方法包括在多个时间步中的每个时间步处：

5.根据任一前述权利要求所述的方法，其中，所述中层级控制器神经网络包括用于所述技能集合中的每个技能的相应中层级神经网络头，并且其中，在中层级控制器神经网络以所选技能为条件的同时使用所述中层级控制器神经网络处理从所述观察得出的中层级输入，以生成来自潜在动作空间的潜在动作向量包括：

6.根据任一前述权利要求所述的方法，其中，所述低层级输入包括来自在所述时间步处的所述观察的与所述中层级输入和所述高层级输入不同的信息。

10.根据权利要...

【专利技术属性】
技术研发人员：杜什扬特·拉奥，费雷什特·萨德吉，伦纳德·哈森克勒费尔，马库斯·武尔夫迈尔，马丁纳·赞贝利，朱莉娅·韦扎尼，德鲁瓦·蒂鲁马拉布卡帕特南，优素福·艾塔尔，乔舒亚·梅蕾尔，尼古拉斯·曼弗雷德·奥托·黑斯，拉亚·泰·哈德塞尔，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人