检索增强强化学习制造技术

技术编号：41382874 阅读：3 留言：0更新日期：2024-05-20 10:24

用于控制环境中的强化学习智能体以使用检索增强动作选择过程来执行任务的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。其中，所述方法之一包括：接收表征环境的当前状态的当前观察；处理包括当前观察的编码器网络输入以确定与当前观察相对应的策略神经网络隐藏状态；维护由于强化学习智能体与环境交互而生成的多个轨迹；从多个轨迹中选择一个或多个轨迹；使用从一个或多个所选择的轨迹确定的更新数据来更新策略神经网络隐藏状态；以及，使用策略神经网络处理所更新的隐藏状态以生成策略输出，该策略输出指定智能体响应于当前观察而执行的动作。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本说明书涉及强化学习。

技术介绍

1、在强化学习系统中，智能体通过执行由强化学习系统响应于接收表征环境的当前状态的观察而选择的动作来与环境交互。

2、一些强化学习系统根据神经网络的输出选择要由智能体响应于接收到给定观察而执行的动作。

3、神经网络是采用一层或多层非线性单元来针对接收到的输入预测输出的机器学习模型。一些神经网络是深度神经网络，其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作对于在网络中下一层——即，下一个隐藏层或输出层——的输入。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

1、本说明书总体上描述了一种强化学习系统，其使用检索增强动作选择过程来控制与环境交互的智能体。

2、通常，本说明书中描述的主题的一个创新方面可以体现在一种控制环境中的强化学习智能体执行任务的方法中，所述方法包括：接收表征所述环境的当前状态的当前观察；使用编码器神经网络处理包括所述当前观察的编码器网络输入以确定与所述当前观察相对应的策略神经网络隐藏状态；维护由于所述强化学习智能体与所述环境交互而生成的多个轨迹；从所述多个轨迹中选择一个或多个轨迹，包括，对于一个或多个注意力时隙中的每个注意力时隙：使用从对应于所述当前观察的所述策略神经网络隐藏状态导出的一个或多个查询在所述多个轨迹上应用转移注意力机制以确定每个轨迹的相应轨迹注意力权重，以及，使用所述相应轨迹注意力权重从所述多个轨迹中选择一个或多个轨迹；使用从所述一个或多个所选择

3、每个轨迹可以包括转移序列，每个转移包括表征所述环境的相应当前状态的相应当前观察，并且其中，所述方法可以还包括：对于所述一个或多个注意力时隙中的每个注意力时隙：使用从对应于所述当前观察的所述策略神经网络隐藏状态导出的一个或多个查询，将所述转移注意力机制应用于在所述一个或多个所选择的轨迹中包括的所述转移序列，以确定在所述一个或多个所选择的轨迹中包括的每个转移的相应转移注意力权重，以及，使用所述相应转移注意力权重从所述一个或多个所选择的轨迹中选择一个或多个转移；以及，其中，更新所述隐藏状态可以包括使用来自一个或多个所选择的转移的数据来更新所述隐藏状态。

4、使用所述相应轨迹注意力权重从所述多个轨迹中选择所述一个或多个轨迹可以包括：选择所述多个轨迹当中具有最高轨迹注意力权重的预定数量的轨迹。

5、该方法还可以包括：使用值神经网络并根据对应于所述当前观察的所述隐藏状态和来自所述一个或多个所选择的轨迹的所述数据生成值输出，所述值输出表示处于由对于执行所述任务的所述当前观察表征的所述当前状态中的所述环境的值。

6、所述编码器神经网络可以是包括一个或多个循环神经网络层的循环编码器神经网络。

7、所述编码器神经网络可以是所述策略神经网络的一部分。

8、每个注意力时隙可以具有对应的循环神经网络，所述循环神经网络被配置为：接收与所述当前观察相对应的所述隐藏状态作为输入；处理所述输入以确定与所述当前观察相对应的所述循环神经网络的循环神经网络隐藏状态；以及，从所述循环神经网络隐藏状态确定用于所述注意力时隙的所述一个或多个查询。

9、该方法还可以包括，当由所述当前观察表征的所述环境的所述当前状态是用于所述任务的所述环境的开始状态时：通过某种随机性测量，确定所述注意力时隙中的每个注意力时隙的所述相应循环神经网络的初始循环神经网络隐藏状态。

10、该方法还可以包括，对于每个轨迹中包括的每个转移：使用概括神经网络生成所述转移的第一编码表示，所述第一编码表示概括所述轨迹中所包括的所述转移序列中的所述转移和在所述转移之前的其他转移；以及，使用所述概括神经网络生成所述转移的第二编码表示，所述第二编码表示概括以及所述轨迹中所包括的所述转移序列中的所述转移和在所述转移之后的其他转移。

11、确定每个轨迹的所述相应轨迹注意力权重可以包括：基于所述轨迹中包括的所述转移的所述相应转移注意力权重来确定所述轨迹的所述轨迹注意力权重。

12、确定在所述一个或多个所选择的轨迹中包括的每个转移的所述相应转移注意力权重可以包括，对于所述一个或多个循环神经网络中的每个循环神经神经网络：从所述轨迹中包括的所述转移的所述第一编码表示或第二编码表示或两者确定一个或多个转移键；以及，使用所述一个或多个转移键和所述一个或多个查询将所述转移注意力机制应用于所述一个或多个所选择的轨迹中包括的所述转移序列，以确定所述一个或多个所选择的轨迹中包括的每个转移的所述相应转移注意力权重。

13、该方法还可以包括：基于根据以下确定更新数据来更新每个循环神经网络的所述相应循环神经网络隐藏状态：(i)在所述一个或多个所选择的轨迹中包括的每个转移的所述相应转移注意力权重以及(ii)在每个轨迹中包括的每个转移的所述第一编码表示或第二编码表示或两者。

14、该方法还可以包括使用信息瓶颈来正则化所述更新数据。

15、更新每个循环神经网络的所述相应循环神经网络隐藏状态可以还包括：使用利用网络隐藏状态自注意力机制从其他网络隐藏状态检索到的数据来确定对于所述相应网络隐藏状态的更新。

16、使用所述网络隐藏状态自注意力机制更新每个循环神经网络层的所述相应循环神经网络隐藏状态可以包括，对于一个或多个所述循环神经网络中的每个循环神经网络：根据所述循环神经网络的所述相应网络隐藏状态确定一个或多个隐藏状态查询；使用所述一个或多个隐藏状态查询，将网络隐藏状态自注意力机制应用于一个或多个循环神经网络的所述相应网络隐藏状态上，以确定所述一个或多个循环神经网络的每个循环神经网络的所述相应网络隐藏状态的相应隐藏状态注意力权重；以及，根据(i)所述一个或多个循环神经网络的每个循环神经网络的所述相应网络隐藏状态的所述隐藏状态注意力权重和(ii)所述一个或多个循环神经网络的每个循环神经网络的相应网络隐藏状态来确定对于所述循环神经网络的所述相应网络隐藏状态的所述更新。

17、使用来自所述一个或多个所选择的轨迹的数据来更新所述隐藏状态可以包括：根据所述更新数据确定对所述隐藏状态的更新，包括使用从所述隐藏状态导出的一个或多个查询对所述更新数据应用策略神经网络隐藏状态注意力机制。

18、该方法还可以包括通过强化学习来训练所述策略神经网络。

19、通过强化学习训练所述策略神经网络可以包括：确定与所述当前观察相关联的时间差分学习损失；以及，基于针对所述策略神经网络的多个参数计算的所述时间差分学习损失的梯度，确定对所述策略神经网络的所述多个参数的所述值的更新。

20、在训练期间，所述编码器网络输入还可以包括由所述智能体响应于所述当前观察而执行的当前动作以及响应于所述智能体执行所述当前动作而接收的奖本文档来自技高网...

【技术保护点】

1.一种用于控制环境中的强化学习智能体执行任务的方法，所述方法包括：

2.根据权利要求1所述的方法，其中，每个轨迹包括转移序列，每个转移包括表征所述环境的相应当前状态的相应当前观察，并且其中，所述方法进一步包括：

3.根据权利要求1-2中任一项所述的方法，其中，使用所述相应轨迹注意力权重从所述多个轨迹中选择所述一个或多个轨迹包括：

4.根据权利要求1-3中任一项所述的方法，进一步包括：

5.根据权利要求1-4中任一项所述的方法，其中，所述编码器神经网络是包括一个或多个循环神经网络层的循环编码器神经网络。

6.根据权利要求1-5中任一项所述的方法，其中，所述编码器神经网络是所述策略神经网络的一部分。

7.根据权利要求1-6中任一项所述的方法，其中，每个注意力时隙具有对应的循环神经网络，所述循环神经网络被配置为：

8.根据权利要求7所述的方法，进一步包括，当由所述当前观察表征的所述环境的所述当前状态是用于所述任务的所述环境的开始状态时：

9.根据权利要求2-8中任一项所述的方法，进一步包括

10.根据权利要求7-9中任一项所述的方法，其中，确定每个轨迹的所述相应轨迹注意力权重包括：基于在所述轨迹中包括的所述转移的所述相应转移注意力权重来确定所述轨迹的所述轨迹注意力权重。

11.根据权利要求7-10中任一项所述的方法，其中，确定在所述一个或多个所选择的轨迹中包括的每个转移的所述相应转移注意力权重包括，对于所述一个或多个循环神经网络中的每个循环神经网络：

12.根据权利要求8-11中任一项所述的方法，进一步包括：基于根据以下确定更新数据来更新每个循环神经网络的所述相应循环神经网络隐藏状态：(i)在所述一个或多个所选择的轨迹中包括的每个转移的所述相应转移注意力权重以及(ii)在每个轨迹中包括的每个转移的所述第一编码表示或第二编码表示或两者。

13.根据权利要求12所述的方法，进一步包括使用信息瓶颈来正则化所述更新数据。

14.根据权利要求12-13中任一项所述的方法，其中，更新每个循环神经网络的所述相应循环神经网络隐藏状态进一步包括：使用利用网络隐藏状态自注意力机制从其他网络隐藏状态检索到的数据来确定对于所述相应网络隐藏状态的更新。

15.根据权利要求14所述的方法，其中，使用所述网络隐藏状态自注意力机制更新每个循环神经网络层的所述相应循环神经网络隐藏状态机制包括，对于一个或多个所述循环神经网络中的每个循环神经网络：

16.根据权利要求12-15中任一项所述的方法，其中，使用来自所述一个或多个所选择的轨迹的数据来更新所述隐藏状态包括：

17.根据前述权利要求中任一项所述的方法，进一步包括通过强化学习来训练所述策略神经网络。

18.根据权利要求17所述的方法，其中，通过强化学习来训练所述策略神经网络包括：

19.根据权利要求17-18中任一项所述的方法，其中，在训练期间，所述编码器网络输入进一步包括由所述智能体响应于所述当前观察而执行的当前动作以及响应于所述智能体执行所述当前动作而接收的奖励。

20.根据权利要求17-19中任一项所述的方法，进一步包括：将所述时间差分学习损失的所述梯度反向传播到所述循环神经网络中以确定对所述一个或多个循环神经网络中的每个循环神经网络的相应多个参数的当前值的更新。

21.根据权利要求17-20中任一项所述的方法，进一步包括：

22.根据前述权利要求中任一项所述的方法，其中，所述智能体是机械智能体，所述环境是真实世界环境，并且所述观察包括来自被配置为感测所述真实世界环境的一个或多个传感器的数据。

23.根据权利要求22所述的方法，当从属于权利要求17-21中的任一项时，其中，所述强化学习是在模拟所述真实世界环境的模拟环境中执行的。

24.一种机械智能体，包括执行根据权利要求1-16中任一项所述的方法的控制系统。

25.一个或多个计算机可读存储介质，其存储指令，所述指令在由一个或多个计算机执行时，使得所述一个或多个计算机执行根据权利要求1-23中任一项所述的方法中的任一个方法的相应操作。

26.一种包括一个或多个计算机和一个或多个存储设备的系统，所述一个或多个存储设备存储指令，所述指令在由一个或多个计算机执行时使得所述一个或多个计算机执行根据权利要求1-23中任一项所述的方法中的任一个方法的相应操作。

...

【技术特征摘要】
【国外来华专利技术】

1.一种用于控制环境中的强化学习智能体执行任务的方法，所述方法包括：

3.根据权利要求1-2中任一项所述的方法，其中，使用所述相应轨迹注意力权重从所述多个轨迹中选择所述一个或多个轨迹包括：

4.根据权利要求1-3中任一项所述的方法，进一步包括：

5.根据权利要求1-4中任一项所述的方法，其中，所述编码器神经网络是包括一个或多个循环神经网络层的循环编码器神经网络。

6.根据权利要求1-5中任一项所述的方法，其中，所述编码器神经网络是所述策略神经网络的一部分。

7.根据权利要求1-6中任一项所述的方法，其中，每个注意力时隙具有对应的循环神经网络，所述循环神经网络被配置为：

8.根据权利要求7所述的方法，进一步包括，当由所述当前观察表征的所述环境的所述当前状态是用于所述任务的所述环境的开始状态时：

9.根据权利要求2-8中任一项所述的方法，进一步包括，对于在每个轨迹中包括的每个转移：

13.根据权利要求12所述的方法，进一步包括使用信息瓶颈来正则化所述更新数据。

14.根据权利要求12-13中任一项所述的方法，其中，更新每个循环神经网络的所述相应循环神经网络隐藏状态进一步包括：使用利用网络隐...

【专利技术属性】
技术研发人员：阿尼鲁德·戈亚尔，安德烈亚·巴尼诺，艾布拉姆·卢克·弗里森，塞奥法尼·纪尧姆·韦伯，阿德里亚·普伊赫多梅内奇·巴迪亚，柯楠，西蒙·奥辛德罗，蒂莫西·保罗·利利克拉普，查尔斯·布伦代尔，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人