使用因果正确环境模型来控制智能体制造技术

技术编号:33540444 阅读:24 留言:0更新日期:2022-05-21 09:46
方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于使用环境模型来模拟由使用策略神经网络控制的智能体与其交互的环境的状态转换。方法中的一个包括在当前时间点初始化环境状态的内部表示;重复执行以下操作:接收智能体要执行的动作;基于内部表示生成预测的潜在表示,该预测的潜在表示是本将由策略神经网络通过处理表征与内部表示相对应的环境状态的观测而生成的潜在表示的预测;并且通过使用环境模型处理预测的潜在表示和接收到的动作,更新内部表示以模拟由执行接收到的动作的智能体引起的状态转换。的动作的智能体引起的状态转换。的动作的智能体引起的状态转换。

【技术实现步骤摘要】
【国外来华专利技术】使用因果正确环境模型来控制智能体
[0001]相关申请的交叉引用
[0002]本申请要求在2019年9月25日提交的美国临时申请第62/906,083号的优先权。该在先申请的公开内容被认为是本申请公开内容的一部分,并以引用的方式并入本申请的公开内容中。


[0003]本说明书涉及强化学习。

技术介绍

[0004]在强化学习系统中,智能体通过执行由强化学习系统响应于接收到表征环境当前状态的观测而选择的动作来与环境交互。
[0005]一些强化学习系统根据神经网络的输出选择要由智能体响应于接收到给定观测而执行的动作。
[0006]神经网络是机器学习模型,它使用一个或多个非线性单元层来对于接收的输入预测输出。一些神经网络是深度神经网络,其除了输出层外,还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即,下一个隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

[0007]本说明书描述了一种强化学习系统,该系统通过在多个时间步骤中的每一个时间步骤处理表征本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用环境模型来模拟由使用策略神经网络控制的智能体与之交互的环境的状态转换的计算机实现的方法,其中,所述策略神经网络被配置为接收表征所述环境的状态的观测,更新所述环境的所述状态的信念表示,从所述信念表示生成潜在表示,并从所述潜在表示生成指定所述智能体要执行的动作的输出,并且其中,所述方法包括:在当前时间点初始化所述环境的状态的内部表示;重复执行以下操作:接收要由所述智能体执行的动作;基于所述内部表示,生成预测的潜在表示,所述预测的潜在表示是本将由所述策略神经网络通过处理表征与所述内部表示相对应的所述环境的所述状态的观测生成的潜在表示的预测;以及通过使用所述环境模型处理所述预测的潜在表示和所接收的动作,更新所述内部表示以模拟由执行所接收的动作的所述智能体引起的状态转换。2.根据权利要求1所述的方法,还包括:从所述环境的状态的所述内部表示生成要被提供用于控制所述智能体的目标。3.根据权利要求1

2中的任一项所述的方法,其中,在当前时间点初始化所述环境的状态的内部表示包括:通过所述策略神经网络接收表征在所述当前时间点的所述环境的所述状态的观测;通过所述策略神经网络基于处理所接收的观测,更新所述环境的所述状态的信念表示;以及基于所述环境的状态的所述信念表示来初始化所述内部表示。4.根据权利要求1

3中的任一项所述的方法,其中,更新所述内部表示不包括处理要被提供给所述策略神经网络的表征所述环境的状态的所述观测。5.根据权利要求1

4中的任一项所述的方法,还包括:基于重复执行所述操作的结果,选择在所述当前时间点将被所述智能体在所述环境中执行的动作。6.根据权利要求1

5中的任一项所述的方法,还包括:由所述策略神经网络处理所述环境的状态的所述信念表示和由所述智能体执行的所述动作以更新在所述当前时间点之后的未来时间点处的所述环境的状态的所述信念表示。7.根据权利要求6所述的方法,其中,更新在所述未来时间点处的所述环境的状态的所述信念表示还包括处理表征在所述未来时间点处的所述环境的所述状态的观测。8.根据权利要求1

7中的任一项所述的方法,其中,在更新所述环境的状态的所述信念表示之后,所述潜在表示对应于所述策略神经网络的一个或多个层。9.根据权利要求8所述的方法,其中,所述...

【专利技术属性】
技术研发人员:伊沃
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1