【技术实现步骤摘要】
【国外来华专利技术】使用强化学习选择动作名单
技术介绍
本说明书涉及强化学习。在强化学习系统中,响应于接收表征当前环境状态的观测,代理通过执行由强化学习系统选择的动作来与环境交互。一些强化学习系统响应于接收给定观测,根据神经网络的输出选择要由代理执行的动作。神经网络是采用一层或多层非线性单元来预测接收到的输入的输出的机器学习模型。一些神经网络是深度神经网络,其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层的输入,即下一个隐藏层或输出层。网络的每一层根据相应的参数集的当前值从接收到的输入生成输出。
技术实现思路
本说明书描述了与强化学习相关的技术。特别地,本说明书描述了响应于表征环境状态的观测来选择包括多个动作的动作名单(actionslate)的技术。然后,动作选择器通过选择动作(例如通过从提供的动作名单选择动作)与环境交互。在一个方面,公开了一种向动作选择器提供动作名单的方法,所述动作选择器通过选择并执行动作与环境交互。动作名单包括从预定的动作集合中选择的多个动作,并且环境响应于由动作选择器执行的动作而转换状态。该方法包括接收表征环境的当前状态的观测;通过使用深度神 ...
【技术保护点】
1.一种向动作选择器提供动作名单的方法,所述动作选择器通过选择并执行动作与环境交互,其中所述动作名单包括从预定的动作集合中选择的多个动作,并且其中所述环境响应于由所述动作选择器执行的动作而转换状态,所述方法包括:接收表征所述环境的当前状态的观测;通过使用深度神经网络处理所述观测和多个候选动作名单来选择包括多个动作的动作名单,其中每个候选动作名单包括来自所述动作集合的相应多个动作,并且其中所述深度神经网络被配置为针对每个候选动作名单处理所述观测和该候选动作名单中的动作以生成该候选动作名单的名单Q值,所述名单Q值是响应于所述观测从提供给所述动作选择器的所述候选动作名单产生的长期 ...
【技术特征摘要】
【国外来华专利技术】2015.12.01 US 62/261,7811.一种向动作选择器提供动作名单的方法,所述动作选择器通过选择并执行动作与环境交互,其中所述动作名单包括从预定的动作集合中选择的多个动作,并且其中所述环境响应于由所述动作选择器执行的动作而转换状态,所述方法包括:接收表征所述环境的当前状态的观测;通过使用深度神经网络处理所述观测和多个候选动作名单来选择包括多个动作的动作名单,其中每个候选动作名单包括来自所述动作集合的相应多个动作,并且其中所述深度神经网络被配置为针对每个候选动作名单处理所述观测和该候选动作名单中的动作以生成该候选动作名单的名单Q值,所述名单Q值是响应于所述观测从提供给所述动作选择器的所述候选动作名单产生的长期奖励的估计;以及响应于所述观测,将所选择的动作名单提供给所述动作选择器。2.根据权利要求1所述的方法,其中响应于接收所述动作名单,所述动作选择器执行(i)从所述动作名单选择的动作或者(ii)未包括在所述动作集合中的空动作。3.根据权利要求1或2中任一项所述的方法,其中所述动作名单包括预定数量的槽位,并且其中对于所述动作名单中的槽位的给定子集,选择所述动作名单包括:为槽位的所述给定子集生成多个候选名单,针对槽位的所述给定子集的每个候选名单包括:在已经选择了动作的任一槽位中,已经为该槽位选择的动作,在所述给定子集中的每个槽位中的相应候选动作,其中每个候选名单在所述给定子集中的槽位中具有与每个其他候选名单不同的候选动作组合,以及在除了所述给定子集中的各槽位和已经选择了动作的各槽位之外的所述动作名单中的任一槽位中的相应占位动作;使用所述深度神经网络利用所述观测来处理所述多个候选名单中的每一个候选名单以生成每个候选名单的相应名单Q值;以及将具有所述最高名单Q值的所述候选名单中所述给定子集中的槽位中的所述候选动作选择为所述动作名单中的槽位的所述给定子集中的动作。4.根据权利要求3所述的方法,其中槽位的所述给定子集具有大于一的预定数量的槽位;或其中槽位的所述给定子集具有一个槽位。5.根据权利要求3-4中任一项所述的方法,其中当被提供给所述动作选择器时,所述动作名单中的槽位被从所述动作名单中的最高槽位到所述动作名单中的最低槽位排序,并且其中选择动作名单包括基于当被提供给所述动作选择器时所述动作名单中的槽...
【专利技术属性】
技术研发人员:彼得·戈兰·苏内哈格,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:英国,GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。