门控线性上下文博弈机制造技术

技术编号：33844535 阅读：17 留言：0更新日期：2022-06-18 10:28

方法、系统和装置，包括在计算机存储介质上编码的计算机程序，用于响应于上下文输入序列中的每个上下文而选择动作。这些方法中的一种方法包括：维持指定与所述多个动作中的每个动作相对应的相应门控线性网络的数据；对于上下文序列中的每个上下文：对于每个动作，使用对应于该动作的门控线性网络来处理所述上下文以生成预测概率；对于每个动作，至少根据所述预测概率来生成针对该动作的动作分值；以及基于所述动作分值响应于所述上下文而选择要执行的动作。执行的动作。执行的动作。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】门控线性上下文博弈机

[0001]本说明书涉及响应于上下文输入来选择动作。

技术介绍

[0002]在上下文博弈机(contextual bandits)场景中，智能体从一组可能动作中迭代地选择要执行的动作。在每次迭代，智能体接收与该迭代相关联的上下文输入，然后基于上下文输入来选择针对该迭代的动作。

技术实现思路

[0003]本说明书描述了一种实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统，该系统响应于接收到的上下文输入来选择要执行的动作。
[0004]可以实现本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。
[0005]所描述的系统使用门控线性网络在上下文博弈机设置中即响应于上下文输入选择动作。这种动作选择方案将被称为门控线性上下文博弈机。使用门控线性网络来选择动作即在接收到的回报方面产生更准确的动作选择，同时减少生成动作选择所需的计算资源量。这可以归因于所描述的方案的若干特征。作为一个示例，所描述的方案允许系统通过利用GLN的数据相关门控属性以有效的零算法开销估计预测不确定性，从而允许在不增加计算开销的情况下计算更准确的伪计数，并且产生对可能动作的空间的更有效探索。作为另一示例，系统可以计算动作的动作分值，并且在通过单个正向传播门控线性网络中更新针对该动作的门控线性网络的权重，从而消除了更新使用传统深度神经网络来生成动作分值的传统系统的模型权重所需的在计算上密集的反向传播。因为门控线性网络可以完全在线更新，所以系统除了用于计算伪计数的小签名数据之外不需...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种响应于上下文序列中的每个上下文而从要执行的动作集合中选择动作的方法，所述方法包括：维持指定与所述多个动作中的每个动作相对应的相应门控线性网络的数据，其中，每个门控线性网络被配置为预测如果响应于输入上下文执行对应动作则将接收到回报的概率，并且其中，每个门控线性网络包括多个层，每层包括一个或多个神经元，其中在第一层之后的每层中的每个神经元被配置为接收(i)所述输入上下文和(ii)来自前一层中的神经元的预测，并且(iii)将门控函数应用于所述输入上下文以选择权重向量，并且(iv)基于所选择的权重向量来生成来自所述前一层中的神经元的预测的几何混合作为输出；对于所述上下文序列中的每个上下文：对于每个动作，使用对应于所述动作的门控线性网络来处理所述上下文以生成预测概率；对于每个动作，至少根据所述预测概率来生成针对所述动作的动作分值；以及基于所述动作分值响应于所述上下文而选择要执行的动作。2.根据权利要求1所述的方法，其中基于所述动作分值响应于所述上下文而选择要执行的动作包括选择具有最高动作分值的动作。3.根据任一前述权利要求所述的方法，其中，对于每个动作，至少根据所述预测概率来生成针对所述动作的动作分值包括：计算针对所述动作的伪计数；以及根据针对所述动作的预测概率和针对所述动作的伪计数来生成所述动作分值。4.根据权利要求3所述的方法，其中，计算伪计数包括：确定(i)跨针对所述动作的门控线性网络中的神经元的门控函数的上下文的签名与(ii)所述序列中的下述较早上下文的签名之间的重叠：针对该较早上下文，所述动作被选择为响应于该较早上下文而执行的动作。5.根据任一前述权利要求所述的方法，还包括：对于所述上下文序列中的每个上下文：接收回报；以及基于所述回报来更新针对所选择的动作的门控线性网络。6.根据权利要求5所述的方法，其中，更新针对所选择的动作的门控线性网络包括：基于特定于神经元的损失来局部地更新所述门控线性网络中的每个神经元。7.根据任一前述权利要求所述的方法，其中，所述多个层中的最后层仅包括单个神经元，并且其中...

【专利技术属性】
技术研发人员：埃伦，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人