门控线性上下文博弈机制造技术

技术编号:33844535 阅读:17 留言:0更新日期:2022-06-18 10:28
方法、系统和装置,包括在计算机存储介质上编码的计算机程序,用于响应于上下文输入序列中的每个上下文而选择动作。这些方法中的一种方法包括:维持指定与所述多个动作中的每个动作相对应的相应门控线性网络的数据;对于上下文序列中的每个上下文:对于每个动作,使用对应于该动作的门控线性网络来处理所述上下文以生成预测概率;对于每个动作,至少根据所述预测概率来生成针对该动作的动作分值;以及基于所述动作分值响应于所述上下文而选择要执行的动作。执行的动作。执行的动作。

【技术实现步骤摘要】
【国外来华专利技术】门控线性上下文博弈机


[0001]本说明书涉及响应于上下文输入来选择动作。

技术介绍

[0002]在上下文博弈机(contextual bandits)场景中,智能体从一组可能动作中迭代地选择要执行的动作。在每次迭代,智能体接收与该迭代相关联的上下文输入,然后基于上下文输入来选择针对该迭代的动作。

技术实现思路

[0003]本说明书描述了一种实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统,该系统响应于接收到的上下文输入来选择要执行的动作。
[0004]可以实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。
[0005]所描述的系统使用门控线性网络在上下文博弈机设置中即响应于上下文输入选择动作。这种动作选择方案将被称为门控线性上下文博弈机。使用门控线性网络来选择动作即在接收到的回报方面产生更准确的动作选择,同时减少生成动作选择所需的计算资源量。这可以归因于所描述的方案的若干特征。作为一个示例,所描述的方案允许系统通过利用GLN的数据相关门控属性以有效的零算法开销估计预测不确定性,从而允许在不增加计算开销的情况下计算更准确的伪计数,并且产生对可能动作的空间的更有效探索。作为另一示例,系统可以计算动作的动作分值,并且在通过单个正向传播门控线性网络中更新针对该动作的门控线性网络的权重,从而消除了更新使用传统深度神经网络来生成动作分值的传统系统的模型权重所需的在计算上密集的反向传播。因为门控线性网络可以完全在线更新,所以系统除了用于计算伪计数的小签名数据之外不需要存储历史数据,从而相对于使用神经网络来选择动作的其他技术极大地减少了系统的存储器占用空间。
[0006]在本说明书中描述的主题的一个或多个实施例的细节在附图和下面的描述中阐述。主题的其他特征、方面和优点将从以下描述、附图和权利要求书中变得显而易见。
附图说明
[0007]图1A示出了示例上下文博弈机系统。
[0008]图1B示出了门控线性网络(GLN)的示例。
[0009]图2是用于响应于上下文输入来选择动作的示例过程的流程图。
[0010]图3是用于响应于上下文输入来选择动作的另一示例过程的流程图。
[0011]各附图中同样的参考数字和标记指示同样的元素。
具体实施方式
[0012]本说明书一般描述了一种响应于接收到的上下文输入而重复地选择要执行的动
作的系统。
[0013]每个动作选自预定动作集合,并且系统选择动作以尝试最大化响应于所选择的动作而接收到的回报。
[0014]通常,回报是测量所选择的动作的质量的数值。在一些实现方式中,每个动作的回报是零或一,而在其他实现方式中,每个回报是从例如下限回报值和上限回报值之间的连续范围得到的值。
[0015]在一些情况下,动作是内容项(例如视频、广告、图像、搜索结果或其他内容片段)的推荐,并且上下文输入表示表征当前推荐设置的特征向量,即描述内容项将被推荐的环境的数据,例如当前时间、推荐将被显示的用户的用户设备的属性、已经被推荐给用户的先前内容项和对那些先前内容项的用户响应的属性以及内容项将被置于其中的设置的属性中的任何一个。在这些情况下,回报值测量推荐的质量。例如,如果用户与推荐交互,则该值可以是一,而如果用户不与推荐交互,则该值可以是零。作为另一示例,回报值可以是测量在做出当前推荐之后未来用户参与推荐给用户的内容项的程度的值。
[0016]在一些其他情况下,动作是可以在用户界面中即在给定呈现设置中呈现给用户的用户界面元素,并且上下文输入表示表征给定呈现设置、用户或两者的特征向量。在这些情况下,回报值测量所呈现的用户界面元素的质量。例如,如果用户与元素交互,则该值可以是一,而如果用户没有交互,则该值可以是零。作为另一示例,回报值可以是停留时间或测量与用户界面元素的用户交互程度的其他度量。
[0017]上述示例描述了回报基于在选择动作之后的用户反馈的情况。然而,在一些其他情况下,回报被自动生成,例如,作为对所选择的动作进行评分的评分函数的输出。评分函数可以是例如对所选择的动作的敏感度或准确度进行评分的函数。作为另一个示例,评分函数可以是接收表征在已经选择动作之后的环境的数据并且生成针对该动作的回报的神经网络。使用这些种类的回报可以使得所描述的技术能够在循环中在没有人类用户的许多情况下中使用,例如,用于输入分类任务、工业控制任务或下面参考图1描述的其他任务。
[0018]为了选择动作,系统维护指定与多个动作中的每个动作相对应的一个或多个门控线性网络的数据。当回报为零或一时,单个门控线性网络对应于多个动作中的每个动作并且被配置为如果响应于输入上下文执行对应的动作则预测将接收到回报的概率,即回报将为一而不是零的概率。
[0019]回报可以是例如从一个范围中得到的连续值。则在一种方法中,门控线性网络树对应于多个动作中的每个动作,并且该范围被划分成区间。对应于给定动作的门控线性网络树共同地被配置为预测每个区间的相应概率,该概率表示如果响应于输入上下文执行对应的动作则接收到的回报将落入对应的区间中的可能性。
[0020]为了针对给定上下文输入选择动作,针对每个动作,系统使用与该动作相对应的一个或多个门控线性网络来处理上下文输入,以生成(i)将接收到回报一的预测概率或(ii)每个区间的相应概率。
[0021]系统然后通过根据针对动作的门控线性网络的输出生成针对动作的动作分值以及在一些情况下生成伪计数,来使用门控线性网络的输出选择要执行的动作。伪计数通常也根据与动作相对应的一个或多个门控线性网络来确定,如下所述。
[0022]系统然后基于动作分值响应于上下文来选择要执行的动作,例如通过选择具有最
高动作分值的动作。
[0023]图1示出了示例上下文博弈机系统100。上下文博弈机系统100是被实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例,在该系统中实现了下面描述的系统、组件和技术。
[0024]系统100包括动作选择系统110和训练引擎150。
[0025]系统100响应于接收到的上下文输入120在环境104中重复地选择例如由系统100或由另一系统执行的动作106。例如,如上所述,动作可以是在环境中即在用于内容项推荐的设置中例如在网页上或在软件应用中要向用户做出的内容项推荐。
[0026]每个所选择的动作106的执行一般使环境104转换到新状态,并且使系统100从环境104接收回报124。
[0027]通常,回报124是表示所选择的动作106的质量的数值。在一些实现方式中,针对每个动作106的回报124是零或一,即,指示动作是否成功,而在其他实现方式中,回报124是从在下限回报值和上限回报值之间的连续范围中得到的值,即,将动作106的质量表示为来自连续范围的值而不是二进制值。
[0028]具体地,动作选择系统110使用一组门控线性网络(GLN)130来选择动作,以尝试最大化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种响应于上下文序列中的每个上下文而从要执行的动作集合中选择动作的方法,所述方法包括:维持指定与所述多个动作中的每个动作相对应的相应门控线性网络的数据,其中,每个门控线性网络被配置为预测如果响应于输入上下文执行对应动作则将接收到回报的概率,并且其中,每个门控线性网络包括多个层,每层包括一个或多个神经元,其中在第一层之后的每层中的每个神经元被配置为接收(i)所述输入上下文和(ii)来自前一层中的神经元的预测,并且(iii)将门控函数应用于所述输入上下文以选择权重向量,并且(iv)基于所选择的权重向量来生成来自所述前一层中的神经元的预测的几何混合作为输出;对于所述上下文序列中的每个上下文:对于每个动作,使用对应于所述动作的门控线性网络来处理所述上下文以生成预测概率;对于每个动作,至少根据所述预测概率来生成针对所述动作的动作分值;以及基于所述动作分值响应于所述上下文而选择要执行的动作。2.根据权利要求1所述的方法,其中基于所述动作分值响应于所述上下文而选择要执行的动作包括选择具有最高动作分值的动作。3.根据任一前述权利要求所述的方法,其中,对于每个动作,至少根据所述预测概率来生成针对所述动作的动作分值包括:计算针对所述动作的伪计数;以及根据针对所述动作的预测概率和针对所述动作的伪计数来生成所述动作分值。4.根据权利要求3所述的方法,其中,计算伪计数包括:确定(i)跨针对所述动作的门控线性网络中的神经元的门控函数的上下文的签名与(ii)所述序列中的下述较早上下文的签名之间的重叠:针对该较早上下文,所述动作被选择为响应于该较早上下文而执行的动作。5.根据任一前述权利要求所述的方法,还包括:对于所述上下文序列中的每个上下文:接收回报;以及基于所述回报来更新针对所选择的动作的门控线性网络。6.根据权利要求5所述的方法,其中,更新针对所选择的动作的门控线性网络包括:基于特定于神经元的损失来局部地更新所述门控线性网络中的每个神经元。7.根据任一前述权利要求所述的方法,其中,所述多个层中的最后层仅包括单个神经元,并且其中...

【专利技术属性】
技术研发人员:埃伦
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1