【技术实现步骤摘要】
使用优先级队列训练神经网络
本说明书涉及训练神经网络。
技术介绍
神经网络是机器学习模型,其使用一个或多个非线性单元层来预测对于所接收输入而言的输出。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作对于在网络中下一层(即,下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入生成输出。一些神经网络是递归神经网络。递归神经网络是接收输入序列并从输入序列生成输出序列的神经网络。特别地,递归神经网络可以使用来自前一时间步长的网络的一些或全部内部状态来计算在当前时间步长的输出。
技术实现思路
本说明书描述了在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统,该系统从输入电子文档中选择文本跨度,该输入电子文档回答包括多个问题令牌的输入问题。本说明书中描述的主题可以在特定实施例中实现,以便实现以下优点中的一个或多个。在许多神经网络训练场景中,在训练过程开始时不能获得真实数据(groundtruth)输出,即,应由神经网络生成的高质量输出。这种情况的示例包括何时神经网络被训练以生成定义神经网络架构的输出或训练执行特定任务的另一神经网络的超参数。作为另一示例,这可以在神经网络被训练以合成计算机程序,即,生成计算机程序令牌序列时发生,计算机程序令牌序列定义要执行以执行特定计算机编程任务的计算机程序。在所有这些示例中,虽然可以确定给定的输出序列是否是高质量的,即通过评估其他神经网络的性能或通过执行计算机程序来检查计算机编程任务的输出,但是通常不先验知道哪些序列将导致高性能。因为这一点,不能使用传统的监督学习技术进行训练。相反 ...
【技术保护点】
1.一种训练具有多个控制器参数的控制器神经网络以通过从所述控制器参数的初始值确定所述控制器参数的训练值来生成输出序列的方法,所述方法包括:保持识别先前在训练期间由所述控制器神经网络生成的一组K个输出序列的数据,以及对于所述组中的每个输出序列,保持计量所述输出序列的质量的相应奖励,其中,K是大于1的整数;从所述组的输出序列中选择所述输出序列中的至少一个;对于每个所选择的输出序列,根据所述控制器参数的当前值,确定由所述控制器神经网络分配给所选择的输出序列的相应分值;对于每个所选择的序列,确定增加由所述控制器神经网络分配给所选择的输出序列的分值的、对所述控制器参数的所述当前值的相应第一更新;根据所述控制器参数的所述当前值,使用所述控制器神经网络生成一批新的输出序列;获得用于所述新的输出序列中的每个的相应奖励;从所述新的输出序列和在所保持的数据中的所述输出序列确定具有最高奖励的K个输出序列;以及修改所保持的数据以识别所确定的K个输出序列和用于所述K个输出序列中的每个的所述相应奖励。
【技术特征摘要】
2017.10.27 US 62/578,3551.一种训练具有多个控制器参数的控制器神经网络以通过从所述控制器参数的初始值确定所述控制器参数的训练值来生成输出序列的方法,所述方法包括:保持识别先前在训练期间由所述控制器神经网络生成的一组K个输出序列的数据,以及对于所述组中的每个输出序列,保持计量所述输出序列的质量的相应奖励,其中,K是大于1的整数;从所述组的输出序列中选择所述输出序列中的至少一个;对于每个所选择的输出序列,根据所述控制器参数的当前值,确定由所述控制器神经网络分配给所选择的输出序列的相应分值;对于每个所选择的序列,确定增加由所述控制器神经网络分配给所选择的输出序列的分值的、对所述控制器参数的所述当前值的相应第一更新;根据所述控制器参数的所述当前值,使用所述控制器神经网络生成一批新的输出序列;获得用于所述新的输出序列中的每个的相应奖励;从所述新的输出序列和在所保持的数据中的所述输出序列确定具有最高奖励的K个输出序列;以及修改所保持的数据以识别所确定的K个输出序列和用于所述K个输出序列中的每个的所述相应奖励。2.根据权利要求1所述的方法,其中,对于每个所选择的序列,确定增加由所述控制器神经网络分配给所选择的输出序列的分值的、对所述控制器参数的所述当前值的相应第一更新包括:确定优先级队列目标函数的梯度,所述梯度取决于由所述神经网络分配给所选择的序列的所述分值的对数。3.根据权利要求1或2中的任一项所述的方法,其中,从所述组的输出序列中选择所述输出序列中的至少一个包括:选择所述组中的所有输出序列。4.根据权利要求1或2中的任一项所述的方法,其中,从所述组的输出序列中选择所述输出序列中的至少一个包括:从所述组选择随机输出序列。5.根据权利要求1-4中的任一项所述的方法,进一步包括:使用强化学习技术确定对所述控制器参数的所述当前值的第二更新,所述第二更新增加对于由所述控制器神经网络生成的输出序列所接收的所述奖励。6.根据权利要求5所述的方法,其中,所述强化学习技术是策略梯...
【专利技术属性】
技术研发人员:穆罕默德·诺劳兹,丹尼尔·阿伦·阿沃拉菲亚,国·V·勒,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。