通用变换器制造技术

技术编号:25811699 阅读:39 留言:0更新日期:2020-09-29 18:47
方法、系统和装置,包括在计算机存储介质上编码的计算机程序,用于实现在深度上递归的同时采用自注意力来组合来自序列的不同部分的信息的序列到序列模型。

【技术实现步骤摘要】
【国外来华专利技术】通用变换器
技术介绍
诸如变换器(Transformer)的自注意力前馈序列模型已示出在包括机器翻译、图像生成和选区解析的序列建模任务上实现给人深刻印象的结果,从而为递归神经网络呈现不可抗拒的替代方案,这些递归神经网络是许多序列建模问题的事实标准架构。然而,不管这些成功,变换器未能在递归模型轻松处理的一些任务中推广。这包括当字符串或公式长度超过在训练时观察到的那些长度时复制字符串或简单逻辑推理。变换器模型在可在https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf处获得的Vaswani等人,AttentionIsAllYouNeed,31stConferenceonNeuralInformationProcessingSystems(NIPS2017),LongBeach,CA,US中有所描述。此论文通过引用并入在这里。
技术实现思路
本说明书描述了实现通用变换器(UniversalTransformer)的系统。通用变换器尤其解决了以上
技术介绍
中描述的缺点。代替常见的序列对齐递归,通用变换器是在深度上递归,同时采用自注意力来组合来自序列的不同部分的信息。通用变换器将自注意力前馈模型的理想并行性与非常适于一系列算法和自然语言问题的归纳偏置组合。通过跨层(深度)绑定参数,能够将通用变换器视为通过针对若干步(在深度上)遍及序列中的所有符号并行应用递归变换来迭代地细化其序列的编码。通用变换器具有附加计算有利的特征。例如,与变换器模型不同,通用变换器是计算通用的,意味着模型能够用于模拟任何图灵机。此外,能够在训练之后动态地改变通用变换器的计算步数,因为模型跨其顺序计算步共享权重。因此,能够将由模型采用的深度动态地缩放到输入序列的大小和/或复杂度。在若干任务上的实验中,通用变换器一贯优于前馈变换器和LSTM(长短期记忆)递归神经网络显著地改进。通用变换器的自适应变体按照序列中的位置采用自适应计算时间机制。当运行固定数目的步时,通用变换器相当于其参数跨层绑定的变换器。然而,在其自适应形式方面,通用变换器能够有效地插置在前馈固定深度变换器与取决于输入数据运行许多步的门控递归架构之间。在实验中,自适应变体在多种语言理解任务上实现了现有技术水平结果。通用变换器任选地在序列的每个位置处应用动态自适应计算时间(ACT)暂停机制。ACT机制在可在https://arxiv.org/pdf/1603.08983.pdf处获得的Graves,Adaptivecomputationtimeforrecurrentneuralnetworks,arXivpreprintarXiv:1603.08983,2016中有所描述。能够在特定实施例中实现本说明书中描述的主题,以便实现以下优点中的一个或多个。所述类型的通用变换器系统能够用于实现自回归序列到序列模型,其中此类模型用于生成输出。自回归模型的应用的示例包括文本的概括从一种自然语言到另一种自然语言的机器翻译,其中输出是句子中的单词的序列、语音到文本和文本到语音,涉及单词和音素的序列。其它示例应用包括图像生成、语言建模和解析,例如选区解析。其它示例包括基于图像的序列的应用,包括自动驾驶汽车和机器人控制中的应用。例如,根据包括这种模型的真实或虚拟物理系统的输入的序列,例如图像,能够输出用于控制在物理系统中或与物理系统一起操作的机器的动作的序列。能够在具有GPU和其它加速器硬件的计算机系统中有利地实现这些技术,以利用通用变换器的并行计算结构。在下面的附图和描述中阐述本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求书,主题的其它特征、方面和优点将变得显而易见。附图说明图1是图示示例通用变换器对序列的操作的图。图2是用于对源序列进行编码的示例过程的流程图。图3是用于对目标序列进行解码的示例过程的流程图。图4图示通用变换器的示例架构。图5图示对序列中每元素的许多处理步骤的动态选择。在各个附图中,相似的附图标记和名称指示相似的元素。具体实施方式图1是图示示例通用变换器对序列的操作的图。图1中图示的计算结构能够用于在在一个或多个位置中具有一个或多个计算机的编码器计算机系统或解码器计算机系统上实现编码器或解码器。为了简单,将示例描述为被实现在一个或多个计算机的系统上。如上所述,能够在并行处理系统上实现通用变换器的计算结构,其中并行处理系统的每个计算资源执行序列中的一个或多个位置的操作。通常,为了实现编码器或解码器,系统能够遍及M个序列位置执行相同系列的编码或解码操作,可能并行进行T次迭代。如将在下面更详细地描述的,在一些实现方式中,系统能够自适应地将更多的计算资源投入于一些位置而将更少的资源投入于其它位置。在一些实现方式中,系统跨所有位置和所有时间步使用相同的参数值。在每个位置处每个时间步的操作能够包括至少自注意力过程和转换函数。例如,在步t,系统能够使用自注意力过程112a和转换函数114a来处理序列中的第一元素,h1表示105a。系统然后能够更新h1表示105a并且重复相同步骤以进行T次迭代。类似地,系统能够使用自注意力过程112b后面接着转换函数114b进行T次迭代来处理序列中的第二元素,h2表示105b,并且更新h2表示105b。同样地,系统能够使用自注意力过程112m后面接着转换函数114m进行T次迭代来处理序列中的最后元素,hm表示105m,并且更新hm表示105m。尽管在图1中示出了针对仅三个序列位置的计算,但是序列能够具有任一任意长度。因此,为了改进计算性能,系统能够在任何适当的并行处理硬件上实现计算。例如,每个步操作能够由GPU的不同流多处理器或多核心CPU的不同处理核心来实现。替换地或此外,每个步操作能够由分布式系统中的不同计算机来执行。如图1中所示,针对每个序列位置的自注意力过程112a-m能够使用其它序列位置的当前表示作为输入。换句话说,在每步,系统能够将特定位置的输出以迄今为止针对一个或多个其它位置生成的表示为条件。当正在以并行处理执行操作时,能够将表示存储在中央可访问的位置中,或者在每步之后将表示广播给执行操作的所有处理器。如将在下面更详细地描述的,用于解码器的自注意力过程也能够包括第二阶段注意力过程,该第二阶段注意力过程使用由编码器生成的最终表示作为输入。图2是用于对源序列进行编码的示例过程的流程图。该示例过程能够由一个或多个位置中的一个或多个计算机的适当地编程的系统来执行。该过程将被描述为由一个或多个计算机的系统来执行。系统接收输入序列(210)。如上所述,通用变换器广泛地适用于大量的序列到序列学习任务。因此,输入序列可以是序列到序列学习任务中的元素的任何适当的输入序列。常见的序列到序列学习任务包括:问答任务,在此情况下输入序列是问句子中的单词;主语-动词一致任务,在此情况下输入序列是自然语言句子中的单词;预测遗本文档来自技高网...

【技术保护点】
1.一种由一个或多个计算机实现的系统,所述系统包括:/n编码器,所述编码器被配置成接收每个具有相应的初始输入表示的元素的输入序列并且通过并行地对所述序列的所有元素迭代地应用相同系列的操作来修订所述输入表示,从而对于至多预定最大数目的步,在递归中利用每步修订所述元素的表示;和/n解码器,所述解码器被配置成在每步以先前生成的符号和所述编码器针对所述序列的最终输出为条件的同时自回归地对目标符号序列y=(y1,...,yn)进行解码。/n

【技术特征摘要】
【国外来华专利技术】20180518 US 62/673,8311.一种由一个或多个计算机实现的系统,所述系统包括:
编码器,所述编码器被配置成接收每个具有相应的初始输入表示的元素的输入序列并且通过并行地对所述序列的所有元素迭代地应用相同系列的操作来修订所述输入表示,从而对于至多预定最大数目的步,在递归中利用每步修订所述元素的表示;和
解码器,所述解码器被配置成在每步以先前生成的符号和所述编码器针对所述序列的最终输出为条件的同时自回归地对目标符号序列y=(y1,...,yn)进行解码。


2.根据权利要求1所述的系统,其中,所述输入表示中的每一个与相应的输入元素相对应。


3.根据权利要求2所述的系统,其中,所述输入元素包括单词并且所述输入表示包括所述单词的相应的单词嵌入,其中,所述单词嵌入是单词的向量表示。


4.根据权利要求1-3中的任一项所述的系统,其中:
所述编码器被配置成通过递归地应用所述相同系列的操作来迭代地应用所述相同系列的操作。


5.根据权利要求1-4中的任一项所述的系统,其中:
所述输入序列的长度为m并且所述表示是d维的;以及
所述编码器被配置成:
对矩阵进行初始化,所述矩阵具有m行,每一行针对所述序列的每个项,所述项的表示的d个元素在所述矩阵的该行中的d个列中;并且
通过应用多头点乘积自注意力机制然后应用递归转换函数,对于从1到T的迭代深度的步t,迭代地计算步t处的表示Ht。


6.根据权利要求5所述的系统,其中:
Ht=LayerNorm(At-1+Transition(At))
其中At=LayerNorm(Ht-1+MultiHeadSelfAttention(Ht-1+Pt)),
并且所述Pt是通过针对每个维度(i)分离地对于所述位置和所述时间步(pos)垂直地和水平地计算以下正弦位置嵌入向量并且在应用自注意力之前按分量合计这些而获得的二维(位置,时间)坐标嵌入:




以及
所述多头自注意力被按k个头计算为
MultiHeadSelfAttention(H)=Concat(head1,...,headk)WO
其中
投影是以下学习到的参数矩阵:


并且所述注意力是根据下式的定标点积注意力



其中d是Q、K和V的列数以及所述符号表示的维数。


7.根据权利要求6所述的系统,其中,所述转换函数是全连接神经网...

【专利技术属性】
技术研发人员:穆斯塔法·德哈尼斯特凡·古维斯奥里奥尔·温亚尔斯雅各布·D·乌斯克雷特卢卡什·米奇斯瓦夫·凯泽
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1