【技术实现步骤摘要】
【国外来华专利技术】通用变换器
技术介绍
诸如变换器(Transformer)的自注意力前馈序列模型已示出在包括机器翻译、图像生成和选区解析的序列建模任务上实现给人深刻印象的结果,从而为递归神经网络呈现不可抗拒的替代方案,这些递归神经网络是许多序列建模问题的事实标准架构。然而,不管这些成功,变换器未能在递归模型轻松处理的一些任务中推广。这包括当字符串或公式长度超过在训练时观察到的那些长度时复制字符串或简单逻辑推理。变换器模型在可在https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf处获得的Vaswani等人,AttentionIsAllYouNeed,31stConferenceonNeuralInformationProcessingSystems(NIPS2017),LongBeach,CA,US中有所描述。此论文通过引用并入在这里。
技术实现思路
本说明书描述了实现通用变换器(UniversalTransformer)的系统。通用变换器尤其解决了以上
技术介绍
中描述的缺点。代替常见的序列对齐递归,通用变换器是在深度上递归,同时采用自注意力来组合来自序列的不同部分的信息。通用变换器将自注意力前馈模型的理想并行性与非常适于一系列算法和自然语言问题的归纳偏置组合。通过跨层(深度)绑定参数,能够将通用变换器视为通过针对若干步(在深度上)遍及序列中的所有符号并行应用递归变换来迭代地细化其序列的编码。通用变换器具有附加计算有利的特征。例如,与变换器模型不同, ...
【技术保护点】
1.一种由一个或多个计算机实现的系统,所述系统包括:/n编码器,所述编码器被配置成接收每个具有相应的初始输入表示的元素的输入序列并且通过并行地对所述序列的所有元素迭代地应用相同系列的操作来修订所述输入表示,从而对于至多预定最大数目的步,在递归中利用每步修订所述元素的表示;和/n解码器,所述解码器被配置成在每步以先前生成的符号和所述编码器针对所述序列的最终输出为条件的同时自回归地对目标符号序列y=(y1,...,yn)进行解码。/n
【技术特征摘要】
【国外来华专利技术】20180518 US 62/673,8311.一种由一个或多个计算机实现的系统,所述系统包括:
编码器,所述编码器被配置成接收每个具有相应的初始输入表示的元素的输入序列并且通过并行地对所述序列的所有元素迭代地应用相同系列的操作来修订所述输入表示,从而对于至多预定最大数目的步,在递归中利用每步修订所述元素的表示;和
解码器,所述解码器被配置成在每步以先前生成的符号和所述编码器针对所述序列的最终输出为条件的同时自回归地对目标符号序列y=(y1,...,yn)进行解码。
2.根据权利要求1所述的系统,其中,所述输入表示中的每一个与相应的输入元素相对应。
3.根据权利要求2所述的系统,其中,所述输入元素包括单词并且所述输入表示包括所述单词的相应的单词嵌入,其中,所述单词嵌入是单词的向量表示。
4.根据权利要求1-3中的任一项所述的系统,其中:
所述编码器被配置成通过递归地应用所述相同系列的操作来迭代地应用所述相同系列的操作。
5.根据权利要求1-4中的任一项所述的系统,其中:
所述输入序列的长度为m并且所述表示是d维的;以及
所述编码器被配置成:
对矩阵进行初始化,所述矩阵具有m行,每一行针对所述序列的每个项,所述项的表示的d个元素在所述矩阵的该行中的d个列中;并且
通过应用多头点乘积自注意力机制然后应用递归转换函数,对于从1到T的迭代深度的步t,迭代地计算步t处的表示Ht。
6.根据权利要求5所述的系统,其中:
Ht=LayerNorm(At-1+Transition(At))
其中At=LayerNorm(Ht-1+MultiHeadSelfAttention(Ht-1+Pt)),
并且所述Pt是通过针对每个维度(i)分离地对于所述位置和所述时间步(pos)垂直地和水平地计算以下正弦位置嵌入向量并且在应用自注意力之前按分量合计这些而获得的二维(位置,时间)坐标嵌入:
以及
所述多头自注意力被按k个头计算为
MultiHeadSelfAttention(H)=Concat(head1,...,headk)WO
其中
投影是以下学习到的参数矩阵:
和
并且所述注意力是根据下式的定标点积注意力
其中d是Q、K和V的列数以及所述符号表示的维数。
7.根据权利要求6所述的系统,其中,所述转换函数是全连接神经网...
【专利技术属性】
技术研发人员:穆斯塔法·德哈尼,斯特凡·古维斯,奥里奥尔·温亚尔斯,雅各布·D·乌斯克雷特,卢卡什·米奇斯瓦夫·凯泽,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。