【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
1、本说明书涉及使用神经网络来对网络输入执行机器学习任务。
2、神经网络是采用一层或多层非线性单元来预测所接收的输入的输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作到网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每一层根据相应的参数集的当前值从所接收的输入生成输出。
技术实现思路
1、本说明书描述了一种在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统,该系统使用包括一个或多个注意力层的神经网络来针对所接收的网络输入生成网络输出。一个或多个计算机可以包括一个或多个机器学习加速器,例如,一个或多个tpu、gpu和/或其他asic。
2、取代首先应用注意力机制并且然后使用前馈神经网络来处理注意力机制的输出的是,每个注意力层都包括门控注意力单元,该门控注意力单元对应用于注意力层的输入序列的注意力机制的输出和应用于注意力层的输入序列的一个或多个前馈层的输出进行“门控”。
3、可实现本说明
...【技术保护点】
1.一种用于对网络输入执行机器学习任务以生成网络输出的系统,所述系统包括一个或多个计算机和一个或多个存储装置,所述一个或多个存储装置存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实现:
2.如权利要求1所述的系统,所述操作还包括:
3.如权利要求2所述的系统,其中,每个层输入的所述相应的层输出是所述层输入的所述相应的更新后的输出。
4.如权利要求2所述的系统,所述操作还包括:
5.如任一项前述权利要求所述的系统,其中,将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括:
...【技术特征摘要】
【国外来华专利技术】
1.一种用于对网络输入执行机器学习任务以生成网络输出的系统,所述系统包括一个或多个计算机和一个或多个存储装置,所述一个或多个存储装置存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实现:
2.如权利要求1所述的系统,所述操作还包括:
3.如权利要求2所述的系统,其中,每个层输入的所述相应的层输出是所述层输入的所述相应的更新后的输出。
4.如权利要求2所述的系统,所述操作还包括:
5.如任一项前述权利要求所述的系统,其中,将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括:
6.如权利要求5所述的系统,其中,每个层输入的所述相应的键和所述相应的值从通过使用所述一个或多个第三前馈神经网络层处理所述层输入生成的相同共享表示导出。
7.如权利要求5或权利要求6所述的系统,其中,每个查询和键的维数小于所述层输入和所述层输出的维数。
8.如权利要求5至7中任一项所述的系统,其中,包括所述层输入的所述相应的注意力权重集的矩阵a满足:
9.如权利要求8所述的系统,其中,b是相对位置偏差。
10.如权利要求1至5中任一项所述的系统,其中,所述注意力机制是线性注意力机制。
11.如权利要求1至5中任一项所述的系统,其中,所述注意力机制是部分注意力机制。
12.如权利要求1至5中任一项所述的系统,其中,所述层输入被分割为多个块,并且其中,将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括:
13.如权利要求12所述的系统,其中,将所述层输入的所述相应的线性关注输入与层输入的所述相应的二次关注输入组合以生成所述层输入的所述关注输入包括将所述层输入的所述相应的线性关注输入与层输入的所述相应的二次关注输入相加以生成所述层输入的所述关注输入。
14.如权利要求12或13所述的系统,其中,使用所述块中的所述层输入的所述相应的查询、...
【专利技术属性】
技术研发人员:刘寒骁,华惟哲,戴自航,国·V·勒,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。