具有门控注意力单元的注意力神经网络制造技术

技术编号:42802256 阅读:22 留言:0更新日期:2024-09-24 20:47
方法、系统和设备,包括被编码在计算机存储介质上的计算机程序,用于对网络输入执行机器学习任务以生成网络输出。在一个方面,这些系统中的一者包括被配置为执行机器学习任务的神经网络,该神经网络包括一个或多个注意力层,每个注意力层包括门控注意力单元。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、本说明书涉及使用神经网络来对网络输入执行机器学习任务。

2、神经网络是采用一层或多层非线性单元来预测所接收的输入的输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作到网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每一层根据相应的参数集的当前值从所接收的输入生成输出。


技术实现思路

1、本说明书描述了一种在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统,该系统使用包括一个或多个注意力层的神经网络来针对所接收的网络输入生成网络输出。一个或多个计算机可以包括一个或多个机器学习加速器,例如,一个或多个tpu、gpu和/或其他asic。

2、取代首先应用注意力机制并且然后使用前馈神经网络来处理注意力机制的输出的是,每个注意力层都包括门控注意力单元,该门控注意力单元对应用于注意力层的输入序列的注意力机制的输出和应用于注意力层的输入序列的一个或多个前馈层的输出进行“门控”。

3、可实现本说明书中所描述的主题的特本文档来自技高网...

【技术保护点】

1.一种用于对网络输入执行机器学习任务以生成网络输出的系统,所述系统包括一个或多个计算机和一个或多个存储装置,所述一个或多个存储装置存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实现:

2.如权利要求1所述的系统,所述操作还包括:

3.如权利要求2所述的系统,其中,每个层输入的所述相应的层输出是所述层输入的所述相应的更新后的输出。

4.如权利要求2所述的系统,所述操作还包括:

5.如任一项前述权利要求所述的系统,其中,将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括:p>

6.如权利...

【技术特征摘要】
【国外来华专利技术】

1.一种用于对网络输入执行机器学习任务以生成网络输出的系统,所述系统包括一个或多个计算机和一个或多个存储装置,所述一个或多个存储装置存储指令,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机实现:

2.如权利要求1所述的系统,所述操作还包括:

3.如权利要求2所述的系统,其中,每个层输入的所述相应的层输出是所述层输入的所述相应的更新后的输出。

4.如权利要求2所述的系统,所述操作还包括:

5.如任一项前述权利要求所述的系统,其中,将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括:

6.如权利要求5所述的系统,其中,每个层输入的所述相应的键和所述相应的值从通过使用所述一个或多个第三前馈神经网络层处理所述层输入生成的相同共享表示导出。

7.如权利要求5或权利要求6所述的系统,其中,每个查询和键的维数小于所述层输入和所述层输出的维数。

8.如权利要求5至7中任一项所述的系统,其中,包括所述层输入的所述相应的注意力权重集的矩阵a满足:

9.如权利要求8所述的系统,其中,b是相对位置偏差。

10.如权利要求1至5中任一项所述的系统,其中,所述注意力机制是线性注意力机制。

11.如权利要求1至5中任一项所述的系统,其中,所述注意力机制是部分注意力机制。

12.如权利要求1至5中任一项所述的系统,其中,所述层输入被分割为多个块,并且其中,将注意力机制应用于所述输入序列以生成每个相应的层输入的相应的关注层输入包括:

13.如权利要求12所述的系统,其中,将所述层输入的所述相应的线性关注输入与层输入的所述相应的二次关注输入组合以生成所述层输入的所述关注输入包括将所述层输入的所述相应的线性关注输入与层输入的所述相应的二次关注输入相加以生成所述层输入的所述关注输入。

14.如权利要求12或13所述的系统,其中,使用所述块中的所述层输入的所述相应的查询、...

【专利技术属性】
技术研发人员:刘寒骁华惟哲戴自航国·V·勒
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1