门控注意力神经网络制造技术

技术编号：33262277 阅读：17 留言：0更新日期：2022-04-30 23:12

描述了一种包括注意力神经网络的系统，该注意力神经网络被配置为接收输入序列并处理输入序列以生成输出。注意力神经网络包括：注意力块，其被配置为接收从注意力块输入导出的查询输入、键输入和值输入。注意力块包括注意力神经网络层，其被配置为：接收从查询输入、键输入和值输入导出的注意力层输入，并将注意力机制应用于查询输入、键输入和值输入以生成注意力神经网络层的注意力层输出；以及门控神经网络层，其被配置为将门控机制应用于注意力块输入和注意力神经网络层的注意力层输出，以生成门控注意力输出。成门控注意力输出。成门控注意力输出。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】门控注意力神经网络

[0001]本申请是于2019年9月25日提交的美国临时专利申请No.62/906,032的非临时申请并要求其优先权，其全部内容通过引用并入本文。

技术介绍

[0002]本说明书涉及使用注意力神经网络处理输入序列以生成输出的系统。
[0003]神经网络是机器学习模型，其使用一层或多层非线性单元来预测接收输入的输出。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层的输入，即下一个隐藏层或输出层。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

[0004]本说明书描述了在一个或多个位置的一个或多个计算机上实现为计算机程序的神经网络系统，该系统包括配置为接收输入序列并处理输入序列以生成输出的注意力神经网络。
[0005]注意力神经网络可以包括注意力块，该注意力块被配置为接收从注意力块输入导出的查询输入、键输入和值输入。注意力块可以包括注意力神经网络层。
[0006]注意力神经网络层可以被配置为接收从查询输入、键输入和值输入导出的注意力层输入，并将注意力机制应用于注意力层输入以生成用于注意力神经网络层的注意力层输出。
[0007]注意力块还可以包括门控神经网络层，其被配置为将门控机制应用于注意力块输入和注意力神经网络层的注意力层输出以生成门控注意力输出。注意力块输入例如可以是来自注意力神经网络中前一个注意力块的输出的嵌入或从输入序列或输入序列本身导出的嵌入。
[0008]注意力块还可以包括...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统，当由所述一个或多个计算机执行时，所述指令使所述一个或多个计算机实现注意力神经网络，所述注意力神经网络被配置为接收输入序列并处理所述输入序列以生成输出，所述注意力神经网络包括：注意力块，所述注意力块被配置为接收从注意力块输入导出的查询输入、键输入和值输入，所述注意力块包括：注意力神经网络层，所述注意力神经网络层配置为：接收从所述查询输入、所述键输入和所述值输入导出的注意力层输入，以及将注意力机制应用于所述注意力层输入，以生成所述注意力神经网络层的注意力层输出；以及门控神经网络层，所述门控神经网络层被配置为将门控机制应用于所述注意力块输入和所述注意力神经网络层的所述注意力层输出，以生成门控注意力输出。2.根据权利要求1所述的系统，其中，所述注意力块还包括第一层归一化层，所述第一层归一化层被配置为将层归一化操作应用于所述查询输入、所述键输入和所述值输入以生成归一化查询输入、归一化键输入和归一化值输入，并且其中所述注意力层输入包括所述归一化查询输入、所述归一化键输入和所述归一化值输入。3.根据权利要求1或2中任一项所述的系统，其中，将所述门控机制应用于所述注意力块输入和所述注意力层输出包括：将sigmoid调制应用于所述注意力块输入以生成第一sigmoid调制输出；以及将所述第一sigmoid调制输出与所述注意力层输出组合以生成所述门控注意力输出。4.根据权利要求1或2中任一项所述的系统，其中，将所述门控机制应用于所述注意力块输入和所述注意力层输出包括：将sigmoid调制应用于所述注意力层输出以生成第二sigmoid调制输出，以及将所述第二sigmoid调制输出与所述注意力块输入组合以生成所述门控注意力输出。5.根据权利要求1或2中任一项所述的系统，其中，将所述门控机制应用...

【专利技术属性】
技术研发人员：埃米利奥，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人