【技术实现步骤摘要】
【国外来华专利技术】通过扩张的自注意力来捕获上下文的人工智能系统
[0001]本公开总体上涉及人工智能(AI),并且更具体地,涉及通过扩张的自注意力(dilated self
‑
attention)来捕获上下文的AI系统。
技术介绍
[0002]现今,注意力机制已经成为用于包括机器翻译、语音处理、语言建模、自动语音识别(ASR)、计算机视觉等不同人工智能(AI)应用的许多神经网络(NN)架构中的中心组件。此外,自注意力机制也是广泛使用的神经网络组件。自注意力机制允许输入彼此交互(“自交互”),并且找出他们应当更注意谁(“注意力”),以便对于给定任务以最佳方式计算输出。使用这种自注意力机制的神经网络组件的输出是这些交互的聚集。
[0003]基于注意力的架构(诸如,变换器架构)已经成功地应用于所有模型组件都利用注意力的各种领域。增加模型参数的数量以使用更深且更宽的架构来进一步改善结果。基于注意力的架构处理不同长度(也被称为“输入序列长度”)的输入。通常,基于注意力的架构的计算复杂度取决于输入序列长度。而且,自注意力机制的计 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于通过探索输入序列中的输入对彼此的相互依赖性来联合地解释所述输入的人工智能(AI)系统,所述AI系统包括:至少一个处理器;以及存储器,所述存储器上存储有指令,所述指令在由所述至少一个处理器执行时,使所述AI系统:接受输入帧序列;利用神经网络处理所述输入帧序列,所述神经网络包括至少一个扩张的自注意力模块,所述至少一个扩张的自注意力模块被训练成,通过以下操作,根据所述输入帧序列来计算对应的输出序列:将所述输入帧序列中的各个输入帧变换成对应的查询帧、对应的键帧以及对应的值帧,从而导致具有相同排序的键帧序列、值帧序列以及查询帧序列;以及关于与所述键帧的扩张序列和所述值帧的扩张序列相组合的所述键帧序列和所述值帧序列中的基于所述查询帧在所述查询帧序列中的位置而受限的一部分来执行针对所述查询帧序列中的各个查询帧的注意力计算,所述键帧的扩张序列和所述值帧的扩张序列是通过利用预定提取函数来处理所述键帧序列和所述值帧序列中的不同帧来提取的;并且呈现所述输出序列。2.根据权利要求1所述的AI系统,其中,为了通过扩张机制来生成所述键帧的扩张序列和所述值帧的扩张序列,所述至少一个处理器被配置成:将所述键帧序列和所述值帧序列划分成键组块序列和值组块序列,其中,各个键组块包括多个键帧,并且其中,各个值组块包括多个值帧;并且向所述键组块中的各个键组块并且向所述值组块中的各个值组块应用所述预定提取函数,以:将键组块中的所述多个键帧压缩成用于所述键帧的扩张序列的具有相同维数的更小预定数量的键帧;并且将值组块中的所述多个值帧压缩成用于所述值帧的扩张序列的具有相同维数的更小预定数量的值帧。3.根据权利要求2所述的AI系统,其中,所述处理器被配置成,使用并行计算处理同时压缩所述键组块中的至少一些键组块以及所述值组块中的至少一些值组块。4.根据权利要求2所述的AI系统,其中,所述预定提取函数是以下项中的一项或组合:采样函数、平均池化函数、最大池化函数、基于注意力的池化、以及基于卷积神经网络(CNN)的池化,其中,所述采样函数从所述键组块中的所述多个键帧中选择单个帧,并且从所述值组块中的所述多个值帧中选择对应的帧,其中,所述平均池化函数对所述键组块中的所述多个键帧的元素以及所述值组块中的所述多个值帧的元素进行平均,其中,所述最大池化函数从所述键组块中的所述多个键帧中选择具有最大能量的单个键帧,并且从所述值组块中的所述多个值帧中选择所述对应的帧,其中,所述基于注意力的池化根据通过将经训练的查询向量应用到所述键组块中的所述多个键帧而确定的权重,来组合所述键组块中的所述多个键帧和所述值组块中的所述多个值帧,并且其中,所述基于CNN的池化将具有经训练的权重以及与组块大小类似的核大小的卷积应用到所述键帧序列和所述值帧序列。
5.根据权利要求4所述的AI系统,其中,子采样和所述最大池化从键帧组块中选择单个键帧并从值帧组块中选择对应的值帧,并且忽略由其它帧包含的信息,其中,平均池化对键帧组块中的所有所述键帧以及键帧组块中的所有所述值帧进行同等地加权,并且其中,所述基于注意力的池化向键帧组块中的所述键帧或者向所述值帧组块中的所述值帧指派相关度以得出权重分布,并且使用所述权重分布来计算针对键帧组块的所有所述键帧的加权平均值并计算针对值帧组块的所有所述值帧的加权平均值。6.根据权利要求2所述的AI系统,其中,所述预定函数是基于注意力的池化,所述基于注意力的池化利用经训练的查询向量来注意所述键组块中的各个键组块,以确定所述键组块中的所述多个键帧的权重分布,并且利用根据所确定的权重分布选择的权重,来计算作为所述键组块中的所述多个键帧的加权平均值的用于所述键帧序列的所述扩张序列中的帧。7.根据权利要求2所述的AI系统,其中,所述预定函数是基于注意力的池化,所述基于注意力的池化利用经训练的查询向量来注意所述键组块中的各个键组块,以确定所述键组块中的所述多个键帧的权重分布,并且使用相同的所确定的权重分布,来计算作为所述值组块中的所述多个值帧的加权平均值的用于所述值帧序列的所述扩张序列中的帧。8.根据权利要求2所述的AI系统,其中,所述预定函数是基于注意力的池化,并且其中,所述基于注意力的池化使用多个经训练的查询向量,以通过注意所述键帧组块或者注意所述值帧组块来生成多个权重分布,并且使用所述多个权重分布来计算与所述键帧组块的加权平均值以及所述值帧组块的加权平均值相对应的多个输出帧,并且其中,所述处理器还被配置成,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。