以全向处理为特征的机器学习注意力模型制造技术

技术编号:33633606 阅读:16 留言:0更新日期:2022-06-02 01:42
提供了以全向处理为特征的机器学习注意力模型,其示例实施方式可以被称为来自变换器的全向表示(OMNINET)。在本公开中描述的示例模型中,允许每个令牌关注整个网络中的一些或所有其他令牌中的所有令牌,而不是维持严格水平的接受域。平的接受域。平的接受域。

【技术实现步骤摘要】
以全向处理为特征的机器学习注意力模型
[0001]相关申请的交叉引用
[0002]本申请要求美国临时专利申请第63/145920号的优先权和权益,该申请通过引用整体结合于此。


[0003]本公开总体上涉及机器学习。更具体地,本公开涉及以全向处理为特征的机器学习注意力模型。

技术介绍

[0004]各种形式的机器学习模型利用了注意力机制。注意力是一种模仿认知注意力的技术,并且可以增强输入数据的重要部分,同时降低与手头任务不太相关的数据部分的影响。这样,注意力机制可以使计算系统能够将更多计算能力投入到数据的小而重要的部分。数据的哪一部分比其他部分更重要取决于上下文,并且在一些情况下可以通过梯度下降通过训练数据来学习。
[0005]注意力机制广泛用于各种机器学习模型,包括自然语言处理和计算机视觉。作为一个示例,变换器(Transformer)模型(参见:Vaswani等人,Attention is all you need,Advances in neural information processing systems,pp.本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于基于全向注意力的处理的计算系统,所述计算系统包括:一个或多个处理器;以及一个或多个非暂时性计算机可读介质,其共同存储:机器学习多层注意力模型,所述机器学习多层注意力模型包括多个自我注意力层,其中,所述多层注意力模型被配置为处理第一输入以生成第一输出;机器学习全向模型,被配置为:接收当处理所述第一输入以生成所述第一输出时分别在所述机器学习多层注意力模型的多个自我注意力层中的两个或更多个自我注意力层处生成的多个中间层表示;以及处理所述多个中间层表示以生成第二输出;以及指令,当所述指令由所述一个或多个处理器执行时使得所述计算系统执行操作,所述操作包括:向所述机器学习多层注意力模型提供所述第一输入,以使得生成所述第一输出;提供分别在所述机器学习多层注意力模型的多个自我注意力层中的两个或更多个自我注意力层处生成的多个中间层表示作为对所述机器学习全向模型的输入,以使得生成所述第二输出。2.根据权利要求1所述的计算系统,其中,所述机器学习全向模型包括一个或多个自我注意力层。3.根据权利要求2所述的计算系统,其中,所述机器学习全向模型的一个或多个自我注意力层中的至少一个自我注意力层执行基于内核的注意力。4.根据权利要求2所述的计算系统,其中,所述机器学习全向模型的一个或多个自我注意力层中的至少一个自我注意力层执行低秩注意力,其中,低秩投影变换跨多个头或者多个键和值参数共享。5.根据权利要求2所述的计算系统,其中,所述机器学习全向模型的一个或多个自我注意力层中的至少一个自我注意力层执行基于块和存储器的注意力,其中,在邻域内执行注意力。6.根据权利要求1所述的计算系统,其中,提供所述多个中间层表示作为对所述机器学习全向模型的输入包括:执行索引排序操作以根据索引对每个中间层表示内的令牌进行排序。7.根据权利要求1所述的计算系统,其中,提供所述多个中间层表示作为对所述机器学习全向模型的输入包括:从所述机器学习多层注意力模型的多个自我注意力层中的两个或更多个自我注意力层的多个不同分区中分别获得相应中间层表示;以及将来自所述多个不同分区的相应中间层表示分别输入到所述机器学习全向模型中。8.根据权利要求1所述的计算系统,其中,所述操作还包括将池化函数应用于所述第二输出。9.根据权利要求1所述的计算系统,其中,所述操作还包括至少部分基于所述第一输出和所述第二输出来确定最后输出。10.根据权利要求1所述的计算系统,其中,所述机器学习多层注意力模型包括变换器模型。
11.根据权利要求1所述的计算系统,其中,所述第一输入包括自然语言输入或图像输入。12.一个或多个非暂时性计算机可读介质,其共同存储:多层注意力模型,所述多层注意力模型包括多个自我注意力层,...

【专利技术属性】
技术研发人员:Y泰伊DC隽D巴赫里DA小梅兹勒JP古普塔M德哈尼P法姆VK阿里班迪Z秦
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1