【技术实现步骤摘要】
【国外来华专利技术】
本公开总体上涉及神经网络。更具体地,本公开涉及实现和训练利用实现计算效率的层跳过逻辑的神经网络架构。
技术介绍
1、近年来,利用通用语料库训练的基于transformer的大规模语言模型已经表现出巨大的泛化改进,特别是在上下文少样本学习(in-context few-shot learning)方面。尽管文本生成的能力引人瞩目,但训练和部署(serve)这些巨型模型并非易事,即使硬件和软件新近有进展也是如此。主要挑战之一在于,处理每个输入都需要激活模型的所有参数,这通常导致每次预测需要数万亿浮点运算(flop)。这给模型训练和推断两者带来大负担,因为不存在对可被指派给每个输入示例的计算量的控制。
技术实现思路
1、本公开的实施例的方面和优点将部分地在以下描述中阐述,或者可从该描述中了解,或者可通过实践实施例来了解。
2、本公开的一个示例方面涉及一种方法,该方法包括将第一数据对象集合提供给神经网络(nn)的第一跳过路由器。nn进一步包括第一nn层和第二nn层。基于由第一跳过路由器
...【技术保护点】
1.一种计算系统,包括:
2.如权利要求1所述的计算系统,其中所述NN进一步包括第二跳过路由器和第三NN层,并且确定所述一个或多个预测包括:
3.如权利要求1所述的计算系统,其中所述第一NN层是所述NN的NN层集合中的第一前馈层FFL。
4.如权利要求3所述的计算系统,其中所述第一非跳过对象集合是有序集合,并且所述操作进一步包括:
5.如权利要求4所述的计算系统,其中所述第一非跳过对象子集与所述第二非跳过对象子集被提供给第一FFL串联地被提供给所述第一FFL。
6.如权利要求4所述的计算系统,其中所述第一非跳
...【技术特征摘要】
【国外来华专利技术】
1.一种计算系统,包括:
2.如权利要求1所述的计算系统,其中所述nn进一步包括第二跳过路由器和第三nn层,并且确定所述一个或多个预测包括:
3.如权利要求1所述的计算系统,其中所述第一nn层是所述nn的nn层集合中的第一前馈层ffl。
4.如权利要求3所述的计算系统,其中所述第一非跳过对象集合是有序集合,并且所述操作进一步包括:
5.如权利要求4所述的计算系统,其中所述第一非跳过对象子集与所述第二非跳过对象子集被提供给第一ffl串联地被提供给所述第一ffl。
6.如权利要求4所述的计算系统,其中所述第一非跳过对象子集至少包括第一非跳过对象和第二非跳过对象,所述第二非跳过对象子集至少包括第三非跳过对象和第四非跳过对象,并且所述操作进一步包括:
7.如权利要求4所述的计算系统,其中所述第一非跳过对象与所述第二非跳过对象被提供给所述第一ffl的所述第二实现方式并行地被提供给所述第一ffl的所述第一实现方式,并且所述第三非跳过对象与所述第四非跳过对象被提供给所述第一ffl的所述第二实现方式并行地被提供给所述第一ffl的所述第一实现方式。
8.如权利要求7所述的计算系统,其中所述第一非跳过对象与所述第三非跳过对象被提供给所述第一ffl的所述第一实现方式串联地被提供给所述第一ffl的所述第一实现方式,并且所述第二非跳过对象与所述第四非跳过对象被提供给所述第一ffl的所述第二实现方式串联地被提供给所述第一ffl的所述第二实现方式。
9.如权利要求4所述的计算系统,其中所述第一非跳过对象子集的第一基数和所述第二非跳过对象子集的第二基数是由所述nn的超参数指示的。
10....
【专利技术属性】
技术研发人员:杜楠,D·曾,王韬,徐元仲,周彦祺,雷涛,A·M·戴,Z·陈,Y·崔,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。