System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 字符级注意力神经网络制造技术_技高网

字符级注意力神经网络制造技术

技术编号:39960170 阅读:6 留言:0更新日期:2024-01-08 23:59
用于对在多个字符位置中的每一个处具有相应字符的字符的输入序列执行机器学习任务以生成网络输出的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。系统中的一个包括被配置为执行机器学习任务的神经网络,该神经网络包括基于梯度的子词分词器和输出神经网络。基于梯度的子词分词器被配置为将学习的(即,灵活的)子词分词策略应用于字符的输入序列,以生成潜在子词表示序列。输出神经网络被配置为处理潜在子词表示以生成任务的网络输出。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、本说明书涉及使用神经网络来对文本输入执行机器学习任务。

2、神经网络是采用一层或多层非线性单元来预测接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应权重集合的当前值从接收到的输入生成输出。


技术实现思路

1、本说明书描述了一种在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统,该系统实现、训练或实现、训练神经网络以对网络输入执行机器学习任务以生成网络输出,该网络输入包括在多个字符位置中的每一个处具有相应字符的字符输入序列。如本文所使用的,“字符”是指字母、数字、符号、表意符等的一般概念,而“词”是指一组一个或多个字符。换句话说,虽然本说明书和下面的描述描述了对文本字符进行操作的系统,但是更一般地,所描述的技术可以用于学习和生成捕获序列内的元素的上下文的输入元素或输入词元(token)的任何序列的潜在输入表示。

2、本说明书中描述的主题可以在特定实施例中实现,以便实现以下优点中的一个或多个。

3、与被配置为在模型输入(例如,文本输入)的预处理期间执行依赖于单独且固定的分词(tokenization)算法的序列处理任务的许多现有机器学习模型不同,本说明书描述了用于训练神经网络系统以学习定制的子词(sub-word)分词策略的技术,作为系统在给定任务上的端到端训练的一部分。因此,神经网络系统相对于其他现有系统具有更小的存储器占用空间,因为不需要存储将输入字符映射到子词的固定模型,并且因此使其对于在存储器资源有限的硬件设备(例如,移动片上系统(soc)设备)上部署是实用的。一旦被训练,所描述的神经网络系统就可以在一系列任务上胜过现有技术,同时例如相对于现有的预训练的字符级和/或基于子词的模型另外可一般化并且容易地适应新任务,因为系统不需要学习每个新词汇的新子词模型,从而需要更少的计算开销来适应新任务。

4、另外,由于其在预处理顺序输入方面的灵活性质,如本说明书中描述的神经网络系统可以以减少的运行时延迟(例如,在对输入执行推断所需的挂钟时间方面)执行给定任务。换句话说,所描述的神经网络系统是快速的,有时是现有系统的三倍或更快,同时在任务上保持较高的质量性能。

5、在附图和下面的描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据说明书、附图和权利要求,主题的其他特征、方面和优点将变得清晰。

本文档来自技高网...

【技术保护点】

1.一种用于对字符的输入序列执行机器学习任务以生成网络输出的系统,所述字符的输入序列在多个字符位置中的每一个处具有相应字符,所述系统包括一个或多个计算机和一个或多个存储指令的存储设备,当由一个或多个计算机执行时,所述指令使得一个或多个计算机执行一个或多个操作以实现:

2.根据权利要求1所述的系统,其中,所述基于梯度的子词分词器还被配置为将下采样函数应用于多个字符位置处的潜在子词表示,以生成输出神经网络输入。

3.根据权利要求2所述的系统,其中,所述下采样函数包括非参数化平均池化函数。

4.根据权利要求1-3中任一项所述的系统,其中,所述输出神经网络包括一个或多个注意力神经网络层,每个注意力神经网络层被配置为:

5.根据权利要求1-4中的任一项所述的系统,其中,对于所述多个字符位置中的每个特定字符位置:每个候选子词块包括在从特定字符位置开始的一个或多个连续字符位置中的每一个处的相应字符嵌入。

6.根据权利要求1-5中的任一项所述的系统,其中,所述基于梯度的子词分词器被配置为基于将非参数化跨步池化函数应用于多个候选子词块中的每一个来为多个候选子词块中的每一个生成相应子词块嵌入,其中,所述跨步池化函数以不同的跨步配置应用于多个候选子词块中的每一个。

7.根据权利要求1-6中任一项所述的系统,其中,所述基于梯度的子词分词器还被配置为在生成多个候选子词块之前将字符嵌入序列移位一个或多个字符位置。

8.根据权利要求1-6中任一项所述的系统,其中,所述基于梯度的子词分词器还被配置为在生成多个候选子词块之前将一维卷积函数应用于字符嵌入序列。

9.根据权利要求1-8中任一项所述的系统,当也从属于权利要求6时,其中,所述基于梯度的子词分词器还被配置为,针对所述多个候选子词块中的每一个:

10.根据权利要求1-9中任一项所述的系统,其中,所述基于梯度的子词分词器被配置为基于将参数化线性变换函数应用于多个子词块嵌入中的每一个来确定多个子词块嵌入中的每一个的相应相关性分数。

11.根据权利要求1-10中任一项所述的系统,其中,所述基于梯度的子词分词器还被配置为通过计算多个字符位置处的子词块嵌入的相应相关性分数之间的点积来将逐位置校准应用于相应相关性分数。

12.一个或多个存储指令的计算机存储介质,当由一个或多个计算机执行时,所述指令使得所述一个或多个计算机实现根据权利要求1-11中任一项所述的神经网络。

13.一种方法,包括根据权利要求1-11中任一项所述的神经网络被配置为执行的操作。

14.根据权利要求13所述的方法,还包括通过基于优化监督学习目标函数联合训练所述基于梯度的子词分词器和所述输出神经网络来训练所述神经网络。

15.根据权利要求14所述的方法,其中,所述基于梯度的子词分词器已经基于优化不同的目标函数与不同的输出神经网络联合地被预训练。

16.根据权利要求15所述的方法,其中,所述不同的目标函数包括自监督学习目标函数。

...

【技术特征摘要】
【国外来华专利技术】

1.一种用于对字符的输入序列执行机器学习任务以生成网络输出的系统,所述字符的输入序列在多个字符位置中的每一个处具有相应字符,所述系统包括一个或多个计算机和一个或多个存储指令的存储设备,当由一个或多个计算机执行时,所述指令使得一个或多个计算机执行一个或多个操作以实现:

2.根据权利要求1所述的系统,其中,所述基于梯度的子词分词器还被配置为将下采样函数应用于多个字符位置处的潜在子词表示,以生成输出神经网络输入。

3.根据权利要求2所述的系统,其中,所述下采样函数包括非参数化平均池化函数。

4.根据权利要求1-3中任一项所述的系统,其中,所述输出神经网络包括一个或多个注意力神经网络层,每个注意力神经网络层被配置为:

5.根据权利要求1-4中的任一项所述的系统,其中,对于所述多个字符位置中的每个特定字符位置:每个候选子词块包括在从特定字符位置开始的一个或多个连续字符位置中的每一个处的相应字符嵌入。

6.根据权利要求1-5中的任一项所述的系统,其中,所述基于梯度的子词分词器被配置为基于将非参数化跨步池化函数应用于多个候选子词块中的每一个来为多个候选子词块中的每一个生成相应子词块嵌入,其中,所述跨步池化函数以不同的跨步配置应用于多个候选子词块中的每一个。

7.根据权利要求1-6中任一项所述的系统,其中,所述基于梯度的子词分词器还被配置为在生成多个候选子词块之前将字符嵌入序列移位一个或多个字符位置。

8.根据权利要求1-6中...

【专利技术属性】
技术研发人员:Y·塔伊D·巴里D·A·小梅茨勒H·W·郑J·P·古普塔S·N·鲁德S·鲍姆加特纳V·Q·陈Z·秦
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1