基于能量的语言模型制造技术

技术编号:30909911 阅读:22 留言:0更新日期:2021-11-22 23:56
提供用于训练和使用诸如完形填空语言模型等的基于能量的语言模型的系统和方法。特别地,本公开的一个方面涉及用于在文本上进行表示学习的基于能量的完形填空语言模型。在一些情况下,本文中提供的模型能够被称为“Electric”模型。类似于BERT模型,本文中提出的示例模型能够是给定其上下文的符号的条件生成模型。然而,本文中提出的示例模型不掩蔽文本或输出在可能在上下文中出现的符号上的完整分布。相反,示例提出的模型将标量能量分值分配到每个输入符号。本公开的另一方面提供用于训练提出的模型以使用基于噪声对比度估计的算法来将低能量分配到数据符号并且将高能量分配到其他数据符号的技术。能量分配到其他数据符号的技术。能量分配到其他数据符号的技术。

【技术实现步骤摘要】
基于能量的语言模型
[0001]相关申请
[0002]本申请要求美国临时专利申请No.63/070,933的优先权和权益。美国临时专利申请No.63/070,933通过引用整体并入本文。


[0003]本公开一般涉及自然语言处理(NLP)。更具体地,本公开涉及用于训练和使用诸如完形填空(cloze)语言模型的基于能量的语言模型的系统和方法。

技术介绍

[0004]对预训练文本编码器的早期工作使用语言建模目标。这些方法的缺点是生成的模型是单向的

该模型在产生当前符号(token)的表示时看不到未来符号。因此,当前现有技术预训练方法主要依赖于掩蔽语言建模(MLM)。这些方法选择输入的小子集(通常大约15%),将符号身份或注意力掩蔽为那些符号,然后训练模型以恢复原始输入。虽然生成双向模型,但是这些目标招致大量计算成本。作为一个示例,显著的计算成本能够被部分归因于模型仅从每个示例的15%的符号学习的事实。此外,这些现有方法迄今为止遵循了利用输出柔性最大传递函数(softmax)来估计符号概率并且使用最大似然训练的标准方法,而其他种类的生成模型仍未被探索。

技术实现思路

[0005]本公开的实施例的方面和优点将在以下描述中被部分地阐述,或者能够从描述中学习,或者能够通过实施例的实践来学习。
[0006]本公开的一个示例方面涉及一种用于训练机器学习语言模型的计算机实现的方法。该方法由包括一个或多个计算设备的计算系统获得包括多个正符号的原始语言输入。该方法包括由计算系统生成一个或多个噪声符号。该方法包括由计算系统分别将原始语言输入中的所述多个正符号中的一个或多个替换为一个或多个噪声符号,以形成包括多个更新的输入符号的含噪声的语言输入。该方法包括由所述计算系统利用机器学习语言模型处理含噪声的语言输入以分别为多个更新的输入符号产生多个分值,其中,用于每个更新的输入符号的所述分值指示该更新的输入符号在所述含噪声的语言输入中给定其他更新的输入符号时的似然性。该方法包括由计算系统至少部分地基于所述个分值分别为多个更新的输入符号生成多个预测,其中,由所述机器学习语言模型为每个更新的输入符号产生的所述预测预测这种更新的输入符号是正符号还是噪声符号。该方法包括由计算系统至少部分地基于评估多个预测的损失函数来训练机器学习语言模型。
[0007]本公开的其他方面涉及各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。
[0008]参考以下描述和所附权利要求,本公开的各种实施例的这些和其他特征、方面和优点将变得更好理解。并入本说明书中并构成本说明书的一部分的附图图示了本公开的示
例实施例,并且与描述一起用于解释相关原理。
附图说明
[0009]在参考附图的说明书中阐述了针对本领域普通技术人员的实施例的详细讨论,其中:
[0010]图1A描绘根据本公开的示例实施例的采用机器学习语言模型的示例处理中的数据流。
[0011]图1B描绘根据本公开的示例实施例的用于训练机器学习语言模型的示例处理中的数据流。
[0012]图2A描绘根据本公开的示例实施例的示例计算系统的框图。
[0013]图2B描绘根据本公开的示例实施例的示例计算设备的框图。
[0014]图2C描绘根据本公开的示例实施例的示例计算设备的框图。
[0015]图3A和图3B示出根据本公开的示例实施例的示例训练算法。
[0016]在多个图重复的附图标记旨在标识各个实施方式中的相同特征。
具体实施方式
[0017]概述
[0018]总体上,本公开涉及用于训练和使用诸如完形填空(cloze)语言模型的基于能量的语言模型的系统和方法。特别地,本公开的一个方面涉及用于在文本上进行表示学习的基于能量的完形填空语言模型。在一些情况下,本文中提供的模型可以被称为“Electric(电)”模型。类似于BERT模型,本文中提出的示例模型能够是给定其上下文(context)的符号的条件生成模型。然而,本文中提出的示例模型不掩蔽文本或输出在可能在上下文中出现的符号上的完整分布。相反,示例提出的模型将标量能量分值分配到每个输入符号。标量能量分值能够指示符号被赋予上下文的可能性。本公开的另一方面提供用于训练提出的模型以使用基于噪声对比度估计的算法来将低能量分别到一些数据符号并且将高能量分配到其他数据符号的技术。所提出的系统和方法解决BERT中的MASK符号的预训练/微调差异,并且允许候选符号和上下文在变换器层中而不是仅在输出柔性最大传递函数(softmax)中交互。所提出的模型在被转移到下游任务时表现良好,并且在产生文本的似然性分值方面特别有效:所提出的模型的示例实施方式对比语言模型更好的语音识别n个最好的列表进行重新排名并且比掩蔽语言模型快得多。
[0019]更特别地,许多最近的语言表示学习方法训练大型神经网络以预测以其左边(“左”语言模型)或两边(“完形填空”语言模型)的上下文为条件的符号的身份。除非明确地另外指示,否则本文中术语“语言模型”的使用旨在包括左语言模型和完形填空语言模型两者。这些现有方法迄今为止遵循了利用输出柔性最大传递函数来估计符号概率并且使用最大似然训练的标准方法,而其他种类的生成模型仍未被探索。
[0020]相反,本公开提出训练基于能量的模型(EBM),其在一些示例实施方式中可以被称为“Electric”,以执行完形填空语言建模。EBM学习能量函数,该能量函数将低能量值分配到数据分布中的输入并且将高能量值分配到其他输入。它们是灵活的,因为它们不必计算归一化概率。例如,Electric不使用掩蔽或输出柔性最大传递函数,而是在低能量指示符号
是可能的情况下为每个输入符号产生能量分值。本公开还提供基于噪声对比度估计来有效地近似损失的训练算法(参见Gutmann和Hyvarinen,噪声对比度估计:用于非归一化统计模型的新估计原理,AISTATS 2010)。
[0021]在美国临时专利申请No.63/070,933中,描述示例实验,其评估关于包括GLUE和SQuAD数据集的示例数据集的Electric。在示例实验中,Electric大体上优于BERT(Devlin等,BERT:为语言理解而对深度双向变换器进行的预训练,NAACL

HLT 2019)。Electric的一个关键优点是它能够有效地产生文本的do

log

似然性分值(Salazar等,掩蔽语言模型分值,ACL 2020年):Electric在对语音识别系统的输出重新排序上比GPT

2更好(Radford等,语言模型是无监督的多任务学习者,2019),并且在重新排序上相比BERT快许多倍。在美国临时专利申请No.63/070,933中提供的结果表明,基于能量的模型是当前用于语言表示学习的标准生成模型的有前途的替代。
[0022]本公开的系统和方法提供许多技术效果和益处。作为一个示例技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练机器学习语言模型的计算机实现的方法,所述方法包括:对于一个或多个训练迭代中的每一个:由包括一个或多个计算设备的计算系统获得包括多个正符号的原始语言输入;由所述计算系统生成一个或多个噪声符号;由所述计算系统分别将所述原始语言输入中的所述多个正符号中的一个或多个替换为所述一个或多个噪声符号,以形成包括多个更新的输入符号的含噪声的语言输入;由所述计算系统利用所述机器学习语言模型处理所述含噪声的语言输入以分别为所述多个更新的输入符号产生多个分值,其中,用于每个更新的输入符号的所述分值指示所述更新的输入符号在所述含噪声的语言输入中给定其他更新的输入符号时的似然性;由所述计算系统至少部分地基于所述多个分值分别为所述多个更新的输入符号生成多个预测,其中,由所述机器学习语言模型为每个更新的输入符号产生的所述预测预测所述更新的输入符号是正符号还是噪声符号;以及由所述计算系统至少部分地基于评估所述多个预测的损失函数来训练所述机器学习语言模型。2.根据权利要求1所述的计算机实现的方法,其中:所述机器学习语言模型包括基于能量的完形填空语言模型;以及分别用于所述多个更新的输入符号的所述多个分值包括分别用于所述多个更新的输入符号的多个标量能量分值。3.根据权利要求1所述的计算机实现的方法,其中,由所述计算系统生成所述一个或多个噪声符号包括由所述计算系统使用机器学习语言生成器模型来生成所述一个或多个噪声符号。4.根据权利要求3所述的计算机实现的方法,其中,所述机器学习语言生成器模型包括双塔完形填空语言模型,所述双塔完形填空语言模型包括两个变换器模型。5.根据权利要求3所述的计算机实现的方法,进一步包括:由所述计算系统至少部分地基于评估所述一个或多个噪声符号在噪声分布内的存在的第二损失函数来训练所述机器学习语言生成器模型。6.根据权利要求5所述的计算机实现的方法,其中,所述第二损失函数包括最大似然估计函数。7.根据权利要求1所述的计算机实现的方法,其中,由所述计算系统生成所述一个或多个噪声符号包括由所述计算系统从噪声分布采样所述一个或多个噪声符号。8.根据权利要求1所述的计算机实现的方法,其中,由所述计算系统获得包括所述多个正符号的所述原始语言输入包括由所述计算系统从正分布中采样所述多个正符号。9.根据权利要求1所述的计算机实现的方法,其中,所述损失函数包括条件噪声对比度估计损失函数。10.根据权利要求1所述的计算机实现的方法,其中,所述机器学习语言模型包括变换器网络文本编码器。11.根据权利要求1所述的计算机实现的方法,其中,当所述一个或多个噪声符号中的一个噪声符号等于其替换的正符号时,所述损失函数如同所述噪声符号被包括在所述多个正符号中一样来评估所述噪声符号。
12.根据权利要求1所述的计算机实现的方法,其中:由所述计算系统获得包括所述多个正符号的所述原始语言输入包括由所述计算系统从正分布获得预定义的正符号的序列;由所述计算系统生成所述一个或多个噪声符号包括由所述计算系统生成多个噪声符号;以及由所述计算系统分别将所述原始语言输入中的所述多个正符号中的所述一个或多个替换为所述一个或多个噪声符号包括:由所述计算系统分别将所述预定义的正符号序列中的多个符号...

【专利技术属性】
技术研发人员:
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1