基于能量的语言模型制造技术

技术编号：30909911 阅读：22 留言：0更新日期：2021-11-22 23:56

提供用于训练和使用诸如完形填空语言模型等的基于能量的语言模型的系统和方法。特别地，本公开的一个方面涉及用于在文本上进行表示学习的基于能量的完形填空语言模型。在一些情况下，本文中提供的模型能够被称为“Electric”模型。类似于BERT模型，本文中提出的示例模型能够是给定其上下文的符号的条件生成模型。然而，本文中提出的示例模型不掩蔽文本或输出在可能在上下文中出现的符号上的完整分布。相反，示例提出的模型将标量能量分值分配到每个输入符号。本公开的另一方面提供用于训练提出的模型以使用基于噪声对比度估计的算法来将低能量分配到数据符号并且将高能量分配到其他数据符号的技术。能量分配到其他数据符号的技术。能量分配到其他数据符号的技术。

全部详细技术资料下载

【技术实现步骤摘要】
基于能量的语言模型
[0001]相关申请
[0002]本申请要求美国临时专利申请No.63/070,933的优先权和权益。美国临时专利申请No.63/070,933通过引用整体并入本文。

[0003]本公开一般涉及自然语言处理(NLP)。更具体地，本公开涉及用于训练和使用诸如完形填空(cloze)语言模型的基于能量的语言模型的系统和方法。

技术介绍

[0004]对预训练文本编码器的早期工作使用语言建模目标。这些方法的缺点是生成的模型是单向的
‑
该模型在产生当前符号(token)的表示时看不到未来符号。因此，当前现有技术预训练方法主要依赖于掩蔽语言建模(MLM)。这些方法选择输入的小子集(通常大约15％)，将符号身份或注意力掩蔽为那些符号，然后训练模型以恢复原始输入。虽然生成双向模型，但是这些目标招致大量计算成本。作为一个示例，显著的计算成本能够被部分归因于模型仅从每个示例的15％的符号学习的事实。此外，这些现有方法迄今为止遵循了利用输出柔性最大传递函数(softmax)来估计符号概率并且使用最大似然训练的标准方法，而其他种类的生成模型仍未被探索。

技术实现思路

[0005]本公开的实施例的方面和优点将在以下描述中被部分地阐述，或者能够从描述中学习，或者能够通过实施例的实践来学习。
[0006]本公开的一个示例方面涉及一种用于训练机器学习语言模型的计算机实现的方法。该方法由包括一个或多个计算设备的计算系统获得包括多个正符号的原始语言输入。该方法包括由计算系统生成...

【技术保护点】

【技术特征摘要】
1.一种用于训练机器学习语言模型的计算机实现的方法，所述方法包括：对于一个或多个训练迭代中的每一个：由包括一个或多个计算设备的计算系统获得包括多个正符号的原始语言输入；由所述计算系统生成一个或多个噪声符号；由所述计算系统分别将所述原始语言输入中的所述多个正符号中的一个或多个替换为所述一个或多个噪声符号，以形成包括多个更新的输入符号的含噪声的语言输入；由所述计算系统利用所述机器学习语言模型处理所述含噪声的语言输入以分别为所述多个更新的输入符号产生多个分值，其中，用于每个更新的输入符号的所述分值指示所述更新的输入符号在所述含噪声的语言输入中给定其他更新的输入符号时的似然性；由所述计算系统至少部分地基于所述多个分值分别为所述多个更新的输入符号生成多个预测，其中，由所述机器学习语言模型为每个更新的输入符号产生的所述预测预测所述更新的输入符号是正符号还是噪声符号；以及由所述计算系统至少部分地基于评估所述多个预测的损失函数来训练所述机器学习语言模型。2.根据权利要求1所述的计算机实现的方法，其中：所述机器学习语言模型包括基于能量的完形填空语言模型；以及分别用于所述多个更新的输入符号的所述多个分值包括分别用于所述多个更新的输入符号的多个标量能量分值。3.根据权利要求1所述的计算机实现的方法，其中，由所述计算系统生成所述一个或多个噪声符号包括由所述计算系统使用机器学习语言生成器模型来生成所述一个或多个噪声符号。4.根据权利要求3所述的计算机实现的方法，其中，所述机器学习语言生成器模型包括双塔完形填空语言模型，所述双塔完形填空语言模型包括两个变换器模型。5.根据权利要求3所述的计算机实现的方法，进一步包括：由所述计算系统至少部分地基于评估所述一个或多个噪声符号在噪声分布内的存在的第二损失函数来训练所述机器学习语言生成器模型。6.根据权利要求5所述的计算机实现的方法，其中，所述第二损失函数包括最大似然估计函数。7.根据权利要求1所述的计算机实现的方法，其中，由所述计算系统生成所述一个或多个噪声符号包括由所述计算系统从噪声分布采样所述一个或多个噪声符号。8.根据权利要求1所述的计算机实现的方法，其中，由所述计算系统获得包括所述多个正符号的所述原始语言输入包括由所述计算系统从正分布中采样所述多个正符号。9.根据权利要求1所述的计算机实现的方法，其中，所述损失函数包括条件噪声对比度估计损失函数。10.根据权利要求1所述的计算机实现的方法，其中，所述机器学习语言模型包括变换器网络文本编码器。11.根据权利要求1所述的计算机实现的方法，其中，当所述一个或多个噪声符号中的一个噪声符号等于其替换的正符号时，所述损失函数如同所述噪声符号被包括在所述多个正符号中一样来评估所述噪声符号。
12.根据权利要求1所述的计算机实现的方法，其中：由所述计算系统获得包括所述多个正符号的所述原始语言输入包括由所述计算系统从正分布获得预定义的正符号的序列；由所述计算系统生成所述一个或多个噪声符号包括由所述计算系统生成多个噪声符号；以及由所述计算系统分别将所述原始语言输入中的所述多个正符号中的所述一个或多个替换为所述一个或多个噪声符号包括：由所述计算系统分别将所述预定义的正符号序列中的多个符号...

【专利技术属性】
技术研发人员：唐，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人