【技术实现步骤摘要】
【国外来华专利技术】语言任务的对比预训练
[0001]相关申请的交叉引用
[0002]本申请要求2019年9月25日提交的美国临时专利申请第62/905,602号的优先权和权益,其全部内容通过引用方式并入本文。
[0003]本公开总体涉及自然语言处理(NLP)。更具体地,本公开涉及用于预训练机器学习语言编码模型的技术。
技术介绍
[0004]早期关于预训练文本编码器的工作使用语言模型目标。这些方法的缺点是结果模型是单向的——当产生当前模型的表示时,模型看不到未来的词元(token)。因此,当前最先进的预训练方法主要依赖于掩蔽(mask)语言模型(MLM)。这些方法选择输入的一个小子集(通常在15%左右),掩蔽词元身份或对这些词元的注意力(attention),并然后训练模型以恢复原始输入。虽然产生了双向模型,但这些目标会招致巨大的计算成本。作为一个示例,显著的计算成本可以部分归因于模型仅从每示例词元的15%中学习的事实。
[0005]因此,虽然自监督的预训练对于许多NLP任务产生了强结果,但是这些方法也需要大量的计算才能 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种训练机器学习语言编码器模型的计算机实现的方法,所述方法包括:对于一次或多次训练迭代中的每一个:由包括一个或多个计算设备的计算系统获得包括多个原始输入词元的原始语言输入;由所述计算系统选择所述多个原始输入词元中的一个或多个用作一个或多个掩蔽的词元;由所述计算系统生成一个或多个替换词元;由所述计算系统用所述一个或多个替换词元分别替换所述原始语言输入中的所述一个或多个掩蔽的词元,以形成包括多个更新的输入词元的加噪的语言输入;由所述计算系统用所述机器学习语言编码器模型处理所述加噪的语言输入,以分别为所述多个更新的输入词元产生多个预测,其中,由所述机器学习语言编码器模型为每个更新的输入词元产生的所述预测预测这种更新的输入词元是所述原始输入词元之一还是所述替换输入词元之一;以及由所述计算系统至少部分地基于损失函数来训练所述机器学习语言编码器模型,所述损失函数评估由所述机器学习语言编码器模型产生的所述多个预测。2.根据权利要求1所述的计算机实现的方法,其中,由所述计算系统生成所述一个或多个替换词元包括由所述计算系统使用机器学习语言生成器模型生成所述一个或多个替换词元。3.根据权利要求2所述的计算机实现的方法,其中,所述机器学习语言生成器模型包括已经被训练来预测所述一个或多个掩蔽的词元的掩蔽语言模型。4.根据权利要求2或3所述的计算机实现的方法,还包括:由所述计算系统至少部分地基于第二损失函数来训练所述机器学习语言生成器模型,所述第二损失函数评估所述一个或多个替换词元与被选择用作掩蔽的词元的所述一个或多个原始词元之间的差。5.根据权利要求4所述的计算机实现的方法,其中,所述第二损失函数包括最大似然估计函数。6.根据权利要求2
‑
5中任一项所述的计算机实现的方法,还包括:由所述计算系统基于第二目标函数以强化学习方案来训练所述机器学习语言生成器模型,所述第二目标函数评估由所述机器学习语言编码器模型为由所述机器学习语言生成器模型生成的所述替换词元产生的预测。7.根据权利要求4
‑
6中任一项所述的计算机实现的方法,其中,所述方法包括由所述计算系统基于包括所述损失函数和所述第二损失函数的组合的组合损失函数来联合训练所述机器学习语言生成器模型和所述机器学习语言编码器模型。8.根据权利要求4
‑
6中任一项所述的计算机实现的方法,其中,在所述...
【专利技术属性】
技术研发人员:TM梁,QV勒,KS克拉克,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。