使用语言模型对序列到序列模型进行冷聚变制造技术

技术编号：19693863 阅读：29 留言：0更新日期：2018-12-08 11:41

本文中描述了用于使用具有注意力的序列到序列(Seq2Seq)模型生成自然语言句子的系统和方法。Seq2Seq模型可以在诸如机器翻译、图像字幕生成和语音识别的应用中实施。通过利用未标注的数据(通常是以语言模型的形式)，性能得到了进一步的改进。本文中公开了在训练期间利用预训练的语言模型的“冷聚变”架构实施方式。具有冷聚变的Seq2Seq模型实施方式能够更好的利用享有更快收敛的语言信息，更好的泛化，并且虽然使用较少标注的训练数据，却几乎完全转移到新的域。

全部详细技术资料下载

【技术实现步骤摘要】
使用语言模型对序列到序列模型进行冷聚变
本公开总体涉及用于计算机学习的系统和方法，该系统和方法可以提供改进的计算机性能、特征和使用。
技术介绍
序列到序列(Seq2Seq)模型已在许多序列标注问题上使用，包括自动语音识别、神经机器翻译、会话建模等。这些模型可以将来自输入域的序列(例如，音频)转换为标注域中的序列(例如。与音频相对应的文本)。由于语言模型不需要标注的数据，因此它们可以在数十亿甚至数万亿的表征上进行训练，并学习比在标注的语料库上训练的任何Seq2Seq模型更好的标注空间模型。因此，Seq2Seq模型通常与语言模型(LM)结合以提高泛化。将Seq2Seq模型与LM整合的算法可以称为“聚变(fusion)”算法。整合语言模型的标准方式，其可称作为“浅聚变”，是将特定于任务的Seq2Seq模型的得分与辅助语言模型的得分线性组合，以指导束搜索。该方法的改进称之为“深度聚变”，即在两个模型独立训练之后，学习将Seq2Seq解码器的隐藏状态与具有门控机制的神经语言模型进行聚变。虽然已经证明这些模型提高了基线上的性能，但是它们具有若干限制。例如，虽然已经证明深度聚变方法提高了基线上的性能，但是它具有若干限制。首先，由于Seq2Seq模型被训练以在没有语言模型的情况下输出完整的标注序列，它的解码器从训练标注中学习隐式语言模型，占用了解码器容量的显著部分来学习冗余信息。其次，融入到Seq2Seq解码器中的剩余语言模型偏向于平行语料库的训练标注。例如，如果完全在法律文件上训练的Seq2Seq模型稍后与医学语言模型进行聚变，则解码器仍然具有固有倾向以遵循在法律文本中...

【技术保护点】
1.用于训练序列到序列模型的计算机实现的方法，所述方法包括：使用一组训练数据对语言模型预训练；基于输入序列获取所述序列到序列模型的隐藏状态；将从预训练的语言模型获得的语言模型隐藏状态与从所述序列到序列模型获得的所述隐藏状态组合成组合隐藏状态；以及使用从所述组合隐藏状态获得的输出来训练所述序列到序列模型。

【技术特征摘要】
2017.05.19 US 62/508,684;2018.03.06 US 15/913,8751.用于训练序列到序列模型的计算机实现的方法，所述方法包括：使用一组训练数据对语言模型预训练；基于输入序列获取所述序列到序列模型的隐藏状态；将从预训练的语言模型获得的语言模型隐藏状态与从所述序列到序列模型获得的所述隐藏状态组合成组合隐藏状态；以及使用从所述组合隐藏状态获得的输出来训练所述序列到序列模型。2.根据权利要求1所述的计算机实现的方法，其中，所述一组训练数据是未标注的训练数据。3.根据权利要求1所述的计算机实现的方法，其中，所述语言模型在所述序列到序列模型的源域和目标域中的至少一个中训练。4.根据权利要求1所述的计算机实现的方法，其中，将来自所述预训练的语言模型的所述语言模型隐藏状态与来自所述序列到序列模型的所述隐藏状态组合包括门控计算，所述门控计算将来自所述语言模型的所述隐藏状态和来自所述序列到序列模型的所述隐藏状态两者用作为输入。5.根据权利要求1所述的计算机实现的方法，其中，将来自所述预训练的语言模型的所述语言模型隐藏状态与来自所述序列到序列模型的所述隐藏状态组合包括对所述预训练的语言模型的状态的每个隐藏节点使用不同的门值。6.根据权利要求1所述的计算机实现的方法，还包括基于从所述组合隐藏状态获得的所述输出，使用深度神经网络生成分对数输入。7.根据权利要求6所述的计算机实现的方法，其中，所述分对数输入送入softmax中，以生成用于所述序列到序列模型训练的概率分布。8.用于使用语言模型训练序列到序列模型的计算机实现的方法，所述方法包括：在所述序列到序列模型的编码器处接收源域中的输入序列；通过所述编码器生成所述输入序列的中间表示；使用所述序列到序列模型的解码器内的至少一个递归层接收所述中间表示；至少基于所述中间表示，通过所述至少一个递归层生成所述序列到序列模型的隐藏状态；将所生成的隐藏状态与来自所述语言模型的语言模型隐藏状态...

【专利技术属性】
技术研发人员：安鲁普·西瑞兰姆，俊熙雄，桑吉夫·萨西斯，亚当·科茨，
申请(专利权)人：百度美国有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人