使用语言模型对序列到序列模型进行冷聚变制造技术

技术编号:19693863 阅读:29 留言:0更新日期:2018-12-08 11:41
本文中描述了用于使用具有注意力的序列到序列(Seq2Seq)模型生成自然语言句子的系统和方法。Seq2Seq模型可以在诸如机器翻译、图像字幕生成和语音识别的应用中实施。通过利用未标注的数据(通常是以语言模型的形式),性能得到了进一步的改进。本文中公开了在训练期间利用预训练的语言模型的“冷聚变”架构实施方式。具有冷聚变的Seq2Seq模型实施方式能够更好的利用享有更快收敛的语言信息,更好的泛化,并且虽然使用较少标注的训练数据,却几乎完全转移到新的域。

【技术实现步骤摘要】
使用语言模型对序列到序列模型进行冷聚变
本公开总体涉及用于计算机学习的系统和方法,该系统和方法可以提供改进的计算机性能、特征和使用。
技术介绍
序列到序列(Seq2Seq)模型已在许多序列标注问题上使用,包括自动语音识别、神经机器翻译、会话建模等。这些模型可以将来自输入域的序列(例如,音频)转换为标注域中的序列(例如。与音频相对应的文本)。由于语言模型不需要标注的数据,因此它们可以在数十亿甚至数万亿的表征上进行训练,并学习比在标注的语料库上训练的任何Seq2Seq模型更好的标注空间模型。因此,Seq2Seq模型通常与语言模型(LM)结合以提高泛化。将Seq2Seq模型与LM整合的算法可以称为“聚变(fusion)”算法。整合语言模型的标准方式,其可称作为“浅聚变”,是将特定于任务的Seq2Seq模型的得分与辅助语言模型的得分线性组合,以指导束搜索。该方法的改进称之为“深度聚变”,即在两个模型独立训练之后,学习将Seq2Seq解码器的隐藏状态与具有门控机制的神经语言模型进行聚变。虽然已经证明这些模型提高了基线上的性能,但是它们具有若干限制。例如,虽然已经证明深度聚变方法提高了基线上的性能,但是它具有若干限制。首先,由于Seq2Seq模型被训练以在没有语言模型的情况下输出完整的标注序列,它的解码器从训练标注中学习隐式语言模型,占用了解码器容量的显著部分来学习冗余信息。其次,融入到Seq2Seq解码器中的剩余语言模型偏向于平行语料库的训练标注。例如,如果完全在法律文件上训练的Seq2Seq模型稍后与医学语言模型进行聚变,则解码器仍然具有固有倾向以遵循在法律文本中发现的语言结构。因此,为了适应新的域,最低程度地,深度聚变必须首先学习斟酌语言的隐性知识。因此,需要的是克服这些限制以更好地利用语言信息,提供更快的收敛和更好的泛化,并更好地允许转移到新的域的系统和方法。
技术实现思路
在本公开的一方面,提供了用于训练序列到序列模型的计算机实现的方法,所述方法包括:使用一组训练数据对语言模型预训练;基于输入序列获取所述序列到序列模型的隐藏状态;将从预训练的语言模型获得的语言模型隐藏状态与从所述序列到序列模型获得的所述隐藏状态组合成组合隐藏状态;以及使用从所述组合隐藏状态获得的输出来训练所述序列到序列模型。在本公开的另一方面,提供了用于使用语言模型训练序列到序列模型的计算机实现的方法,所述方法包括:在所述序列到序列模型的编码器处接收源域中的输入序列;通过所述编码器生成所述输入序列的中间表示;使用所述序列到序列模型的解码器内的至少一个递归层接收所述中间表示;至少基于所述中间表示,通过所述至少一个递归层生成所述序列到序列模型的隐藏状态;将所生成的隐藏状态与来自所述语言模型的语言模型隐藏状态组合成组合隐藏状态;以及基于所述组合隐藏状态,通过所述解码器在目标域中生成分对数输出。在本公开的再一方面,提供了用于训练序列到序列模型的计算机实现的方法,所述方法包括:接收对所述序列到序列模型的输入序列;生成所述序列到序列模型的隐藏状态;至少基于所述序列到序列模型的所生成的隐藏状态和跨多个语言模型的概率投影获取组合隐藏状态;以及使用来自所述组合隐藏状态的输出训练所述序列到序列模型。附图说明将参考本专利技术的实施方式,它们的示例可示于附图中。这些附图旨在是说明性的而非进行限制。尽管本专利技术大体上在这些实施方式的上下文中描述,但应理解,本专利技术的范围并不旨在限于这些特定实施方式。附图中的项未必按比例绘制。图1描绘了根据本公开的实施方式的以训练Seq2seq模型和语言模型的“冷聚变”方法。图2描绘了根据本公开的实施方式的将Seq2Seq隐藏状态和语言模型隐藏状态两者用作为门计算的输入的方法。图3描绘了根据本公开的实施方式的使用细粒(FG)门控机制进行冷聚变的方法。图4描绘了根据本公开的实施方式的使用语言模型概率进行冷聚变的方法。图5描绘了根据本公开的实施方式的冷聚变机制。图6描绘了根据本公开的实施方式的具有冷聚变的示例性Seq2Seq架构。图7描绘了根据本公开的实施方式的基线模型和冷聚变模型在dev集上的交叉熵损失与训练迭代之间的函数关系。图8描绘了根据本公开的实施方式的计算设备/信息处理系统的简化框图。具体实施方式在以下描述中,出于解释目的,阐明了具体细节以便提供对本专利技术的理解。然而,将对本领域的技术人员显而易见的是,可在没有这些细节的情况下实践本专利技术。此外,本领域的技术人员将认识到,下文描述的本专利技术的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。附图中示出的组件或模块是本专利技术示例性实施方式的说明,并且意图避免使本专利技术不清楚。还应理解,在本论述的全文中,组件可描述为单独的功能单元(可包括子单元),但是本领域的技术人员将认识到,各种组件或其部分可划分成单独组件,或者可整合在一起(包括整合在单个的系统或组件内)。应注意,本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。此外,附图内的组件或系统之间的连接并不旨在限于直接连接。相反,在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外,可以使用另外或更少的连接。还应注意,术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本专利技术的至少一个实施方式中,以及可包括在多于一个的实施方式中。另外,在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。在本说明书的各个地方使用某些术语目的在于说明,并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源;这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语,并且其后任何列出内容都是实例,而不旨在限于所列项目。本文所使用的任何标题仅是为了组织目的,并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个文献/参考文献以其全文通过引用并入本文。此外,本领域的技术人员应认识到:(1)某些步骤可以可选地执行;(2)某些步骤可不限于本文中所阐述的特定次序;(3)某些步骤可以以不同次序执行;以及(4)某些步骤可同时地进行。A.介绍序列到序列(Seq2Seq)模型已在许多序列标注问题上使用,包括自动语音识别、神经机器翻译、会话建模等。这些模型学习从可变长度序列的输入数据(例如,语音或另一种语言的相同文本)生成的可变长度序列的表征(token)(例如,文本)。有了足够大的标注的数据集,常规(或普通)Seq2Seq可以很好地对序列映射进行建模,但是它常常使用语言模型进行扩充,以进一步帮助度量所生成的文本的流畅性。因为语言模型可以从大量可获得的无监督文本语料库中得到训练,该无监督文本语料库可以具有多达10亿个表征,所以利用标注域的丰富的语言信息可以显著提高Seq2Seq的性能。整合语言模型的标准方式是将特定于任务的Seq2Seq模型的得分与辅助语言模型的得分线本文档来自技高网
...

【技术保护点】
1.用于训练序列到序列模型的计算机实现的方法,所述方法包括:使用一组训练数据对语言模型预训练;基于输入序列获取所述序列到序列模型的隐藏状态;将从预训练的语言模型获得的语言模型隐藏状态与从所述序列到序列模型获得的所述隐藏状态组合成组合隐藏状态;以及使用从所述组合隐藏状态获得的输出来训练所述序列到序列模型。

【技术特征摘要】
2017.05.19 US 62/508,684;2018.03.06 US 15/913,8751.用于训练序列到序列模型的计算机实现的方法,所述方法包括:使用一组训练数据对语言模型预训练;基于输入序列获取所述序列到序列模型的隐藏状态;将从预训练的语言模型获得的语言模型隐藏状态与从所述序列到序列模型获得的所述隐藏状态组合成组合隐藏状态;以及使用从所述组合隐藏状态获得的输出来训练所述序列到序列模型。2.根据权利要求1所述的计算机实现的方法,其中,所述一组训练数据是未标注的训练数据。3.根据权利要求1所述的计算机实现的方法,其中,所述语言模型在所述序列到序列模型的源域和目标域中的至少一个中训练。4.根据权利要求1所述的计算机实现的方法,其中,将来自所述预训练的语言模型的所述语言模型隐藏状态与来自所述序列到序列模型的所述隐藏状态组合包括门控计算,所述门控计算将来自所述语言模型的所述隐藏状态和来自所述序列到序列模型的所述隐藏状态两者用作为输入。5.根据权利要求1所述的计算机实现的方法,其中,将来自所述预训练的语言模型的所述语言模型隐藏状态与来自所述序列到序列模型的所述隐藏状态组合包括对所述预训练的语言模型的状态的每个隐藏节点使用不同的门值。6.根据权利要求1所述的计算机实现的方法,还包括基于从所述组合隐藏状态获得的所述输出,使用深度神经网络生成分对数输入。7.根据权利要求6所述的计算机实现的方法,其中,所述分对数输入送入softmax中,以生成用于所述序列到序列模型训练的概率分布。8.用于使用语言模型训练序列到序列模型的计算机实现的方法,所述方法包括:在所述序列到序列模型的编码器处接收源域中的输入序列;通过所述编码器生成所述输入序列的中间表示;使用所述序列到序列模型的解码器内的至少一个递归层接收所述中间表示;至少基于所述中间表示,通过所述至少一个递归层生成所述序列到序列模型的隐藏状态;将所生成的隐藏状态与来自所述语言模型的语言模型隐藏状态...

【专利技术属性】
技术研发人员:安鲁普·西瑞兰姆俊熙雄桑吉夫·萨西斯亚当·科茨
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1