跨语言装置和方法制造方法及图纸

技术编号:38817701 阅读:12 留言:0更新日期:2023-09-15 19:56
描述了一种用于在源语言与至少一种目标语言之间进行跨语言训练的装置(500)和方法(400)。所述方法包括:接收(401)多个输入数据元素,所述多个输入数据元素中的每一个包括所述源语言的第一语言表达式(204)和所述目标语言的第二语言表达式(205),所述第一语言表达式和所述第二语言表达式在各自语言中具有对应的含义;通过重复执行以下步骤来训练神经网络模型(208):i.选择(402)所述多个输入数据元素中的一个;ii.通过所述神经网络模型获得(403)所述选择的输入数据元素的所述第一语言表达式的第一表示;iii.通过所述神经网络模型获得(404)所述选择的输入数据元素的所述第二语言表达式的第二表示;iv.根据所述神经网络模型对所述第一语言表达式的性能,形成(405)第一损失;v.形成(406)指示所述第一表示与所述第二表示之间的相似性的第二损失;vi.根据所述第一损失和所述第二损失,自适应(407)所述神经网络模型。这可以提高模型在跨语言自然语言理解和分类任务中的性能。语言理解和分类任务中的性能。语言理解和分类任务中的性能。

【技术实现步骤摘要】
【国外来华专利技术】model pre

training)”(arXiv预印本网站arXiv:2007.07834,2020年)中描述的CLS令牌(用于XLM

R的“<s>”令牌)用作句子表示。Hu等人在“多语言双向编码器的显式对齐目标(Explicit Alignment Objectives for Multilingual Bidirectional Encoders)”(arXiv预印本网站arXiv:2010.07972,2020年)中描述的平均池化也可用作句子表示。该方法在很大程度上依赖于负样本的质量,负样本质量的产生并非易事。CL通常与大量数据一起使用,不是特定于任务的。
[0007]在其它方法中,如Cao等人在“上下文单词表示的多语言对齐(Multilingual alignment of contextual word representations)”(arXiv预印本网站arXiv:2002.03518,2020年)中所描述的,数据和模型对齐的组合使用单独的单词表示,来将模型与注意力矩阵(句子对齐结果劣于转换

训练,但优于单词对齐)或重建注意力矩阵(如Xu等人在“跨语言NLU的端到端时隙对齐和识别(End

to

End Slot Alignment and Recognition for Cross

Lingual NLU)”(arXiv预印本网站arXiv:2004.14353,2020年)中所描述的)对齐。Feng等人在“与语言无关的BERT句子嵌入(Language

agnostic bert sentence embedding)”(arXiv预印本网站arXiv:2007.01852,2020年)中描述的LaBSe使用CLS令牌,但针对经过大量数据训练的通用任务多语言句子嵌入进行了优化。
[0008]需要开发一种跨语言应用的模型训练方法,以克服现有技术的问题。

技术实现思路

[0009]根据一个方面,提供了一种用于在源语言与至少一种目标语言之间进行跨语言训练的装置,所述装置包括一个或多个处理器,所述一个或多个处理器用于执行以下步骤:接收多个输入数据元素,所述多个输入数据元素中的每一个包括所述源语言的第一语言表达式和所述目标语言的第二语言表达式,所述第一语言表达式和所述第二语言表达式在各自语言中具有对应的含义;通过重复执行以下步骤来训练神经网络模型:i.选择所述多个输入数据元素中的一个;ii.通过所述神经网络模型获得所述选择的输入数据元素的所述第一语言表达式的第一表示;iii.通过所述神经网络模型获得所述选择的输入数据元素的所述第二语言表达式的第二表示;iv.根据所述神经网络模型对所述第一语言表达式的性能,形成第一损失;v.形成指示所述第一表示与所述第二表示之间的相似性的第二损失;vi.根据所述第一损失和所述第二损失,自适应所述神经网络模型。
[0010]通过这种方式训练所述神经网络模型可以进一步提高现有模型在跨语言自然语言理解和分类任务中的性能。
[0011]所述神经网络模型的性能可以基于所述神经网络模型的预期输出与实际输出之间的差值确定。这可以方便地确定所述模型的性能。
[0012]所述神经网络模型可以根据语言表达式的含义形成所述语言表达式的表示。这可以允许对所述输入数据元素进行分类。
[0013]所述语言表达式中的至少一些可以是句子。这可以方便地允许形成可以用于训练所述模型的会话短语或教学短语的表示。
[0014]在所述训练步骤之前,与所述第二语言的语言表达式相比,所述神经网络模型更能对所述第一语言的语言表达式进行分类。例如,所述第一语言可以是英语(随时提供可用的带标签数据)。在所述训练步骤之后,相比在所述训练步骤之前,所述神经网络模型更能
对所述第二语言的语言表达式进行分类。因此,所述训练步骤可以提高所述模型对所述第二语言的语言表达式进行分类的性能。
[0015]所述神经网络模型可以包括通过权重链接的多个节点,自适应所述神经网络模型的所述步骤包括将所述第一损失和所述第二损失反向传播到所述神经网络模型的节点以调整所述权重。这可以是一种用于更新所述神经网络模型的便捷方法。
[0016]所述第二损失可以根据相似性函数形成,所述相似性函数表示通过所述神经网络模型获得的所述选择的输入数据元素的所述第一语言表达式的所述表示与所述第二语言表达式的所述表示之间的所述相似性。所述相似性函数可以是将两个嵌入/向量作为输入并计算它们之间的距离的任意函数(例如,MSE、MAE、点积、余弦等)。这可以有助于确保所述嵌入在两种语言中相似(对齐),从而可以提高零样本学习性能。
[0017]所述神经网络模型能够根据语言表达式形成输出,所述训练步骤包括:至少响应于所述选择的数据元素的所述第一语言表达式,根据所述神经网络模型的进一步输出形成第三损失;响应于所述第三损失,自适应所述神经网络模型。对于主任务/主要任务,可能会增加进一步的损失。
[0018]所述输出可以表示所述第一语言表达式的序列标记。因此,所述主任务可以包括序列标记任务,例如时隙标记,其中,所述序列中的每个令牌根据实体类型进行分类。
[0019]所述输出可以表示预测所述第一语言表达式的单个类标签或类标签序列。任何附加损失可能来自其它任务,例如问答任务或文本分类任务。
[0020]可以在没有直接指示所述第二语言的语言表达式的分类的数据的情况下执行所述训练步骤。使用零样本学习可以允许将以一种语言表示为注释或标签的任务知识转移到没有任何训练数据的语言。这可以降低所述训练的计算复杂性。
[0021]所述装置还可以包括所述神经网络模型。所述模型可以存储在所述装置中。
[0022]根据第二方面,提供了一种数据载体,所述数据载体以非瞬时形式存储数据,所述数据定义神经网络分类器模型,所述神经网络分类器模型能够对多种语言的语言表达式进行分类,并且所述神经网络分类器模型用于输出相同的分类,以响应于彼此具有相同含义的所述第一语言和所述第二语言的语言表达式。
[0023]所述神经网络分类器模型可以由上述装置训练。这可以允许在电子设备(例如,智能手机)中实现所述训练的神经网络模型,以用于实际应用。
[0024]根据另一方面,提供了一种语言分析设备,所述语言分析设备包括如上所述的数据载体、音频输入设备和一个或多个处理器,用于:从所述音频输入设备接收输入音频数据;将所述输入音频数据作为输入应用于存储在所述数据载体上的所述神经网络分类器模型以形成输出;根据所述输出执行控制动作。例如,这可以允许使用语音输入来控制电子设备。
[0025]所述语言分析设备可以用于通过存储在所述数据载体上的所述神经网络分类器模型实现语音助手功能。这可能是智能手机和扬声器等现代电子设备所需要的。其它应用也是可能的。
[0026]所述音频输入设备可以是包含在所述设备本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于在源语言与至少一种目标语言之间进行跨语言训练的装置(500),其特征在于,所述装置包括一个或多个处理器(502),所述一个或多个处理器用于执行以下步骤:接收(401)多个输入数据元素(204、205),所述多个输入数据元素中的每一个包括所述源语言的第一语言表达式(204)和所述目标语言的第二语言表达式(205),所述第一语言表达式和所述第二语言表达式在各自语言中具有对应的含义;通过重复执行以下步骤来训练神经网络模型(208):i.选择(402)所述多个输入数据元素中的一个;ii.通过所述神经网络模型获得(403)所述选择的输入数据元素的所述第一语言表达式的第一表示;iii.通过所述神经网络模型获得(404)所述选择的输入数据元素的所述第二语言表达式的第二表示;iv.根据所述神经网络模型对所述第一语言表达式的性能,形成(405)第一损失;v.形成(406)指示所述第一表示与所述第二表示之间的相似性的第二损失;vi.根据所述第一损失和所述第二损失,自适应(407)所述神经网络模型。2.根据权利要求1所述的装置(500),其特征在于,所述神经网络模型(208)的性能基于所述神经网络模型的预期输出与实际输出之间的差值确定。3.根据权利要求1或2所述的装置(500),其特征在于,所述神经网络模型(208)根据所述第一语言表达式和所述第一语言表达式的含义形成所述第一语言表达式和所述第二语言表达式的表示。4.根据上述权利要求中任一项所述的装置(500),其特征在于,所述第一语言表达式(204)和所述第二语言表达式(205)中的至少一些是句子。5.根据上述权利要求中任一项所述的装置(500),其特征在于,在所述训练步骤之前,与所述第二语言的语言表达式相比,所述神经网络模型(208)更能对所述第一语言的语言表达式进行分类。6.根据上述权利要求中任一项所述的装置(500),其特征在于,所述神经网络模型(208)包括通过权重链接的多个节点,自适应所述神经网络模型的所述步骤包括将所述第一损失和所述第二损失反向传播到所述神经网络模型的节点以调整所述权重。7.根据上述权利要求中任一项所述的装置(500),其特征在于,所述第二损失根据相似性函数形成,所述相似性函数表示通过所述神经网络模型获得的所述选择的输入数据元素的所述第一语言表达式的所述表示与所述第二语言表达式的所述表示之间的所述相似性。8.根据上述权利要求中任一项所述的装置(500),其特征在于,所述神经网络模型(208)能够根据语言表达式形成输出,所述训练步骤包括:至少响应于所述选择的数据元素的所述第一语言表达式,根据所述神经网络模型的进一步输出形成第三损失;响应于所述第三损失,自适应所述神经网络模型。9.根据权利要求8所述的装置(500),其特征在于,所述输出表示所述第一语言表达式的序列标记。10.根...

【专利技术属性】
技术研发人员:米兰
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1