跨语言装置和方法制造方法及图纸

技术编号：38817701 阅读：12 留言：0更新日期：2023-09-15 19:56

描述了一种用于在源语言与至少一种目标语言之间进行跨语言训练的装置(500)和方法(400)。所述方法包括：接收(401)多个输入数据元素，所述多个输入数据元素中的每一个包括所述源语言的第一语言表达式(204)和所述目标语言的第二语言表达式(205)，所述第一语言表达式和所述第二语言表达式在各自语言中具有对应的含义；通过重复执行以下步骤来训练神经网络模型(208)：i.选择(402)所述多个输入数据元素中的一个；ii.通过所述神经网络模型获得(403)所述选择的输入数据元素的所述第一语言表达式的第一表示；iii.通过所述神经网络模型获得(404)所述选择的输入数据元素的所述第二语言表达式的第二表示；iv.根据所述神经网络模型对所述第一语言表达式的性能，形成(405)第一损失；v.形成(406)指示所述第一表示与所述第二表示之间的相似性的第二损失；vi.根据所述第一损失和所述第二损失，自适应(407)所述神经网络模型。这可以提高模型在跨语言自然语言理解和分类任务中的性能。语言理解和分类任务中的性能。语言理解和分类任务中的性能。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】model pre
‑
training)”(arXiv预印本网站arXiv:2007.07834，2020年)中描述的CLS令牌(用于XLM
‑
R的“<s>”令牌)用作句子表示。Hu等人在“多语言双向编码器的显式对齐目标(Explicit Alignment Objectives for Multilingual Bidirectional Encoders)”(arXiv预印本网站arXiv:2010.07972，2020年)中描述的平均池化也可用作句子表示。该方法在很大程度上依赖于负样本的质量，负样本质量的产生并非易事。CL通常与大量数据一起使用，不是特定于任务的。
[0007]在其它方法中，如Cao等人在“上下文单词表示的多语言对齐(Multilingual alignment of contextual word representations)”(arXiv预印本网站arXiv:2002.03518，2020年)中所描述的，数据和模型对齐的组合使用单独的单词表示，来将模型与注意力矩阵(句子对齐结果劣于转换
‑
训练，但优于单词对齐)或重建注意力矩阵(如Xu等人在“跨语言NLU的端到端时隙对齐和识别(End
‑
to
‑
End Slot Alignment and Recognition for Cross
‑
Lingual NLU)”(arXiv预印本网站arXiv:2004.14353，2020年)中所描述的...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于在源语言与至少一种目标语言之间进行跨语言训练的装置(500)，其特征在于，所述装置包括一个或多个处理器(502)，所述一个或多个处理器用于执行以下步骤：接收(401)多个输入数据元素(204、205)，所述多个输入数据元素中的每一个包括所述源语言的第一语言表达式(204)和所述目标语言的第二语言表达式(205)，所述第一语言表达式和所述第二语言表达式在各自语言中具有对应的含义；通过重复执行以下步骤来训练神经网络模型(208)：i.选择(402)所述多个输入数据元素中的一个；ii.通过所述神经网络模型获得(403)所述选择的输入数据元素的所述第一语言表达式的第一表示；iii.通过所述神经网络模型获得(404)所述选择的输入数据元素的所述第二语言表达式的第二表示；iv.根据所述神经网络模型对所述第一语言表达式的性能，形成(405)第一损失；v.形成(406)指示所述第一表示与所述第二表示之间的相似性的第二损失；vi.根据所述第一损失和所述第二损失，自适应(407)所述神经网络模型。2.根据权利要求1所述的装置(500)，其特征在于，所述神经网络模型(208)的性能基于所述神经网络模型的预期输出与实际输出之间的差值确定。3.根据权利要求1或2所述的装置(500)，其特征在于，所述神经网络模型(208)根据所述第一语言表达式和所述第一语言表达式的含义形成所述第一语言表达式和所述第二语言表达式的表示。4.根据上述权利要求中任一项所述的装置(500)，其特征在于，所述第一语言表达式(204)和所述第二语言表达式(205)中的至少一些是句子。5.根据上述权利要求中任一项所述的装置(500)，其特征在于，在所述训练步骤之前，与所述第二语言的语言表达式相比，所述神经网络模型(208)更能对所述第一语言的语言表达式进行分类。6.根据上述权利要求中任一项所述的装置(500)，其特征在于，所述神经网络模型(208)包括通过权重链接的多个节点，自适应所述神经网络模型的所述步骤包括将所述第一损失和所述第二损失反向传播到所述神经网络模型的节点以调整所述权重。7.根据上述权利要求中任一项所述的装置(500)，其特征在于，所述第二损失根据相似性函数形成，所述相似性函数表示通过所述神经网络模型获得的所述选择的输入数据元素的所述第一语言表达式的所述表示与所述第二语言表达式的所述表示之间的所述相似性。8.根据上述权利要求中任一项所述的装置(500)，其特征在于，所述神经网络模型(208)能够根据语言表达式形成输出，所述训练步骤包括：至少响应于所述选择的数据元素的所述第一语言表达式，根据所述神经网络模型的进一步输出形成第三损失；响应于所述第三损失，自适应所述神经网络模型。9.根据权利要求8所述的装置(500)，其特征在于，所述输出表示所述第一语言表达式的序列标记。10.根...

【专利技术属性】
技术研发人员：米兰，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人