【技术实现步骤摘要】
多语言模型的训练方法、装置、电子设备和可读存储介质
本申请涉及信息处理
,尤其涉及深度学习、自然语言处理
中的一种多语言模型的训练方法、装置、电子设备和可读存储介质。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)是人工智能(ArtificialIntelligence,AI)的一个非常重要的子领域。现有的NLP任务的学习范式大多采用预训练(Pre-training)加微调(Fine-tuning)的方式。首先通过预训练任务在无监督语料中初步建模,然后在下游任务上使用任务数据进行微调。且现有的经验表明,预训练模型可以起到对模型参数的正则化的约束作用,可以极大的提升下游任务的表现能力。基于以上所述,且随着全球化的不断发展,不同语言之间的信息交换也越来越重要,为了提升多语言模型在多语言任务上的性能,多语言模型的建模显得尤为重要。现有的多语言模型在进行预训练时,通常会根据双语语料或者单语语料进行训练。但是现有的多语言模型无论是使用双语语料还是单语语料进行预训练,都无法学习到不同语言之间的语义对齐信息,导致多语言模型无法准确地实现不同语言之间的信息交互。
技术实现思路
本申请为解决技术问题所采用的技术方案是提供一种多语言模型的训练方法,包括:获取训练语料,所述训练语料中包含多条双语语料和多条单语语料;使用多条双语语料对多语言模型进行第一训练任务的训练,所述第一训练任务为使得所述多语言模型根据源语言语料的语义单元和掩码预测源语言语料中被掩码的语义单元 ...
【技术保护点】
1.一种多语言模型的训练方法,包括:/n获取训练语料,所述训练语料中包含多条双语语料和多条单语语料;/n使用多条双语语料对多语言模型进行第一训练任务的训练,所述第一训练任务为使得所述多语言模型根据源语言语料的语义单元和掩码预测源语言语料中被掩码的语义单元,根据源语言语料的语义单元和掩码、以及目标语言语料的掩码预测目标语言语料中被掩码的语义单元;/n使用多条单语语料对多语言模型进行第二训练任务的训练,所述第二训练任务为使得所述多语言模型在根据单语语料生成伪平行语料之后,再根据单语语料的语义单元和掩码、以及伪平行语料的语义单元预测单语语料中被掩码的语义单元;/n在确定所述第一训练任务与所述第二训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。/n
【技术特征摘要】
1.一种多语言模型的训练方法,包括:
获取训练语料,所述训练语料中包含多条双语语料和多条单语语料;
使用多条双语语料对多语言模型进行第一训练任务的训练,所述第一训练任务为使得所述多语言模型根据源语言语料的语义单元和掩码预测源语言语料中被掩码的语义单元,根据源语言语料的语义单元和掩码、以及目标语言语料的掩码预测目标语言语料中被掩码的语义单元;
使用多条单语语料对多语言模型进行第二训练任务的训练,所述第二训练任务为使得所述多语言模型在根据单语语料生成伪平行语料之后,再根据单语语料的语义单元和掩码、以及伪平行语料的语义单元预测单语语料中被掩码的语义单元;
在确定所述第一训练任务与所述第二训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。
2.根据权利要求1所述的方法,其中,所述多语言模型的网络结构包含嵌入层与Transformer层,其中所述Transformer层中包含多个Transformer块。
3.根据权利要求2所述的方法,其中,所述使用多条双语语料对多语言模型进行第一训练任务的训练包括:
针对每条双语语料中的源语言语料和目标语言语料进行切词;
分别对源语言语料和目标语言语料的切词结果进行掩码处理;
将源语言语料和目标语言语料包含的语义单元、掩码输入多语言模型;
在由多语言模型中Transformer层的第一个Transformer块根据嵌入层针对各语义单元和各掩码转换得到的向量进行注意力机制的计算之后,Transformer层中下一个Transformer块根据源语言语料的语义单元和掩码进行源语言语料中各掩码的注意力机制的计算,根据源语言语料的语义单元和掩码、以及目标语言语料中的掩码进行目标语言语料中掩码的注意力机制的计算;
根据多语言模型中Transformer层的最后一个Transformer模块的输出,得到源语言语料和目标语言语料中被掩码的语义单元的预测结果。
4.根据权利要求2所述的方法,其中,所述使用多条单语语料对多语言模型进行第二训练任务的训练包括:
针对每条单语语料进行切词;
将单语语料的切词结果和与当前单语语料具有不同语种的语料的虚拟位置输入多语言模型,根据多语言模型的输出结果得到伪平行语料;
对单语语料进行掩码处理之后,将单语语料的语义单元和掩码、以及伪平行语料的语义单元输入多语言模型,根据多语言模型的输出结果得到单语语料中被掩码的语义单元的预测结果。
5.根据权利要求1所述的方法,还包括,
在确定所述第一训练任务与所述第二训练任务的损失函数收敛之前,使用多条双语语料对多语言模型进行第三训练任务的训练,所述第三训练任务为使得多语言模型根据源语言语料和目标语言语料的拼接结果中的语义单元和掩码,来预测拼接结果中被掩码的语义单元;
在确定所述第一训练任务、所述第二训练任务与所述第三训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。
6.根据权利要求1所述的方法,还包括,
在确定所述第一训练任务与所述第二训练任务的损失函数收敛之前,使用多条单语语料对多语言模型进行第四训练任务的训练,所述第四训练任务为使得多语言模型能够单语语料中的语义单元和掩码,来预测单语语料中被掩码的语义单元;
在确定所述第一训练任务、所述第二训练任务与所述第四训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。
7.一种多语言模型的训练装置,包括:
获取单元,用于获取训练语料,所述训练语料中包含多条双语语料和多条单语语料;
第一训练单元,用于使用多条双语语料对多语言模型进行第一训练任务的训练,所述第一训练任务为使得所述多语言模型根据源语言语料的语义单元和掩码预测源语言语料中被掩码...
【专利技术属性】
技术研发人员:欧阳轩,王硕寰,庞超,孙宇,田浩,吴华,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。