多语言模型的训练方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:27743532 阅读:20 留言:0更新日期:2021-03-19 13:37
本申请公开了一种多语言模型的训练方法、装置、电子设备和可读存储介质,涉及深度学习、自然语言处理技术领域。本申请在训练多语言模时的技术方案为:获取训练语料,训练语料中包含多条双语语料和多条单语语料;使用多条双语语料对多语言模型进行第一训练任务的训练;使用多条单语语料对多语言模型进行第二训练任务的训练;在确定第一训练任务与第二训练任务的损失函数收敛的情况下,完成多语言模型的训练。本申请能够使得多语言模型实现不同语言之间的语义交互,提升了多语言模型在学习多语言语料的语义表示时的准确性。

【技术实现步骤摘要】
多语言模型的训练方法、装置、电子设备和可读存储介质
本申请涉及信息处理
,尤其涉及深度学习、自然语言处理
中的一种多语言模型的训练方法、装置、电子设备和可读存储介质。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)是人工智能(ArtificialIntelligence,AI)的一个非常重要的子领域。现有的NLP任务的学习范式大多采用预训练(Pre-training)加微调(Fine-tuning)的方式。首先通过预训练任务在无监督语料中初步建模,然后在下游任务上使用任务数据进行微调。且现有的经验表明,预训练模型可以起到对模型参数的正则化的约束作用,可以极大的提升下游任务的表现能力。基于以上所述,且随着全球化的不断发展,不同语言之间的信息交换也越来越重要,为了提升多语言模型在多语言任务上的性能,多语言模型的建模显得尤为重要。现有的多语言模型在进行预训练时,通常会根据双语语料或者单语语料进行训练。但是现有的多语言模型无论是使用双语语料还是单语语料进行预训练,都无法学习到不同语言之间的语义对齐信息,导致多语言模型无法准确地实现不同语言之间的信息交互。
技术实现思路
本申请为解决技术问题所采用的技术方案是提供一种多语言模型的训练方法,包括:获取训练语料,所述训练语料中包含多条双语语料和多条单语语料;使用多条双语语料对多语言模型进行第一训练任务的训练,所述第一训练任务为使得所述多语言模型根据源语言语料的语义单元和掩码预测源语言语料中被掩码的语义单元,根据源语言语料的语义单元和掩码、以及目标语言语料的掩码预测目标语言语料中被掩码的语义单元;使用多条单语语料对多语言模型进行第二训练任务的训练,所述第二训练任务为使得所述多语言模型在根据单语语料生成伪平行语料之后,再根据单语语料的语义单元和掩码、以及伪平行语料的语义单元预测单语语料中被掩码的语义单元;在确定所述第一训练任务与所述第二训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。本申请为解决技术问题所采用的技术方案是提供一种多语言模型的训练装置,包括:获取单元,用于获取训练语料,所述训练语料中包含多条双语语料和多条单语语料;第一训练单元,用于使用多条双语语料对多语言模型进行第一训练任务的训练,所述第一训练任务为使得所述多语言模型根据源语言语料的语义单元和掩码预测源语言语料中被掩码的语义单元,根据源语言语料的语义单元和掩码、以及目标语言语料的掩码预测目标语言语料中被掩码的语义单元;第二训练单元,用于使用多条单语语料对多语言模型进行第二训练任务的训练,所述第二训练任务为使得所述多语言模型在根据单语语料生成伪平行语料之后,再根据单语语料的语义单元和掩码、以及伪平行语料的语义单元预测单语语料中被掩码的语义单元;确定单元,用于在确定所述第一训练任务与所述第二训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行上述方法。上述申请中的一个实施例具有如下优点或有益效果:本申请能够使得多语言模型根据双语语料学习到不同语言之间的语义对齐信息,且能够强化多语言模型对于单语语料中语义信息的学习能力,从而使得多语言模型能够实现不同语言之间的语义交互,提升了多语言模型在学习多语言语料的语义表示时的准确性。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的示意图;图2是根据本申请第二实施例的示意图;图3是根据本申请第三实施例的示意图;图4是根据本申请第四实施例的示意图;图5是用来实现本申请实施例的多语言模型的训练方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本申请第一实施例的示意图。如图1中所示,本实施例的多语言模型的训练方法,具体可以包括如下步骤:S101、获取训练语料,所述训练语料中包含多条双语语料和多条单语语料;S102、使用多条双语语料对多语言模型进行第一训练任务的训练,所述第一训练任务为使得所述多语言模型根据源语言语料的语义单元和掩码预测源语言语料中被掩码的语义单元,根据源语言语料的语义单元和掩码、以及目标语言语料的掩码预测目标语言语料中被掩码的语义单元;S103、使用多条单语语料对多语言模型进行第二训练任务的训练,所述第二训练任务为使得所述多语言模型在根据单语语料生成伪平行语料之后,再根据单语语料的语义单元和掩码、以及伪平行语料的语义单元预测单语语料中被掩码的语义单元;S104、在确定所述第一训练任务与所述第二训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。本实施例的多语言模型的训练方法,在使用双语语料对多语言模型进行第一训练任务的训练时,对双语语料中的源语言语料和目标语言语料进行了区分,使得多语言模型能够学习到不同语言之间的语义对齐信息;而在使用单语语料对多语言模型进行第二训练任务的训练时,通过单语语料及其构造的伪平行语料来进行训练,能够强化多语言模型对于单语语料中语义信息的学习能力。因此,本实施例通过第一训练任务和第二训练任务对多语言模型进行训练,使得多语言模型能够实现不同语言之间的语义交互,提升了多语言模型在学习多语言语料的语义表示时的准确性。本实施例执行S101获取的训练语料中包含多条双语语料和多条单语语料;其中,本实施例获取的每条双语语料中包含源语言语料及其对应的目标语言语料,源语言语料的语种可以为中文、英文、韩文、日文等,而目标语言语料的语种可以为与中文对应的英文、与中文对应的韩文、与英文对应的中文、与韩文对应的英文等;本实施例对多条单语语料的语种不进行限定,可以为中文、英文、韩文、日文等。本实施例中的多语言模型为深度学习模型,其能够对训练语料中被掩码的语义单元进行预测。可以理解的是,本实施例中的语义单元可以为语料中的字、词语或者短语。具体地,本实施例中的多语言模型的网络结构可以包含嵌入层与Transformer层;嵌入层用于将输入至多语言模型的语义单元或者掩码转换为向量;Transformer层中包含多个Transformer块,用于根据嵌入层所转换的向量来预测双语语料中被掩码的语义单元。本实施例中的嵌入层包含语言嵌入层(本文档来自技高网...

【技术保护点】
1.一种多语言模型的训练方法,包括:/n获取训练语料,所述训练语料中包含多条双语语料和多条单语语料;/n使用多条双语语料对多语言模型进行第一训练任务的训练,所述第一训练任务为使得所述多语言模型根据源语言语料的语义单元和掩码预测源语言语料中被掩码的语义单元,根据源语言语料的语义单元和掩码、以及目标语言语料的掩码预测目标语言语料中被掩码的语义单元;/n使用多条单语语料对多语言模型进行第二训练任务的训练,所述第二训练任务为使得所述多语言模型在根据单语语料生成伪平行语料之后,再根据单语语料的语义单元和掩码、以及伪平行语料的语义单元预测单语语料中被掩码的语义单元;/n在确定所述第一训练任务与所述第二训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。/n

【技术特征摘要】
1.一种多语言模型的训练方法,包括:
获取训练语料,所述训练语料中包含多条双语语料和多条单语语料;
使用多条双语语料对多语言模型进行第一训练任务的训练,所述第一训练任务为使得所述多语言模型根据源语言语料的语义单元和掩码预测源语言语料中被掩码的语义单元,根据源语言语料的语义单元和掩码、以及目标语言语料的掩码预测目标语言语料中被掩码的语义单元;
使用多条单语语料对多语言模型进行第二训练任务的训练,所述第二训练任务为使得所述多语言模型在根据单语语料生成伪平行语料之后,再根据单语语料的语义单元和掩码、以及伪平行语料的语义单元预测单语语料中被掩码的语义单元;
在确定所述第一训练任务与所述第二训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。


2.根据权利要求1所述的方法,其中,所述多语言模型的网络结构包含嵌入层与Transformer层,其中所述Transformer层中包含多个Transformer块。


3.根据权利要求2所述的方法,其中,所述使用多条双语语料对多语言模型进行第一训练任务的训练包括:
针对每条双语语料中的源语言语料和目标语言语料进行切词;
分别对源语言语料和目标语言语料的切词结果进行掩码处理;
将源语言语料和目标语言语料包含的语义单元、掩码输入多语言模型;
在由多语言模型中Transformer层的第一个Transformer块根据嵌入层针对各语义单元和各掩码转换得到的向量进行注意力机制的计算之后,Transformer层中下一个Transformer块根据源语言语料的语义单元和掩码进行源语言语料中各掩码的注意力机制的计算,根据源语言语料的语义单元和掩码、以及目标语言语料中的掩码进行目标语言语料中掩码的注意力机制的计算;
根据多语言模型中Transformer层的最后一个Transformer模块的输出,得到源语言语料和目标语言语料中被掩码的语义单元的预测结果。


4.根据权利要求2所述的方法,其中,所述使用多条单语语料对多语言模型进行第二训练任务的训练包括:
针对每条单语语料进行切词;
将单语语料的切词结果和与当前单语语料具有不同语种的语料的虚拟位置输入多语言模型,根据多语言模型的输出结果得到伪平行语料;
对单语语料进行掩码处理之后,将单语语料的语义单元和掩码、以及伪平行语料的语义单元输入多语言模型,根据多语言模型的输出结果得到单语语料中被掩码的语义单元的预测结果。


5.根据权利要求1所述的方法,还包括,
在确定所述第一训练任务与所述第二训练任务的损失函数收敛之前,使用多条双语语料对多语言模型进行第三训练任务的训练,所述第三训练任务为使得多语言模型根据源语言语料和目标语言语料的拼接结果中的语义单元和掩码,来预测拼接结果中被掩码的语义单元;
在确定所述第一训练任务、所述第二训练任务与所述第三训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。


6.根据权利要求1所述的方法,还包括,
在确定所述第一训练任务与所述第二训练任务的损失函数收敛之前,使用多条单语语料对多语言模型进行第四训练任务的训练,所述第四训练任务为使得多语言模型能够单语语料中的语义单元和掩码,来预测单语语料中被掩码的语义单元;
在确定所述第一训练任务、所述第二训练任务与所述第四训练任务的损失函数收敛的情况下,完成所述多语言模型的训练。


7.一种多语言模型的训练装置,包括:
获取单元,用于获取训练语料,所述训练语料中包含多条双语语料和多条单语语料;
第一训练单元,用于使用多条双语语料对多语言模型进行第一训练任务的训练,所述第一训练任务为使得所述多语言模型根据源语言语料的语义单元和掩码预测源语言语料中被掩码...

【专利技术属性】
技术研发人员:欧阳轩王硕寰庞超孙宇田浩吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1