【技术实现步骤摘要】
多语言语义表示模型的训练方法、装置、设备及存储介质
本申请涉及计算机
,尤其涉及基于人工智能的自然语言处理领域,具体涉及一种多语言语义表示模型的训练方法、装置、设备及存储介质。
技术介绍
自然语言处理(NaturalLanguageProcessing;NLP)是人工智能(ArtificialIntelligence;AI)的一个非常重要的子领域。现有的NLP任务的学习范式大多采用预训练(Pre-training)加微调(Fine-tuning)的方式。首先通过预训练任务在无监督语料中初步建模,然后在下游任务上使用任务数据进行微调。且现有的经验表明,预训练模型可以起到对模型参数的正则化的约束作用,可以极大的提升下游任务的表现能力。基于以上所述,且随着全球化的不断发展,不同语言之间的信息交换也越来越重要,为了提升多语言语义表示模型在多语言任务上的性能,多语言语义表示模型的建模显得尤为重要。现有的多语言语义表示模型在预训练时,分别针对每一种语言进行单独训练,进而可以学习到每一种语言的语义表示能力。但是现有的 ...
【技术保护点】
1.一种多语言语义表示模型的训练方法,其中,所述方法包括:/n采用包含多种语言的数条训练语料,对多语言语义表示模型进行训练,使得所述多语言语义表示模型学习各种语言的语义表示能力;/n对于所述数条训练语料中的各所述训练语料,生成相应的混杂语言语料,所述混杂语言语料中包括至少两种语言的语料;/n采用各所述混杂语言语料及对应的所述训练语料,对所述多语言语义表示模型进行训练,使得所述多语言语义表示模型学习不同语言的语义对齐信息。/n
【技术特征摘要】
1.一种多语言语义表示模型的训练方法,其中,所述方法包括:
采用包含多种语言的数条训练语料,对多语言语义表示模型进行训练,使得所述多语言语义表示模型学习各种语言的语义表示能力;
对于所述数条训练语料中的各所述训练语料,生成相应的混杂语言语料,所述混杂语言语料中包括至少两种语言的语料;
采用各所述混杂语言语料及对应的所述训练语料,对所述多语言语义表示模型进行训练,使得所述多语言语义表示模型学习不同语言的语义对齐信息。
2.根据权利要求1所述的方法,其中,对于所述数条训练语料中的各所述训练语料,生成相应的混杂语言语料,包括:
对于所述数条训练语料中的各所述训练语料中随机指定的第一目标片段,采用所述多语言语义表示模型,预测所述第一目标片段位置处、采用不同于所述训练语料的第一语言的第二语言表示的第一替换片段;
根据所述训练语料、所述第一目标片段和所述第二语言表示的第一替换片段,生成所述混杂语言语料。
3.根据权利要求2所述的方法,其中,根据所述训练语料、所述第一目标片段和所述第二语言表示的第一替换片段,生成所述混杂语言语料之后,还包括:
在所述混杂语言语料中,对于随机指定的所述第一替换片段之外的第二目标片段,采用所述多语言语义表示模型,预测所述第二目标片段位置处、采用不同于所述第一语言的第三语言表示的第二替换片段;
根据所述混杂语言语料、所述第二目标片段和所述第三语言表示的第二替换片段,更新所述混杂语言语料。
4.根据权利要求2-3任一所述的方法,其中,采用各所述混杂语言语料及对应的所述训练语料,对所述多语言语义表示模型进行训练,使得所述多语言语义表示模型学习不同语言的语义对齐信息,包括:
对于各所述混杂语言语料,将所述混杂语言语料输入至所述多语言语义表示模型中,使得所述多语言语义表示模型预测所述混杂语言语料对应的所述第一语言表示的所述训练语料;
获取预测所述第一语言表示的所述训练语料时所述多语言语义表示模型对应的第一损失函数;
获取生成所述混杂语言语料时所述多语言语义表示模型对应的第二损失函数;
基于所述第一损失函数和第二损失函数,生成总损失函数;
判断所述总损失函数是否收敛;
若未收敛,采用梯度下降法调整所述多语言语义表示模型的参数,并继续采用各所述混杂语言语料进行训练,直至所述总损失函数收敛。
5.根据权利要求4所述的方法,其中,获取生成所述混杂语言语料时所述多语言语义表示模型对应的第二损失函数,包括:
若所述混杂语言语料是基于所述训练语料、所述第一目标片段和所述第二语言表示的第一替换片段生成的,获取所述多语言语义表示模型预测所述第一替换片段的预测概率;
基于所述第一替换片段的预测概率和所述第一损失函数,生成所述多语言语义表示模型对应的所述第二损失函数。
6.根据权利要求4所述的方法,其中,获取生成所述混杂语言语料时所述多语言语义表示模型对应的第二损失函数,包括:
若所述混杂语言语料是基于所述第二目标片段和所述第三语言表示的第二替换片段更新的,获取所述多语言语义表示模型预测所述第一替换片段的预测概率和所述第二替换片段的预测概率;
基于所述第一替换片段的预测概率和所述第一损失函数,生成第一子损失函数;
基于所述第二替换片段的预测概率和所述第一损失函数,生成第二子损失函数;
取所述第一子损失函数和所述第二子损失函数的平均值,作为所述多语言语义表示模型对应的所述第二损失函数。
7.一种多语言语义表示模型的训练装置,其中,所述装置包括:
第一训练模块,用于采用包含多种语言的数条训练语料,对多语言语义表示模型进行训...
【专利技术属性】
技术研发人员:欧阳轩,王硕寰,孙宇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。