基于语言判别提示的语言感知多语言预训练与微调方法技术

技术编号:39058781 阅读:13 留言:0更新日期:2023-10-12 19:51
一种基于语言判别提示的语言感知多语言预训练与微调方法,包括:多语言感知的预训练阶段,使用包含有不同语种提示和不同语种上下文的输入内容对模型进行预训练,以使模型在预训练过程中学习到以语言提示作为语言判别信号或语言感知元信息来识别或感知语种的多语言感知功能;多语言感知的微调阶段,使用包含有不同语种提示和基于下游任务的不同语种上下文的输入内容对模型进行微调,模型利用语言提示,感知和识别当前输入内容的语言语种,并基于语言感知,完成针对下游任务的模型微调过程。本发明专利技术引入多语言显式区分的语种信息到多语言与训练模型的预训练与微调阶段,提高了多语言模型对于不同语言的感知能力,提升了下游任务的效果。任务的效果。任务的效果。

【技术实现步骤摘要】
基于语言判别提示的语言感知多语言预训练与微调方法


[0001]本专利技术涉及深度学习技术,特别是涉及一种基于语言判别提示的语言感知多语言预训练与微调方法。

技术介绍

[0002]近年来,大规模预训练语言模型如GPT

3和T5在许多自然语言处理(NLP)任务中取得了良好的性能,在多语言(语种)领域同样获得了显著的效果,成为了解决下游任务(情感分类任务、文本摘要任务等)的最主流的实现方案。多语言模型通常在大量多语言语料库上进行预训练,并直接适应特定语言的下游任务。现有的基于transformer架构的具有数百万甚至数十亿个参数的语言模型,直接在统一的语义空间中表示不同的语言,并在没有显式信号的情况下对模型进行微调。现有的研究也表明,在多语言训练中,不同的语言可以在语义、语言学和句法方面相互受益,从而产生显著的可移植性。
[0003]与本专利技术最相似的现有实现方案是以mT5(Massively Multilingual Pre

trained Text

to

text Transformer)预训练语言模型为基础,在输入对应下游任务的输入数据以及对应任务的提示后,使用语言模型来提取句子的语义特征以及对应任务的特征,通过基于Transformer的多层语言模型,最后输出期望的对应任务的句子作为结果。该方法在多种任务上取得了超过先前主流方法的效果。
[0004]然而,现有的实现方案仍然具有以下问题:多语言模型仍然只是隐式地学习训练语料库的语言信息,在下游任务的预训练和微调阶段,模型并没有得到明确的语言提示。这导致了现有的语言模型对输入文本的语种信息并没有感知,因而没法使用对应的语言的模型能力,在处理某单一语种的下游任务上效果仍有提升的空间。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本专利技术的主要目的在于克服上述
技术介绍
的缺陷,提供一种基于语言判别提示的语言感知多语言预训练与微调方法。
[0007]为实现上述目的,本专利技术采用以下技术方案:
[0008]一种基于语言判别提示的语言感知多语言预训练与微调方法,包括如下步骤:
[0009]多语言感知的预训练阶段,使用包含有不同语种提示和不同语种上下文的输入内容对模型进行预训练,以使模型在预训练过程中学习到以所述语言提示作为语言判别信号或语言感知元信息来识别或感知语种的多语言感知功能;
[0010]多语言感知的微调阶段,使用包含有不同语种提示和基于下游任务的不同语种上下文的输入内容对模型进行微调,模型利用语言提示,感知和识别当前输入内容的语言语种,并基于语言感知,完成针对下游任务的模型微调过程。
[0011]进一步地:
[0012]在所述多语言感知的预训练阶段,将输入内容格式化为键值对,其中,使用分隔符区分语种提示和上下文,并将语种提示和上下文进行拼接,得到用于模型预训练的输入内容。
[0013]在所述语言感知的微调阶段,为每个目标任务设计相应的提示模板,将经过预训练阶段训练好的语言提示添加到采用对应语言的上下文前,并格式化为键值对,得到用于模型微调的输入内容。
[0014]所述分隔符包括语言指示符和文本指示符,所述语言指示符和所述文本指示符作为原本词表中所没有的token,模型在训练过程中将其分别作为表示语言提示开头的符号和表示文本开头的符号。
[0015]所述模型为编码器

解码器模型,以文本到文本的方式使用语言提示嵌入来进行训练。
[0016]所述模型为mT5模型,使用交叉熵损失函数训练语言感知的mT5模型。
[0017]在基于mT5模型的预训练检查点t1的基础上进一步预训练。
[0018]在多语言感知的预训练阶段,使用多语言语料库mC4,在多语言输入内容前添加可训练和可存储的语言提示,其中使用随机初始化连续嵌入作为语言提示来表示每种语言。
[0019]在所述多语言感知的预训练阶段,采用掩码语言建模“span

corruption”目标作为预训练目标,将语言提示与模型参数联合训练。
[0020]所述下游任务包括自然语言推理任务、文本任务、情感分类任务和问答任务中的一种或多种。
[0021]一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实现所述的基于语言判别提示的语言感知多语言预训练与微调方法。
[0022]本专利技术具有如下有益效果:
[0023]本专利技术引入多语言显式区分的语种信息到多语言与训练模型的预训练与微调阶段,提高了多语言模型对于不同语言的感知能力,使之可以在多种下游任务上取得进一步的效果提升。
[0024]本专利技术增强了多语言预训练语言模型感知训练数据语言信息的能力,在推理效率不降低的前提下,本专利技术提出的方案在多种下游自然语言处理任务上的效果超过了现有的各种方法,在下游任务中发挥了促进作用。
[0025]本专利技术实施例中的其他有益效果将在下文中进一步述及。
附图说明
[0026]图1为本专利技术一种实施例的基于语言判别提示的语言感知多语言预训练与微调方法的原理图。
具体实施方式
[0027]以下对本专利技术的实施方式做详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本专利技术的范围及其应用。
[0028]本专利技术提出了一种基于语言判别提示的语言感知多语言预训练与微调方法,提出了语言感知的多语言预训练和微调框架,在预训练和微调阶段为模型提供语言信息来优化
模型的训练与微调过程。在多语言预训练阶段,将语言信息作为元信息引入来增强预训练语言的多语言能力。本专利技术通过引入多语言语言信息作为元信息,在多种下游任务中使用统一语言感知的多语言预训练和微调框架,提升了多语言模型的下游任务效果。
[0029]参阅图1,本专利技术实施例提供一种基于语言判别提示的语言感知多语言预训练与微调方法,包括多语言感知的预训练和多语言感知的微调两个阶段。
[0030]在多语言感知的预训练阶段,使用包含有不同语种提示和不同语种上下文的输入内容对模型进行预训练,以使模型在预训练过程中学习到以所述语言提示作为语言判别信号或语言感知元信息来识别或感知语种的多语言感知功能。
[0031]在多语言感知的微调阶段,使用包含有不同语种提示和基于下游任务的不同语种上下文的输入内容对模型进行微调,模型利用语言提示,感知和识别当前输入内容的语言语种,并基于语言感知,完成针对下游任务的模型微调过程。
[0032]在一些实施例中,在所述多语言感知的预训练阶段,将输入内容格式化为键值对,其中,使用分隔符区分语种提示和上下文,并将语种提示和上下文进行拼接,得到用于模型预训练的输入内容。
[0033]在一些实施例中,在所述语言感知的微调阶段,为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语言判别提示的语言感知多语言预训练与微调方法,其特征在于,包括如下步骤:多语言感知的预训练阶段,使用包含有不同语言提示和不同语言上下文的输入内容对模型进行预训练,以使模型在预训练过程中学习到以所述语言提示作为语言判别信号或语言感知元信息来识别或感知语种的多语言感知功能;多语言感知的微调阶段,使用包含有不同语言提示和基于下游任务的不同语言上下文的输入内容对模型进行微调,模型利用语言提示,感知和识别当前输入内容的语言语种,并基于语言感知,完成针对下游任务的模型微调过程。2.如权利要求1所述的方法,其特征在于,在所述多语言感知的预训练阶段,将输入内容格式化为键值对,其中,使用分隔符区分语言提示和上下文,并将语言提示和上下文进行拼接,得到用于模型预训练的输入内容。3.如权利要求1所述的方法,其特征在于,在所述语言感知的微调阶段,为每个目标任务设计相应的提示模板,将经过预训练阶段训练好的语言提示添加到采用对应语言的上下文前,并格式化为键值对,得到用于模型微调的输入内容。4.如权利要求2或3所述的方法,其特征在于,所述分隔符包括语言指示符和文本指示符,所述语言指示符和所述文本指示符作为原本词表中所没有的token,模型在训练过程中将其分别...

【专利技术属性】
技术研发人员:郑海涛吕传承蔡沛东丁宁刘文强吴蓓黄东晓
申请(专利权)人:比邻星科技深圳有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1