基于语言判别提示的语言感知多语言预训练与微调方法技术

技术编号：39058781 阅读：13 留言：0更新日期：2023-10-12 19:51

一种基于语言判别提示的语言感知多语言预训练与微调方法，包括：多语言感知的预训练阶段，使用包含有不同语种提示和不同语种上下文的输入内容对模型进行预训练，以使模型在预训练过程中学习到以语言提示作为语言判别信号或语言感知元信息来识别或感知语种的多语言感知功能；多语言感知的微调阶段，使用包含有不同语种提示和基于下游任务的不同语种上下文的输入内容对模型进行微调，模型利用语言提示，感知和识别当前输入内容的语言语种，并基于语言感知，完成针对下游任务的模型微调过程。本发明专利技术引入多语言显式区分的语种信息到多语言与训练模型的预训练与微调阶段，提高了多语言模型对于不同语言的感知能力，提升了下游任务的效果。任务的效果。任务的效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于语言判别提示的语言感知多语言预训练与微调方法

[0001]本专利技术涉及深度学习技术，特别是涉及一种基于语言判别提示的语言感知多语言预训练与微调方法。

技术介绍

[0002]近年来，大规模预训练语言模型如GPT
‑
3和T5在许多自然语言处理(NLP)任务中取得了良好的性能，在多语言(语种)领域同样获得了显著的效果，成为了解决下游任务(情感分类任务、文本摘要任务等)的最主流的实现方案。多语言模型通常在大量多语言语料库上进行预训练，并直接适应特定语言的下游任务。现有的基于transformer架构的具有数百万甚至数十亿个参数的语言模型，直接在统一的语义空间中表示不同的语言，并在没有显式信号的情况下对模型进行微调。现有的研究也表明，在多语言训练中，不同的语言可以在语义、语言学和句法方面相互受益，从而产生显著的可移植性。
[0003]与本专利技术最相似的现有实现方案是以mT5(Massively Multilingual Pre
‑
trained Text
‑
to
‑
text Transformer)预训练语言模型为基础，在输入对应下游任务的输入数据以及对应任务的提示后，使用语言模型来提取句子的语义特征以及对应任务的特征，通过基于Transformer的多层语言模型，最后输出期望的对应任务的句子作为结果。该方法在多种任务上取得了超过先前主流方法的效果。
[0004]然而，现有的实现方案仍然具有以下问题：多语言模型仍然只是隐式地学习训练...

【技术保护点】

【技术特征摘要】
1.一种基于语言判别提示的语言感知多语言预训练与微调方法，其特征在于，包括如下步骤：多语言感知的预训练阶段，使用包含有不同语言提示和不同语言上下文的输入内容对模型进行预训练，以使模型在预训练过程中学习到以所述语言提示作为语言判别信号或语言感知元信息来识别或感知语种的多语言感知功能；多语言感知的微调阶段，使用包含有不同语言提示和基于下游任务的不同语言上下文的输入内容对模型进行微调，模型利用语言提示，感知和识别当前输入内容的语言语种，并基于语言感知，完成针对下游任务的模型微调过程。2.如权利要求1所述的方法，其特征在于，在所述多语言感知的预训练阶段，将输入内容格式化为键值对，其中，使用分隔符区分语言提示和上下文，并将语言提示和上下文进行拼接，得到用于模型预训练的输入内容。3.如权利要求1所述的方法，其特征在于，在所述语言感知的微调阶段，为每个目标任务设计相应的提示模板，将经过预训练阶段训练好的语言提示添加到采用对应语言的上下文前，并格式化为键值对，得到用于模型微调的输入内容。4.如权利要求2或3所述的方法，其特征在于，所述分隔符包括语言指示符和文本指示符，所述语言指示符和所述文本指示符作为原本词表中所没有的token，模型在训练过程中将其分别...

【专利技术属性】
技术研发人员：郑海涛，吕传承，蔡沛东，丁宁，刘文强，吴蓓，黄东晓，
申请(专利权)人：比邻星科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人