【技术实现步骤摘要】
一种自然语言模型的获取方法及相关设备
[0001]本申请涉及人工智能领域中的自然语言理解领域,尤其涉及一种自然语言模型的获取方法及相关设备。
技术介绍
[0002]随着人工智能的不断发展,神经网络模型在自然语言理解领域被广泛应用。自然语言理解模型的网络结构复杂,训练过程往往需要大量的训练数据支撑;针对某一具体任务而言,为了避免该任务训练数据较少而不足以训练网络模型的情况发生,同时为了加快训练速度,现有主流的自然语言理解模型都是基于预训练模型的微调模型。即基于公开的无标注数据,首先在掩码语言模型(masked language model,MLM)或者下句预测模型(next sentence prediction,NSP)等任务上预训练一个模型,然后基于具体的自然语言理解任务来设计该预训练模型的下游网络结构,接着再利于该任务的标注数据来对整个网络结构进行微调训练,最终得到关于具体任务的神经网络模型。
[0003]在预训练过程中,往往需要大量无标注文本数据,这些无标注文本数据通常来自于对应语言的文本数据集;因此,对于英语 ...
【技术保护点】
【技术特征摘要】
1.一种自然语言模型的获取方法,其特征在于,所述方法包括:获取预训练模型,所述预训练模型包括第一词嵌入层,所述第一词嵌入层包括多种语言的混合语言词汇表,所述第一词嵌入层用于根据所述混合语言词汇表对输入语料进行词向量表示;确定所述多种语言中的第一语言,并将所述第一词嵌入层的所述混合语言词汇表替换为所述第一语言对应的第一词汇表;根据所述第一语言的无标注语料对替换后的预训练模型进行训练,更新所述第一词嵌入层的参数;根据更新后的预训练模型的参数调整任务模型的参数;根据所述第一语言对应的第一标注语料对所述任务模型进行训练,并根据训练结果得到第一语言模型。2.根据权利要求1所述的方法,其特征在于,所述任务模型还包括第二词嵌入层,所述根据更新后的所述预训练模型的参数调整任务模型的参数,包括:根据更新后的所述第一词嵌入层的参数初始化所述第二词嵌入层的参数。3.根据权利要求1至2任一项所述的方法,其特征在于,所述任务模型包括任务层;所述根据所述第一语言对应的第一标注语料对所述任务模型进行训练,该训练过程包括:向所述任务模型输入所述第一标注语料的第一文本数据;所述第一标注语料包括所述第一文本数据和所述第一文本数据的标注标签;通过所述任务模型得到所述第一文本数据的输出标签;根据所述第一文本数据的输出标签更新所述任务层的参数;其中,所述任务模型的训练目的为提高所述第一文本数据的输出标签和标注标签的近似度。4.根据权利要求2至3任一项所述的方法,其特征在于,所述方法还包括:确定所述多种语言中的目标语言,其中,在所述混合词汇表中,所述目标语言对应的词汇量小于所述第一语言对应的词汇量;将所述第二词嵌入层的第一词汇表替换为所述目标语言对应的第二词汇表;根据所述目标语言的语料数据对替换后的第一语言模型进行训练,并根据训练结果得到所述目标语言对应的目标语言模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标语言的语料数据对替换后的第一语言模型进行训练,包括:根据所述目标语言的无标注语料对替换后的第一语言模型进行训练;其中,训练过程为根据所述目标语言的无标注语料对应的输出结果,对所述第二词嵌入层的参数进行更新。6.根据权利要求4至5任一项所述的方法,其特征在于,所述根据所述目标语言的语料数据对替换后的第一语言模型进行训练,包括:根据所述目标语言的标注语料对更新后的第一语言模型进行训练;其中,训练过程为根据所述目标语言的标注语料对应的输出结果,对所述第二词嵌入层和所述任务层的参数进行更新。7.根据权利4至6任一项所述的方法,其特征在于,所述目标语言包括至少两种语言;在所述目标语言的语料数据中,所述至少两种语言的语料数量的比值,不小于预设阈值。
8.一种自然语言模型的训练设备,其特征在于,所述训练设备包括:获取单元,用于获取预训练模型,所述预训练模型包括第一词嵌入层,所述第一词嵌入...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。