预训练语言模型的训练方法、语言模型的训练方法及装置制造方法及图纸

技术编号:34190133 阅读:21 留言:0更新日期:2022-07-17 15:13
本公开提供一种预训练语言模型的训练方法、语言模型的训练方法及装置,包括:获取样本文本,根据样本文本执行预训练任务中的至少两种,得到预训练语言模型,其中,预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务,前向因果语言建模任务为由样本文本中在前的词预测样本文本中在后的词的建模任务,反向因果语言建模任务为由样本文本中在后的词预测样本文本中在前的词的建模任务,掩码语言建模任务为由样本文本中非掩码位置的词预测样本文本中掩码位置的词的建模任务,可以实现从多个维度进行预训练,从而实现训练的多样性和灵活性,且可以使得从多个维度训练得到的预训练语言模型具有较高的准确性和可靠性。较高的准确性和可靠性。较高的准确性和可靠性。

【技术实现步骤摘要】
预训练语言模型的训练方法、语言模型的训练方法及装置


[0001]本公开涉及深度学习
,尤其涉及一种预训练语言模型的训练方法、语言模型的训练方法及装置。

技术介绍

[0002]随着互联网和人工智能技术的发展,预训练语言模型被广泛应用于各类自然语言处理任务,如对话系统、机器翻译、文本摘要、信息检索以及标题生成等等。
[0003]在相关技术中,可以采集样本数据,以基于样本数据对基础网络模型进行训练,从而得到预训练语言模型。

技术实现思路

[0004]本公开提供一种预训练语言模型的训练方法、语言模型的训练方法及装置,以提高预训练语言模型的可靠性。
[0005]第一方面,本公开实施例提供一种方法预训练语言模型的训练方法,包括:
[0006]获取样本文本;
[0007]根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,其中,所述预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务;
[0008]其中,所述前向因果语言建模任务为由所述样本文本中在前的词预测所述样本文本中在后的词的建模任务;所述反向因果语言建模任务为由所述样本文本中在后的词预测所述样本文本中在前的词的建模任务;所述掩码语言建模任务为由所述样本文本中非掩码位置的词预测所述样本文本中掩码位置的词的建模任务。
[0009]在本公开的一个实施例中,所述根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,包括:
[0010]对所述样本文本进行分词处理,得到所述样本文本中的每个词;
[0011]根据所述样本文本中的每个词执行预训练任务中的至少两种,得到预训练语言模型。
[0012]在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述反向因果语言建模任务,则根据所述样本文本中的每个词执行所述反向因果语言建模任务,包括:
[0013]针对所述样本文本中的任一词,根据所述任一词和未来词,预测得到所述任一词在所述样本文本中的在前相邻词;
[0014]其中,所述未来词为所述样本文中位于所述任一词之后的词;所述在前相邻词为所述样本文本中位于所述任一词之前且与所述任一词相邻的一个词。
[0015]在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述前向因果语言建模任务,则根据所述样本文本中的每个词执行所述前向因果语言建模任务,包括:
[0016]针对所述样本文本中的任一词,根据所述任一词和历史词,预测得到所述任一词
在所述样本文本中的在后相邻词;
[0017]其中,所述历史词为所述样本文中位于所述任一词之前的词;所述在后相邻词为所述样本文本中位于所述任一词之后且与所述任一词相邻的一个词。
[0018]在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述掩码语言建模任务,则根据所述样本文本中的每个词执行所述掩码语言建模任务,包括:
[0019]对所述样本文本中的至少一个词进行掩码处理,得到掩码位置;
[0020]根据所述样本文本中非掩码位置的词预测得到所述掩码位置的词。
[0021]在本公开的一个实施例中,所述至少两种预训练任务的训练模式包括:交替训练模式、并行训练模式以及串行训练模式。
[0022]第二方面,本公开实施例提供一种语言模型的训练方法,包括:
[0023]获取目标任务场景的训练文本;
[0024]根据所述训练文本对预先训练的预训练语言模型进行训练,得到适用于所述目标任务场景的语言模型;
[0025]其中,所述预训练语言模型是基于如第一方面所述的方法训练得到的。
[0026]第三方面,本公开实施例提供一种预训练语言模型的训练装置,包括:
[0027]第一获取单元,用于获取样本文本;
[0028]执行单元,用于根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,其中,所述预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务;
[0029]其中,所述前向因果语言建模任务为由所述样本文本中在前的词预测所述样本文本中在后的词的建模任务;所述反向因果语言建模任务为由所述样本文本中在后的词预测所述样本文本中在前的词的建模任务;所述掩码语言建模任务为由所述样本文本中非掩码位置的词预测所述样本文本中掩码位置的词的建模任务。
[0030]在本公开的一个实施例中,所述执行单元,包括:
[0031]分词子单元,用于对所述样本文本进行分词处理,得到所述样本文本中的每个词;
[0032]执行子单元,用于根据所述样本文本中的每个词执行预训练任务中的至少两种,得到预训练语言模型。
[0033]在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述反向因果语言建模任务,则所述执行子单元用于,针对所述样本文本中的任一词,根据所述任一词和未来词,预测得到所述任一词在所述样本文本中的在前相邻词;
[0034]其中,所述未来词为所述样本文中位于所述任一词之后的词;所述在前相邻词为所述样本文本中位于所述任一词之前且与所述任一词相邻的一个词。
[0035]在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述前向因果语言建模任务,则所述执行子单元用于,针对所述样本文本中的任一词,根据所述任一词和历史词,预测得到所述任一词在所述样本文本中的在后相邻词;
[0036]其中,所述历史词为所述样本文中位于所述任一词之前的词;所述在后相邻词为所述样本文本中位于所述任一词之后且与所述任一词相邻的一个词。
[0037]在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述掩码语言建模任务,则所述执行子单元用于,对所述样本文本中的至少一个词进行掩码处理,得到掩码
位置,并根据所述样本文本中非掩码位置的词预测得到所述掩码位置的词。
[0038]在本公开的一个实施例中,所述至少两种预训练任务的训练模式包括:交替训练模式、并行训练模式以及串行训练模式。
[0039]第四方面,本公开实施例提供一种语言模型的训练装置,包括:
[0040]第二获取单元,用于获取目标任务场景的训练文本;
[0041]训练单元,用于根据所述训练文本对预先训练的预训练语言模型进行训练,得到适用于所述目标任务场景的语言模型;
[0042]其中,所述预训练语言模型是基于如第一方面所述的方法训练得到的。
[0043]第五方面,本公开实施例提供一种电子设备,包括:
[0044]至少一个处理器;以及
[0045]与至少一个处理器通信连接的存储器;其中,
[0046]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使电子设备能够执行本公开第一方面或第二方面的所述的方法。
[0047]第六方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预训练语言模型的训练方法,包括:获取样本文本;根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,其中,所述预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务;其中,所述前向因果语言建模任务为由所述样本文本中在前的词预测所述样本文本中在后的词的建模任务;所述反向因果语言建模任务为由所述样本文本中在后的词预测所述样本文本中在前的词的建模任务;所述掩码语言建模任务为由所述样本文本中非掩码位置的词预测所述样本文本中掩码位置的词的建模任务。2.根据权利要求1所述的方法,其中,所述根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,包括:对所述样本文本进行分词处理,得到所述样本文本中的每个词;根据所述样本文本中的每个词执行预训练任务中的至少两种,得到预训练语言模型。3.根据权利要求2所述的方法,其中,若执行的至少两种预训练任务中包括所述反向因果语言建模任务,则根据所述样本文本中的每个词执行所述反向因果语言建模任务,包括:针对所述样本文本中的任一词,根据所述任一词和未来词,预测得到所述任一词在所述样本文本中的在前相邻词;其中,所述未来词为所述样本文中位于所述任一词之后的词;所述在前相邻词为所述样本文本中位于所述任一词之前且与所述任一词相邻的一个词。4.根据权利要求2或3所述的方法,其中,若执行的至少两种预训练任务中包括所述前向因果语言建模任务,则根据所述样本文本中的每个词执行所述前向因果语言建模任务,包括:针对所述样本文本中的任一词,根据所述任一词和历史词,预测得到所述任一词在所述样本文本中的在后相邻词;其中,所述历史词为所述样本文中位于所述任一词之前的词;所述在后相邻词为所述样本文本中位于所述任一词之后且与所述任一词相邻的一个词。5.根据权利要求2

4任一项所述的方法,其中,若执行的至少两种预训练任务中包括所述掩码语言建模任务,则根据所述样本文本中的每个词执行所述掩码语言建模任务,包括:对所述样本文本中的至少一个词进行掩码处理,得到掩码位置;根据所述样本文本中非掩码位置的词预测得到所述掩码位置的词。6.根据权利要求1所述的方法,其中,所述至少两种预训练任务的训练模式包...

【专利技术属性】
技术研发人员:陈谦
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1