语言模型的预训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37257609 阅读:52 留言:0更新日期:2023-04-20 23:33
本申请提出一种语言模型的预训练方法、装置、电子设备和存储介质,其中,包括:基于获取的训练语料和对训练语料的下文标注的实体文本,以把训练语料输入语言模型的编码器,得到训练语料的隐状态编码,同时根据待解码的各字符位置在下文中的排序,确定位置编码,结合隐状态编码和位置编码,得到语言模型的解码器进行解码的各字符位置上的预测字符,并与实体文本进行比较,以对语言模型的编码器和解码器进行预训练,由此,在对语言模型的编码器和解码器进行预训练过程中,解码实体时,解码出来的实体文本中的字不再作为该实体的未解码字的输入,从而使得预训练模型完整的学习实体文本,减小对解码器语言模型的依赖性,提高了语言模型训练的效果。言模型训练的效果。言模型训练的效果。

【技术实现步骤摘要】
语言模型的预训练方法、装置、电子设备和存储介质


[0001]本申请涉及自然语言处理领域,尤其涉及一种语言模型的预训练方法、装置、电子设备和存储介质。

技术介绍

[0002]预训练语言模型是计算机
的一个重要分支,通过进行预训练学习到上下文之间的通用映射关系后,再适配所需任务进行较短的适配训练后便可以执行所需任务,例如:摘要生成任务、问答任务和关键词提取任务等等。
[0003]相关技术中,通常传统的预训练语言模型的解码器是逐字生成文本片段的,例如,生成“北京”,生成“京”时,“北”会输入到解码器,但该方法让解码器实际仅仅依赖解码端的语言模型进行了生成,降低了解码实体的难度,从而导致预训练语言模型不能完整的学习所有的实体文本。

技术实现思路

[0004]本申请提出一种语言模型的预训练方法、装置、电子设备和存储介质。
[0005]本申请第一方面实施例提出了一种语言模型的预训练方法,包括以下步骤:获取训练语料,以及对所述训练语料的下文标注的实体文本;将所述训练语料输入语言模型的编码器,以得到所述训练语料的隐状态编码;根据待解码的各字符位置在所述下文中的排序,确定位置编码;将所述隐状态编码和所述位置编码输入所述语言模型的解码器进行解码,以得到各所述字符位置上的预测字符;根据所述预测字符与所述实体文本中对应字符之间的差异,对所述语言模型的编码器和解码器进行预训练。
[0006]在本申请的一个实施例中,所述获取训练语料,包括:从语料集合内读取语料;对读取的语料中的部分字符进行掩码,以得到所述训练语料。
[0007]在本申请的一个实施例中,所述对读取的语料中的部分字符进行掩码,以得到所述训练语料,包括:依据设定的比例,从所述语料中选取多个字符;将所述语料中的所述多个字符替换为目标字符,得到所述训练语料。
[0008]在本申请的一个实施例中,所述根据待解码的各字符位置在所述下文中的排序,确定位置编码,包括:确定所述实体文本包含的字符个数;根据所述字符个数,对各所述字符位置在所述下文中的排序进行归一化;根据各所述字符位置归一化后的排序,确定各所述字符位置的位置编码。
[0009]本申请第二方面实施例提出了一种语言模型的适配训练方法,所述方法包括:获取如第一方面所述的方法预训练得到的语言模型;根据所述语言模型待适配的任务,获取所述任务对应的上文文本和标准下文;将所述上文文本输入所述语言模型的编码器,以得到所述上文文本的隐状态编码;对所述上文文本的隐状态编码,采用所述语言模型的解码器进行解码,以得到所述上文文本对应的预测下文;根据所述标准下文和所述预测下文之间的差异,对所述语言模型进行参数调整。
[0010]在本申请的一个实施例中,所述对所述上文文本的隐状态编码,采用所述语言模型的解码器进行解码,以得到所述上文文本对应的预测下文,包括:将设定的起始符和所述上文文本的隐状态编码输入所述语言模型的解码器进行解码,以得到所述预测下文中的首个预测字符;重复执行将所述解码器上一次解码得到的预测字符和所述上文文本的隐状态编码输入所述解码器进行解码,以得到所述预测下文中后续的预测字符的步骤,直至解码得到的预测字符为设定的结束符;根据顺序解码得到的各所述预测字符,生成所述预测下文。
[0011]本申请提出一种语言模型的预训练方法,基于获取的训练语料和对训练语料的下文标注的实体文本,以把训练语料输入语言模型的编码器,得到训练语料的隐状态编码,同时根据待解码的各字符位置在下文中的排序,确定位置编码,结合隐状态编码和位置编码,得到语言模型的解码器进行解码的各字符位置上的预测字符,并与实体文本进行比较,以对语言模型的编码器和解码器进行预训练,由此,在对语言模型的编码器和解码器进行预训练过程中,解码实体时,解码出来的实体文本中的字不再作为该实体的未解码字的输入,从而使得预训练模型完整的学习实体文本,以减小对解码器语言模型的依赖性,提高了语言模型训练的效果。
[0012]本申请第三方面实施例提出了一种语言模型的预训练装置,包括以下装置:第一获取模块,用于获取训练语料,以及对所述训练语料的下文标注的实体文本;第一输入模块,用于将所述训练语料输入语言模型的编码器,以得到所述训练语料的隐状态编码;确定模块,用于根据待解码的各字符位置在所述下文中的排序,确定位置编码;第一解码模块,用于将所述隐状态编码和所述位置编码输入所述语言模型的解码器进行解码,以得到各所述字符位置上的预测字符;预训练模块,用于根据所述预测字符与所述实体文本中对应字符之间的差异,对所述语言模型的编码器和解码器进行预训练。
[0013]在本申请的一个实施例中,所述第一获取模块,包括:读取单元,用于从语料集合内读取语料;掩码单元,用于对读取的语料中的部分字符进行掩码,以得到所述训练语料。
[0014]在本申请的一个实施例中,所述掩码单元,具体用于:依据设定的比例,从所述语料中选取多个字符;将所述语料中的所述多个字符替换为目标字符,得到所述训练语料。
[0015]在本申请的一个实施例中,所述确定模块,具体用于:确定所述实体文本包含的字符个数;根据所述字符个数,对各所述字符位置在所述下文中的排序进行归一化;根据各所述字符位置归一化后的排序,确定各所述字符位置的位置编码。
[0016]本申请第四方面实施例提出了一种语言模型的适配训练装置,所述装置包括:第二获取模块,用于获取第三方面所述的装置预训练得到的语言模型;第三获取模块,用于根据所述语言模型待适配的任务,获取所述任务对应的上文文本和标准下文;第二输入模块,用于将所述上文文本输入所述语言模型的编码器,以得到所述上文文本的隐状态编码;第二解码模块,用于对所述上文文本的隐状态编码,采用所述语言模型的解码器进行解码,以得到所述上文文本对应的预测下文;调整模块,用于根据所述标准下文和所述预测下文之间的差异,对所述语言模型进行参数调整。
[0017]在本申请的一个实施例中,所述第二解码模块,具体用于:将设定的起始符和所述上文文本的隐状态编码输入所述语言模型的解码器进行解码,以得到所述预测下文中的首个预测字符;重复执行将所述解码器上一次解码得到的预测字符和所述上文文本的隐状态
编码输入所述解码器进行解码,以得到所述预测下文中后续的预测字符的步骤,直至解码得到的预测字符为设定的结束符;根据顺序解码得到的各所述预测字符,生成所述预测下文。
[0018]本申请提出一种语言模型的预训练装置,基于获取的训练语料和对训练语料的下文标注的实体文本,以把训练语料输入语言模型的编码器,得到训练语料的隐状态编码,同时根据待解码的各字符位置在下文中的排序,确定位置编码,结合隐状态编码和位置编码,得到语言模型的解码器进行解码的各字符位置上的预测字符,并与实体文本进行比较,以对语言模型的编码器和解码器进行预训练,由此,在对语言模型的编码器和解码器进行预训练过程中,解码实体时,解码出来的实体文本中的字不再作为该实体的未解码字的输入,从而使得预训练模型完整的学习实体文本,以减小对解码器语言本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型的预训练方法,其特征在于,包括以下步骤:获取训练语料,以及对所述训练语料的下文标注的实体文本;将所述训练语料输入语言模型的编码器,以得到所述训练语料的隐状态编码;根据待解码的各字符位置在所述下文中的排序,确定位置编码;将所述隐状态编码和所述位置编码输入所述语言模型的解码器进行解码,以得到各所述字符位置上的预测字符;根据所述预测字符与所述实体文本中对应字符之间的差异,对所述语言模型的编码器和解码器进行预训练。2.根据权利要求1所述的方法,其特征在于,所述获取训练语料,包括:从语料集合内读取语料;对读取的语料中的部分字符进行掩码,以得到所述训练语料。3.根据权利要求2所述的方法,其特征在于,所述对读取的语料中的部分字符进行掩码,以得到所述训练语料,包括:依据设定的比例,从所述语料中选取多个字符;将所述语料中的所述多个字符替换为目标字符,得到所述训练语料。4.根据权利要求1

3任一项所述的方法,其特征在于,所述根据待解码的各字符位置在所述下文中的排序,确定位置编码,包括:确定所述实体文本包含的字符个数;根据所述字符个数,对各所述字符位置在所述下文中的排序进行归一化;根据各所述字符位置归一化后的排序,确定各所述字符位置的位置编码。5.一种语言模型的适配训练方法,其特征在于,所述方法包括:获取如权利要求1

4任一项所述的方法预训练得到的语言模型;根据所述语言模型待适配的任务,获取所述任务对应的上文文本和标准下文;将所述上文文本输入所述语言模型的编码器,以得到所述上文文本的隐状态编码;对所述上文文本的隐状态编码,采用所述语言模型的解码器进行解码,以得到所述上文文本对应的预测下文;根据所述标准下文和所述预测下文之间的差异,对所述语言模型进行参数调整。6.根据权利要求5所述的方法,其特征在于,所述对所述上文文本的隐状态编码,采用所述语言模型的解码器进行解码,以得到所述上文文本对应的预测下文,包括:将设定的起始符和所述上文文本的隐状态编码输入所述语言模型的解码器进行解码,以得到所述预测下文中的首个预测字符;重复执行将所述解码器上一次解码得到的预测字符和所述上文文本的隐状态编码输入所述解码器进行解码,以得到所述预测下文中后续的预测字符的步骤,直至解码得到的预测字符为设定的结束符;根据顺序解码得到的各所述预测字符,生成所述预测下文。7.一种语言模型的预训练装置,其特征在于,包括以下装置:第一获取模块,用于获取训练语料,以及对所述训练语料的下文标注的实体文本;第一输入模块,用于将所述训练语料输入语言模型的编码器,以得到所述训练语料的隐状态编码;
确定模块,用于根据待解码的各字符位置在...

【专利技术属性】
技术研发人员:李浩然
申请(专利权)人:北京京东尚科信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1