自然语言预训练模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:35653387 阅读:9 留言:0更新日期:2022-11-19 16:49
本申请提供一种自然语言预训练模型训练方法、装置、设备及存储介质。该方法包括:利用词典对文本进行分词并将词转换为独热编码;将独热编码输入到词嵌入层,利用词嵌入层映射得到每个词对应的静态词向量;将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加,得到每个词的输入向量,将输入向量作为自然语言预训练模型的输入,得到每个词对应的动态词向量;计算每个词对应的静态词向量与动态词向量之间的相似度,将相似度计算结果作为约束项;利用约束项对自然语言预训练模型的原始损失函数进行调整,并对调整原始损失函数后的自然语言预训练模型进行训练。本申请提高了自然语言预训练模型的训练效果,使模型获得更好的精度和泛化性能。精度和泛化性能。精度和泛化性能。

【技术实现步骤摘要】
自然语言预训练模型训练方法、装置、设备及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种自然语言预训练模型训练方法、装置、设备及存储介质。

技术介绍

[0002]当前主流的基于BERT(Bidirectional Encoder Representation from Transformers)结构的自注意力预训练模型通过将输入文本中的词进行随机遮掩后让模型对遮掩词进行预测的方式,使获得的词向量考虑了上下文关系。目前大多数基于BERT改进的预训练模型是通过增加语料、扩大模型规模等方式来提高模型的表现。
[0003]在自然语言预训练模型的训练过程中,一个词在不同语境下的含义存在差异,但词在不同语境中的含义都衍生自词本身的词义,因此通常会通过词本身的含义来推测一个词在某个语境下的含义。然而,目前基于BERT的预训练模型在设计时都没有充分考虑词本身含义对于训练后得到的词向量的影响,未充分考虑词的本义(静态词义)不仅可能会增加模型训练的时间,也可能会降低模型的精度表现。
[0004]鉴于现有技术中存在的问题,亟需提供一种在考虑词的上下文含义的同时,能够充分考虑词本身的含义,从而提高自然语言预训练模型的训练效果,使模型获得更好的精度和泛化性能的自然语言预训练模型训练方案。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种自然语言预训练模型训练方法、装置、设备及存储介质,以解决现有技术存在的未能充分考虑词本身的含义,使自然语言预训练模型的训练效果降低,无法使模型获得更好精度和泛化性能的问题。
[0006]本申请实施例的第一方面,提供了一种自然语言预训练模型训练方法,包括:利用自然语言预训练模型的词典对文本进行分词,并将文本中的词转换为相应的独热编码;将文本对应的独热编码输入到词嵌入层,利用词嵌入层映射得到每个词对应的静态词向量;将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加,得到每个词对应的输入向量,将输入向量作为自然语言预训练模型的输入,得到每个词对应的动态词向量;计算每个词对应的静态词向量与动态词向量之间的相似度,将相似度计算结果作为约束项;利用约束项对自然语言预训练模型的原始损失函数进行调整,并对调整原始损失函数后的自然语言预训练模型进行训练。
[0007]本申请实施例的第二方面,提供了一种自然语言预训练模型训练装置,包括:转换模块,被配置为利用自然语言预训练模型的词典对文本进行分词,并将文本中的词转换为相应的独热编码;映射模块,被配置为将文本对应的独热编码输入到词嵌入层,利用词嵌入层映射得到每个词对应的静态词向量;输入模块,被配置为将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加,得到每个词对应的输入向量,将输入向量作为自然语言预训练模型的输入,得到每个词对应的动态词向量;计算模块,被配置为计算每个词对应的
静态词向量与动态词向量之间的相似度,将相似度计算结果作为约束项;调整模块,被配置为利用约束项对自然语言预训练模型的原始损失函数进行调整,并对调整原始损失函数后的自然语言预训练模型进行训练。
[0008]本申请实施例的第三方面,提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述方法的步骤。
[0009]本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0010]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0011]通过利用自然语言预训练模型的词典对文本进行分词,并将文本中的词转换为相应的独热编码;将文本对应的独热编码输入到词嵌入层,利用词嵌入层映射得到每个词对应的静态词向量;将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加,得到每个词对应的输入向量,将输入向量作为自然语言预训练模型的输入,得到每个词对应的动态词向量;计算每个词对应的静态词向量与动态词向量之间的相似度,将相似度计算结果作为约束项;利用约束项对自然语言预训练模型的原始损失函数进行调整,并对调整原始损失函数后的自然语言预训练模型进行训练。本申请在考虑词的上下文含义的同时,能够充分考虑词本身的含义,从而提高了自然语言预训练模型的训练效果,使模型获得更好的精度和泛化性能。
附图说明
[0012]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0013]图1是本申请实施例提供的自然语言预训练模型训练方法的流程示意图;
[0014]图2是本申请实施例提供的实际应用场景下的约束项的计算过程示意图;
[0015]图3是本申请实施例提供的自然语言预训练模型训练装置的结构示意图;
[0016]图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0017]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0018]近年来,随着人工智能和自然语言技术的不断发展,自然语言预训练模型被广泛应用到各个领域中解决实际场景下的自然语言处理任务,比如文本分类、语音识别等。在当前主流的基于BERT(Bidirectional Encoder Representation from Transformers)结构的自注意力预训练模型通过将输入文本中的词进行随机遮掩后让模型对遮掩词进行预测的方式,使获得的词向量考虑了上下文关系。目前大多数基于BERT改进的预训练模型是通过增加语料、扩大模型规模等方式来提高模型的表现。
[0019]在当前的自然语言处理领域中,主流的基于BERT的预训练模型是通过一个词的上下文来训练得到一个词的动态词向量,这种方式虽然考虑了词在不同语境中的不同含义,但对于词本身的固有含义考虑较少。在自然语言中,一个词在不同语境下的含义存在差异,但词在不同语境中的含义都衍生自词本身的词义,因此通常会通过词本身的含义来推测一个词在某个语境下的含义。然而,目前基于BERT的预训练模型在设计时都没有充分考虑词本身含义对于训练后得到的词向量的影响,未充分考虑词的本义(静态词义)不仅可能会增加模型训练的时间,也可能会降低模型的精度表现。因此现有的针对自然语言预训练模型的训练方法存在模型训练时间长、训练效果差、模型精度和泛化性能比较低的问题。
[0020]鉴于现有技术中存在的问题,本申请提供一种改进后的自然语言预训练模型训练方法,本申请在对自然语言预训练模型进行训练之前,先获取每个词对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自然语言预训练模型训练方法,其特征在于,包括:利用自然语言预训练模型的词典对文本进行分词,并将所述文本中的词转换为相应的独热编码;将所述文本对应的独热编码输入到词嵌入层,利用所述词嵌入层映射得到每个词对应的静态词向量;将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加,得到每个词对应的输入向量,将所述输入向量作为所述自然语言预训练模型的输入,得到每个词对应的动态词向量;计算每个词对应的所述静态词向量与所述动态词向量之间的相似度,将相似度计算结果作为约束项;利用所述约束项对所述自然语言预训练模型的原始损失函数进行调整,并对所述原始损失函数调整后的自然语言预训练模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述将所述文本对应的独热编码输入到词嵌入层,利用所述词嵌入层映射得到每个词对应的静态词向量,包括:基于所述文本中每个词对应的独热编码,生成所述文本对应的一系列独热编码,将所述一系列独热编码输入到所述词嵌入层,利用所述词嵌入层对所述一系列独热编码进行映射,得到每个词对应的原始向量表示,将每个词的原始向量表示作为静态词向量。3.根据权利要求1所述的方法,其特征在于,所述将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加,得到每个词对应的输入向量,将所述输入向量作为所述自然语言预训练模型的输入,得到每个词对应的动态词向量,包括:获取每个词在所述文本中对应的段落嵌入向量和位置嵌入向量,将所述静态词向量、所述段落嵌入向量以及所述位置嵌入向量分别映射到同一维度空间内,将同一维度空间内的所述静态词向量、所述段落嵌入向量以及所述位置嵌入向量进行相加,得到每个词对应的输入向量;将所述输入向量输入到所述自然语言预训练模型中,利用所述自然语言预训练模型进行词遮掩任务和上下句任务的训练,并输出所述文本中每个词对应的动态词向量。4.根据权利要求1所述的方法,其特征在于,所述计算每个词对应的所述静态词向量与所述动态词向量之间的相似度,将相似度计算结果作为约束项,包括:计算每个词的所述静态词向量与所述动态词向量之间的向量内积,将所述向量内积作为静态词向量与动态词向量之间的相似度计算结果,将所述相似度计算结果作为基于所述静态词向量所构造的约束项;其中,所述静态词向量与所述动态词向量之间具有相同维度。5....

【专利技术属性】
技术研发人员:暴宇健张文俊袁子涵
申请(专利权)人:北京龙智数科科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1