自然语言预训练模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号：35653387 阅读：9 留言：0更新日期：2022-11-19 16:49

本申请提供一种自然语言预训练模型训练方法、装置、设备及存储介质。该方法包括：利用词典对文本进行分词并将词转换为独热编码；将独热编码输入到词嵌入层，利用词嵌入层映射得到每个词对应的静态词向量；将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词的输入向量，将输入向量作为自然语言预训练模型的输入，得到每个词对应的动态词向量；计算每个词对应的静态词向量与动态词向量之间的相似度，将相似度计算结果作为约束项；利用约束项对自然语言预训练模型的原始损失函数进行调整，并对调整原始损失函数后的自然语言预训练模型进行训练。本申请提高了自然语言预训练模型的训练效果，使模型获得更好的精度和泛化性能。精度和泛化性能。精度和泛化性能。

全部详细技术资料下载

【技术实现步骤摘要】
自然语言预训练模型训练方法、装置、设备及存储介质

[0001]本申请涉及自然语言处理
，尤其涉及一种自然语言预训练模型训练方法、装置、设备及存储介质。

技术介绍

[0002]当前主流的基于BERT(Bidirectional Encoder Representation from Transformers)结构的自注意力预训练模型通过将输入文本中的词进行随机遮掩后让模型对遮掩词进行预测的方式，使获得的词向量考虑了上下文关系。目前大多数基于BERT改进的预训练模型是通过增加语料、扩大模型规模等方式来提高模型的表现。
[0003]在自然语言预训练模型的训练过程中，一个词在不同语境下的含义存在差异，但词在不同语境中的含义都衍生自词本身的词义，因此通常会通过词本身的含义来推测一个词在某个语境下的含义。然而，目前基于BERT的预训练模型在设计时都没有充分考虑词本身含义对于训练后得到的词向量的影响，未充分考虑词的本义(静态词义)不仅可能会增加模型训练的时间，也可能会降低模型的精度表现。
[0004]鉴于现有技术中存在的问题，亟需提供一种在考虑词的上下文含义的同时，能够充分考虑词本身的含义，从而提高自然语言预训练模型的训练效果，使模型获得更好的精度和泛化性能的自然语言预训练模型训练方案。

技术实现思路

[0005]有鉴于此，本申请实施例提供了一种自然语言预训练模型训练方法、装置、设备及存储介质，以解决现有技术存在的未能充分考虑词本身的含义，使自然语言预训练模型的训练效果降低，无法使模型获得更好...

【技术保护点】

【技术特征摘要】
1.一种自然语言预训练模型训练方法，其特征在于，包括：利用自然语言预训练模型的词典对文本进行分词，并将所述文本中的词转换为相应的独热编码；将所述文本对应的独热编码输入到词嵌入层，利用所述词嵌入层映射得到每个词对应的静态词向量；将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词对应的输入向量，将所述输入向量作为所述自然语言预训练模型的输入，得到每个词对应的动态词向量；计算每个词对应的所述静态词向量与所述动态词向量之间的相似度，将相似度计算结果作为约束项；利用所述约束项对所述自然语言预训练模型的原始损失函数进行调整，并对所述原始损失函数调整后的自然语言预训练模型进行训练。2.根据权利要求1所述的方法，其特征在于，所述将所述文本对应的独热编码输入到词嵌入层，利用所述词嵌入层映射得到每个词对应的静态词向量，包括：基于所述文本中每个词对应的独热编码，生成所述文本对应的一系列独热编码，将所述一系列独热编码输入到所述词嵌入层，利用所述词嵌入层对所述一系列独热编码进行映射，得到每个词对应的原始向量表示，将每个词的原始向量表示作为静态词向量。3.根据权利要求1所述的方法，其特征在于，所述将每个词对应的静态词向量、段落嵌入向量和位置嵌入向量相加，得到每个词对应的输入向量，将所述输入向量作为所述自然语言预训练模型的输入，得到每个词对应的动态词向量，包括：获取每个词在所述文本中对应的段落嵌入向量和位置嵌入向量，将所述静态词向量、所述段落嵌入向量以及所述位置嵌入向量分别映射到同一维度空间内，将同一维度空间内的所述静态词向量、所述段落嵌入向量以及所述位置嵌入向量进行相加，得到每个词对应的输入向量；将所述输入向量输入到所述自然语言预训练模型中，利用所述自然语言预训练模型进行词遮掩任务和上下句任务的训练，并输出所述文本中每个词对应的动态词向量。4.根据权利要求1所述的方法，其特征在于，所述计算每个词对应的所述静态词向量与所述动态词向量之间的相似度，将相似度计算结果作为约束项，包括：计算每个词的所述静态词向量与所述动态词向量之间的向量内积，将所述向量内积作为静态词向量与动态词向量之间的相似度计算结果，将所述相似度计算结果作为基于所述静态词向量所构造的约束项；其中，所述静态词向量与所述动态词向量之间具有相同维度。5....

【专利技术属性】
技术研发人员：暴宇健，张文俊，袁子涵，
申请(专利权)人：北京龙智数科科技服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人