语言模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39195580 阅读：8 留言：0更新日期：2023-10-27 08:42

本公开提供了一种语言模型的训练方法、装置、电子设备及存储介质，涉及计算机技术领域。该方法包括：获取对话数据；使用预设掩码方式对所述对话数据进行第一掩码处理，使用第一掩码处理后的对话数据对语言模型进行阶段训练，获得阶段训练完成的语言模型；将所述对话数据输入至阶段训练完成的语言模型中，获得所述对话数据中各个词元对应的自注意力权重矩阵；根据所述自注意力权重矩阵确定所述对话数据中的目标掩码对象；基于所述目标掩码对象对所述对话数据进行第二掩码处理，使用第二掩码处理后的对话数据对所述阶段训练完成的语言模型进行阶段训练，以获得训练完成的语言模型。以获得训练完成的语言模型。

全部详细技术资料下载

【技术实现步骤摘要】
语言模型的训练方法、装置、电子设备及存储介质

[0001]本公开涉及计算机
，具体而言，涉及一种语言模型的训练方法、语言模型的训练装置、电子设备及存储介质。

技术介绍

[0002]在对基于BERT模型的语言模型进行预训练时，通常通过对输入数据进行token(词元)、短语、片段或者句子级别的掩码处理，然后在输出端进行破坏掩码的重建，使得语言模型可以预测出掩码部分。
[0003]相关技术中，使用随机掩码方式、基于特定先验分布的掩码方式或基于点互信息的掩码方式对语言模型的输入数据进行掩码，这些掩码方式比较简单，或者依赖数据统计的先验信息，导致训练得到的语言模型的准确性较差。
[0004]需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开实施例提供一种语言模型的训练装置、语言模型的训练装置、电子设备及存储介质，该方法可以有针对性地对语言模型进行训练，使得语言模型可以更加准确地预测对话数据中的重要信息，从而提高训练获得的语言模型的准确性。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。
[0007]本公开实施例提供一种语言模型的训练方法，包括：获取对话数据；使用预设掩码方式对所述对话数据进行第一掩码处理，使用第一掩码处理后的对话数据对语言模型进行阶段训练，获得阶段训练完成的语言模型；将所述对话数据输入至阶段训...

【技术保护点】

【技术特征摘要】
1.一种语言模型的训练方法，其特征在于，包括：获取对话数据；使用预设掩码方式对所述对话数据进行第一掩码处理，使用第一掩码处理后的对话数据对语言模型进行阶段训练，获得阶段训练完成的语言模型；将所述对话数据输入至阶段训练完成的语言模型中，获得所述对话数据中各个词元对应的自注意力权重矩阵；根据所述自注意力权重矩阵确定所述对话数据中的目标掩码对象；基于所述目标掩码对象对所述对话数据进行第二掩码处理，使用第二掩码处理后的对话数据对所述阶段训练完成的语言模型进行阶段训练，以获得训练完成的语言模型。2.根据权利要求1所述的方法，其特征在于，根据所述自注意力权重矩阵确定所述对话数据中的目标掩码对象，包括：根据所述自注意力权重矩阵确定概率转移矩阵；根据所述概率转移矩阵和第一随机向量确定各个词元对应的重要性；将重要性较高的预设数量个词元作为所述对话数据中的目标掩码对象。3.根据权利要求1所述的方法，其特征在于，所述对话数据包括多个语句，每个语句包括多个词元；其中，根据所述自注意力权重矩阵确定所述对话数据中的目标掩码对象，包括：根据所述自注意力权重矩阵确定概率转移矩阵；根据所述概率转移矩阵和第一随机向量确定各个词元对应的重要性；将每个语句中的各个词元对应的重要性进行聚合处理，获得每个语句对应的重要性；将重要性较高的预设数量个语句作为所述对话数据中的目标掩码对象。4.根据权利要求1所述的方法，其特征在于，所述对话数据包括多个语句；其中，根据所述自注意力权重矩阵确定所述对话数据中的目标掩码对象，包括：根据所述自注意力权重矩阵确定语句注意力权重矩阵，所述语句注意力权重矩阵包括每个语句相对于每个其他语句的注意力权重；根据所述语句注意力权重矩阵和第二随机向量确定各个语句对应的重要性；将重要性较高的预设数量个语句作为所述对话数据中的目标掩码对象。5.根据权利要求1
‑
4任一项所述的方法，其特征在于，在使用第二掩码处理后的对话数据对所述阶段训练完成的语言模型进行阶段训练之后，所述方法还包括：从所述预设掩码方式和自引导掩码方式随机选择目标掩码方式，所述自引导掩码方式为根据自注意力权重矩阵确定目标掩...

【专利技术属性】
技术研发人员：赵宇明，宋阳，陈蒙，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人