一种语言模型训练方法、语言模型推理方法及相关装置制造方法及图纸

技术编号：45855435 阅读：11 留言：0更新日期：2025-07-19 11:14

本申请提供了一种语言模型训练方法、语言模型推理方法及相关装置，该方法包括：获取至少一个对象属性；针对至少一个对象属性中的每个对象属性，执行以下步骤：构造至少一个决策树；其中，决策树的叶节点衡量该对象属性的属性值；将包括该对象属性以及该对象属性的属性值的文本作为训练数据，对第一语言模型进行预训练，确定至少一个决策树的叶节点对应的嵌入向量。在该方法中，利用决策树表示该对象属性下的不同对象属性值与对应的嵌入向量在语言模型的输入层所在位置之间的关系，同一对象属性值出现在不同对象属性中有不同的嵌入向量，使得嵌入向量更能够表征在特定对象属性中的特定含义。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种语言模型训练方法、语言模型推理方法、语言模型训练装置、语言模型推理装置、电子设备、计算机可读存储介质以及计算机程序产品。

技术介绍

1、随着计算机技术的不断发展，能够处理不同类型的自然语言任务的语言模型应运而生。在语言模型的预训练阶段，针对训练数据对应的词元，确定各个词元的嵌入向量。

2、具体地，对训练数据进行分词，得到训练数据对应的多个词元，通过构建词汇表，建立多个词元与多个词元的嵌入向量在语言模型的输入层所在位置之间的关系，通过预训练过程中更新模型参数，确定各个词元的嵌入向量。如此，在推理过程中，基于词汇表，在语言模型中确定各个词元的嵌入向量。

3、在上述方式中，同一个词元在不同推理任务中的嵌入向量均相同。然而，当词元表示对象属性值时，同一个对象属性值在不同对象属性中的差异可以较大，上述词汇表难以准确地表示同一个对象属性值在不同对象属性中的特定含义，影响语言模型的推理性能。

技术实现思路

1、本申请提供了一种语言模型训练方法。该方法...

【技术保护点】

1.一种语言模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述构造至少一个决策树，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取至少一个对象属性，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述将包括该对象属性以及该对象属性的属性值的文本作为训练数据，对第一语言模型进行预训练，确定所述至少一个决策树的叶节点对应的嵌入向量，包括：

5.一种语言模型推理方法，其特征在于，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，所述基于输入输出词汇表和所述第一对象属性...

【技术特征摘要】

1.一种语言模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述构造至少一个决策树，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取至少一个对象属性，包括：

5.一种语言模型推理方法，其特征在于，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，所述基于输入输出词汇表和所述第一对象属性的至少一个决策树，在所述第一语言模型的输入层中，确定所述第n轮回复生成过程对应的输入信息的嵌入向量，包括：

7...

【专利技术属性】
技术研发人员：王倪剑桥，
申请(专利权)人：北京字跳网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人