大语言模型的训练方法及装置制造方法及图纸

技术编号：41851477 阅读：44 留言：0更新日期：2024-06-27 18:28

本说明书实施例提供一种大语言模型的训练方法及装置，以及一种预测模型的训练方法及装置。其中大语言模型的训练方法包括：首先，将训练样本的样本特征输入大语言模型，得到对应的预测结果；该训练样本包括自然语言文本，大语言模型包括混合专家神经网络MoE，所述MoE网络包括门控网络和多个专家网络。接着，基于所述预测结果和所述训练样本的样本标签，确定任务损失项；以及，基于所述多个专家网络对应的多个输出，确定蒸馏损失项；所述多个专家网络之间互为蒸馏学习中的学生和老师。之后，基于所述任务损失项和蒸馏损失项，训练所述大语言模型。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书一个或多个实施例涉及机器学习，尤其涉及一种大语言模型的训练方法及装置，一种预测模型的训练方法及装置，一种计算机可读存储介质，以及一种计算设备。

技术介绍

1、大语言模型(large language models，简称llms)是一类使用深度学习技术构建的、具有大量参数的自然语言处理模型。这类模型通过在大规模文本数据集上进行训练，能够理解和生成自然语言，从而执行多种语言任务，如文本生成、翻译和问答等。

2、混合专家系统(mixture of experts，简称moe)是一种神经网络架构，其基本思想是将复杂的任务分解为多个简单的子任务，每个任务由一个专家(子网络)来处理，额外包括的门控网络(gating network)用于激活(给予高权重)擅于处理给定输入的专家。这样的架构允许神经网络模型在处理各种不同数据时表现出更高的灵活性和专业化。

3、目前，moe架构已被应用在大语言模型中，以期达到以下目的：1)扩展模型规模：通过将大语言模型划分为多个专家，可以大幅度提高模型的参数量而不显著增加计算成本。这是因为...

【技术保护点】

1.一种大语言模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述多个专家网络为两个专家网络；其中，基于所述多个专家网络对应的多个输出，确定蒸馏损失项，包括：

3.根据权利要求2所述的方法，其中，所述两个输出为两个向量；其中，计算所述两个专家网络对应的两个输出之间的差异度，包括：

4.根据权利要求1所述的方法，其中，基于所述多个专家网络对应的多个输出，确定蒸馏损失项，包括：

5.根据权利要求4所述的方法，其中，所述多个输出为多个向量，所述平均输出为平均向量；其中，针对所述多个输出中的各个输出，计算其与所述平均输出之间的差异度，包...

【技术特征摘要】

1.一种大语言模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述多个专家网络为两个专家网络；其中，基于所述多个专家网络对应的多个输出，确定蒸馏损失项，包括：

3.根据权利要求2所述的方法，其中，所述两个输出为两个向量；其中，计算所述两个专家网络对应的两个输出之间的差异度，包括：

4.根据权利要求1所述的方法，其中，基于所述多个专家网络对应的多个输出，确定蒸馏损失项，包括：

5.根据权利要求4所述的方法，其中，所述多个输出为多个向量，所述平均输出为平均向量；其中，针对所述多个输出中的各个输出，计算其与所述平均输出之间的差异度，包括：

6.根据权利要求4所述的方法，其中，基于计算出的多个差异度，确定所述蒸馏损失项，包括：

7.根据权利要求1所述的方法，其中，所述门控网络用于根据其输入确定与所述多个输出对应的多个权重，以及将所述多个权重按照从大到小的顺序排列后排在k位之外的权重置零；其中，...

【专利技术属性】
技术研发人员：谢志添，庄晨熠，石起涛，顾进杰，张冠男，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人