混合专家模型的训练方法、装置、计算机设备、可读存储介质和程序产品制造方法及图纸

技术编号：44993670 阅读：20 留言：0更新日期：2025-04-15 17:08

本申请涉及一种混合专家模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。该方法包括：获取与大模型输入关联的混合专家模型的训练样本集；训练样本集包括大模型的输入数据以及输入数据对应的输入解析标签信息；将训练样本集中的目标样本输入混合专家模型，得到混合专家模型中每个专家模型的激活概率信息、混合专家模型的目标输出结果和加载专家模型的子输出结果；根据每个专家模型的模型参数、目标样本、目标输出结果和子输出结果，得到专家区分奖励信息；根据激活概率信息、专家区分奖励信息、目标样本和目标输出结果，对混合专家模型进行迭代训练，得到训练完成的混合专家模型。采用本方法能提高混合专家模型鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及机器学习，特别是涉及一种混合专家模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

技术介绍

1、近年来，随着深度学习技术的快速发展，大规模神经网络在自然语言处理、计算机视觉等领域取得了显著进展。然而，随着模型规模的持续扩大，训练和推理的计算开销急剧增加，这对硬件资源和训练效率提出了更高的要求。混合专家模型（mixture of experts，moe）作为一种稀疏激活机制，通过动态激活部分专家模型处理输入数据，有效降低了计算成本，同时保持了模型的高性能，受到广泛关注。

2、然而，在现有的训练过程中，门控网络的调控机制较为简单，导致多个专家在训练中可能学习到相似的特征处理方式和参数配置。这种同质化现象使得训练后的专家模型对相似的输入产生相同或近似的输出反应，从而降低了模型的实际有效容量，进而导致混合专家模型的鲁棒性较低。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高混合专家模型鲁棒性的混合专家模型的训练方法、装置、计算机设备、...

【技术保护点】

1.一种混合专家模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个专家模型的模型参数、所述目标样本、所述目标输出结果和所述子输出结果，得到专家区分奖励信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个专家模型的模型参数，确定模型多样性奖励信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述子输出结果，确定输出多样性奖励信息，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述目标样本和所述目标输出结果，确定输入输出差异奖励信息，包括：

...

【技术特征摘要】

1.一种混合专家模型的训练方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个专家模型的模型参数，确定模型多样性奖励信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述子输出结果，确定输出多样性奖励信息，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述目标样本和所述目标输出结果，确定输入输出差异奖励信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述混合专家模型包括门控网络模型和多个...

【专利技术属性】
技术研发人员：杜洋，
申请(专利权)人：中国电信股份有限公司技术创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人