【技术实现步骤摘要】
本申请涉及机器学习,特别是涉及一种混合专家模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
技术介绍
1、近年来,随着深度学习技术的快速发展,大规模神经网络在自然语言处理、计算机视觉等领域取得了显著进展。然而,随着模型规模的持续扩大,训练和推理的计算开销急剧增加,这对硬件资源和训练效率提出了更高的要求。混合专家模型(mixture of experts,moe)作为一种稀疏激活机制,通过动态激活部分专家模型处理输入数据,有效降低了计算成本,同时保持了模型的高性能,受到广泛关注。
2、然而,在现有的训练过程中,门控网络的调控机制较为简单,导致多个专家在训练中可能学习到相似的特征处理方式和参数配置。这种同质化现象使得训练后的专家模型对相似的输入产生相同或近似的输出反应,从而降低了模型的实际有效容量,进而导致混合专家模型的鲁棒性较低。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高混合专家模型鲁棒性的混合专家模型的训练方法、装置、计算机设备、
...【技术保护点】
1.一种混合专家模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述每个专家模型的模型参数、所述目标样本、所述目标输出结果和所述子输出结果,得到专家区分奖励信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个专家模型的模型参数,确定模型多样性奖励信息,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述子输出结果,确定输出多样性奖励信息,包括:
5.根据权利要求2所述的方法,其特征在于,所述根据所述目标样本和所述目标输出结果,确定输入输出差异奖励
...【技术特征摘要】
1.一种混合专家模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述每个专家模型的模型参数、所述目标样本、所述目标输出结果和所述子输出结果,得到专家区分奖励信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个专家模型的模型参数,确定模型多样性奖励信息,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述子输出结果,确定输出多样性奖励信息,包括:
5.根据权利要求2所述的方法,其特征在于,所述根据所述目标样本和所述目标输出结果,确定输入输出差异奖励信息,包括:
6.根据权利要求1所述的方法,其特征在于,所述混合专家模型包括门控网络模型和多个...
【专利技术属性】
技术研发人员:杜洋,
申请(专利权)人:中国电信股份有限公司技术创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。