【技术实现步骤摘要】
本专利技术属于神经网络,特别涉及一种基于矩阵路由与token分配的混合专家模型训练优化方法。
技术介绍
1、近年来,大型模型在自然语言处理(nlp)、计算机视觉(cv)和推荐系统等任务中展现出优异的性能。扩展模型规模已被视为进一步提升模型性能表现的关键技术手段。而模型参数规模也迅速从数千亿增长至数万亿,如llama 2、gpt4等。然而,这些超大规模模型的训练和推理需要极高的计算和内存资源。例如,gpt-3拥有1750亿个参数,在1000张a100gpu上训练22天,花费超过120万美元。因此,为了在扩展模型规模的同时,降低模型的训练计算成本,混合专家模型(moe)技术,受到了ai从业人员的广泛关注。moe通过仅激活部分模型参数,显著的减少了模型的计算需求,并在mixtral、grok-1等模型上获得了成功应用。
2、moe模型是一种复杂的神经网络结构,利用多个专门的子模型(专家)来处理不同的输入数据。在moe模型的预训练过程中,输入token由门控网络选择,以激活前k个专家的索引并实现token到专家的调度。调度阶段生成调
...【技术保护点】
1.一种基于矩阵路由与Token分配的混合专家模型训练优化方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于矩阵路由与Token分配的混合专家模型训练优化方法,其特征在于,所述调度索引的生成过程具体为:每个token基于门控网络选择对应的专家,并将每个token的专家选择结果汇总成二维矩阵M,矩阵M通过以下公式实现:
3.根据权利要求2所述的基于矩阵路由与Token分配的混合专家模型训练优化方法,其特征在于,所述组合索引生成的过程为:基于矩阵M,通过GPU的并行矩阵处理特性沿行维度计算累计和Cumsum,保留已选择专家的位置不变:<
...【技术特征摘要】
1.一种基于矩阵路由与token分配的混合专家模型训练优化方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于矩阵路由与token分配的混合专家模型训练优化方法,其特征在于,所述调度索引的生成过程具体为:每个token基于门控网络选择对应的专家,并将每个token的专家选择结果汇总成二维矩阵m,矩阵m通过以下公式实现:
3.根据权利要求2所述的基于矩阵路由与token分配的混合专家模型训练优化方法,其特征在于,所述组合索引生成的过程为:基于矩阵m,通过gpu的并行矩阵处理特性沿行维度计算累计和cumsum,保留已选择专家的位置不变:
4.根据权利要求3所述的基于矩阵路由与token分配的混合专家模型训练优化方法,其特征在于,所述步骤2中还包括:在调度token过程和组合token过程中,基于步骤1生成...
【专利技术属性】
技术研发人员:曾艳,黄成创,叶伟,梅一鹏,张纪林,万健,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。