当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于层次化通信的高效混合专家模型及方法技术

技术编号:38072451 阅读:21 留言:0更新日期:2023-07-06 08:41
本发明专利技术公开了一种基于层次化通信的高效混合专家模型方法,基于Transformer模型,将Transformer模型中的部分FFN层替换为设有结构化通信机制的MoE层;MoE层包括多个专家网络,每次计算时只有部分专家网络被激活参与计算,不同专家网络之间不共享参数;在结构化通信机制中,将用于与MoE层通信的数据分成三组,按照分配优先顺序依次为加速器内部通信组、节点内部通信组和全局通信组;根据词和专家网络之间的匹配分数将词分配到对应通信组,使分配到加速器内的词与加速器内所有专家网络的匹配分数及分配到节点内的词与节点内所有专家网络的匹配分数均相对比较高。本发明专利技术减少MoE的通信代价且提升模型训练速度。的通信代价且提升模型训练速度。的通信代价且提升模型训练速度。

【技术实现步骤摘要】
一种基于层次化通信的高效混合专家模型及方法


[0001]本专利技术涉及一种混合专家模型方法,特别涉及一种基于层次化通信的高效混合专家模型及方法。

技术介绍

[0002]目前,混合专家模型(MoE)最早被提出来的时候是作为一种集成学习的技术,将多个专家的计算结果集成起来。Shazeer等人提出一种稀疏的混合专家模型,通过门控网络,选择专家的组合;通过混合数据并行性和模型并行性,增强模型的并行能力。Gshard将稀疏混合专家模型引入到Transformer的架构上,将Transformer中的FFN层替换为多个FFN专家。Switch Transformer将Gshard中的Top

2路由替换为Top

1路由,并使用混合精度训练方法训练MoE模型。Deepspeed

MoE将ZerO的并行技术和MoE的并行技术结合在一起。MoE技术已经被用于训练很多大规模的预训练语言模型。
[0003]虽然混合专家模型(MoE)有很高的计算效率,但是其通信代价很高,严重制约了模型的训练和推断速度。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于层次化通信的高效混合专家模型方法,其特征在于,该方法基于Transformer模型,将Transformer模型中的部分FFN层替换为设有结构化通信机制的MoE层;MoE层包括多个专家网络,每次计算时只有部分专家网络被激活参与计算,不同的专家网络之间不共享参数;在结构化通信机制中,将用于与MoE层通信的数据分成三组,按照分配优先顺序依次为加速器内部通信组、节点内部通信组和全局通信组;根据词和专家网络之间的匹配分数将词分配到对应通信组,使分配到加速器内的词与加速器内所有专家网络的匹配分数及分配到节点内的词与节点内所有专家网络的匹配分数均相对比较高。2.根据权利要求1所述的基于层次化通信的高效混合专家模型方法,其特征在于,根据词和专家网络之间的匹配分数将词分配到每个通信组的方法包括如下步骤:步骤1,先计算词和每个专家网络的匹配分数;对加速器内的所有专家网络的分数求和,得到词和加速器内专家网络的匹配分数;对节点内的所有专家网络的分数求和,得到词和节点内部专家网络的匹配分数;步骤2,根据词和加速器内部专家网络的匹配分数,筛选匹配分数从高到低排序靠前的n1个词,发送到加速器内部进行通信;步骤3,从步骤2筛选后剩下的词中,根据词和节点内部专家网络的匹配分数,筛选匹配分数从高到低排序靠前的n2个词,发送到节点内部进行通信;步骤4,步骤3筛选后剩下的词分配到全局通信组。3.根据权利要求2所述的基于层次化通信的高效混合专家模型方法,其特征在于,步骤2和步骤3中,按照设定的比例筛选。4.根据权利要求2所述的基于层次化通信的高效混合专家模型方法,其特征在于,步骤2中,筛选匹配分数从高到低排序靠前的n1个词后,就将这n1个词的分数替换为

∞;步骤3中,筛选匹配分数从高到低排序靠前的n2个词后,就将这n2个词的分数替换为

∞。5.根据权利要求1所述的基于层次化通信的高效混合专家模型方法,其特征在于,给定一个包含n个词的输入序列X:{x1,x2,

,x
n
},根据词和专家网络之间的匹配分数矩阵M将输入序列中第i个词x
i
,i=1,2,

,n,根据top

2路由为每个输入词选择匹配分数较高的2个专家网络;其中:M=XW
E
;式中:M
ij
为输入序列中第i个词和第j个专家网络之间的匹配分数;W
E
为映射矩阵,W
E
矩阵中的每一列都对应一个专家网络嵌入;为第j个专家网络的嵌入向量。6.根据权利要求1所述的基于层次化通信的高效混合专家模型方法,其特征在于,通过三个线性变换矩阵,将维度较高的原始输入专家网络的特征数据,分别对应三个通信组,变换为维度较低的特征数据后输入至专家网络;将从专家网络输出的特征数据,通过另外三个线性变换矩阵,转换为与原始输入专家网络的特征数据相同维度的特征数据。7.根据权利要求6所述的基于层次化通信的高效混合专家模型方法,其特征在于,设d
intra

accelerator
为加速器内通信数据维度,设d
intra

【专利技术属性】
技术研发人员:熊德意曾致远
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1