基于MOE场景的数据均衡分配方法、电子设备及存储介质组成比例

技术编号:43378004 阅读:16 留言:0更新日期:2024-11-19 17:56
本发明专利技术涉及芯片设计技术领域,特别是涉及基于MOE场景的数据均衡分配方法、电子设备及存储介质。根据所述混合专家模型MOE中的专家总数量G、每次迭代处理的训练文本的数据序列长度U和处理每个词元的专家分配数量Q计算每个专家处平均分配词元的平均数据量avg,根据所述avg获取每个专家分配词元的上限阈值th<subgt;0</subgt;。获取每个专家分配词元的实际数据量M,根据M和th<subgt;0</subgt;制定的调整策略将每个专家分配的目标词元的数据量调整为th<subgt;0</subgt;,解决了计算和通信不均衡的问题。

【技术实现步骤摘要】

本专利技术涉及芯片设计,特别是涉及基于moe场景的数据均衡分配方法、电子设备及存储介质。


技术介绍

1、混合专家模型(mixture of experts,moe)是一种基于神经网络领域开发的集成学习技术和机器学习方法,主要用于提高模型的计算效率和性能。其核心思想是将模型分为多个专家(experts),每个专家模型都专注于处理特定类型的数据或任务;然后利用门控网络(gating network)选择部分专家来处理输入数据,而不是让所有专家同时处理数据。这种方法使得模型能够在处理大规模数据时,动态选择最适合的专家来参与计算,达到资源利用最大化的目的。其中,门控网络是用于决定哪个专家处理输入数据的模块。它根据输入的特征,动态选择适当的专家处理该数据。例如,如果输入是图片,门控网络可能选择某些专长于图像处理的专家。

2、在实际训练中,存在以下缺陷:

3、第一,某些专家接收并处理的token数据量显著多于其他专家,这些专家的计算时间长、负载重,导致计算不均衡的问题。

4、第二,由于不均衡的负载分配,各个专家向其他节点传输数据时,本文档来自技高网...

【技术保护点】

1.基于MOE场景的数据均衡分配方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述数据序列长度的获取步骤包括:在所述训练文本输入所述MOE之前,通过分词器对所述训练文本进行分词处理得到所述词元,对词所述元的数量进行统计得到所述U。

3.根据权利要求1所述的方法,其特征在于,将词元分配给各个专家的分配策略为门控网络。

4.根据权利要求1所述的方法,其特征在于,所述avg和th0之间的关系满足:th0=avg,或者th0=avg±t,其中t为预设的调整因子。

5.根据权利要求1所述的方法,其特征在于,所述方...

【技术特征摘要】

1.基于moe场景的数据均衡分配方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述数据序列长度的获取步骤包括:在所述训练文本输入所述moe之前,通过分词器对所述训练文本进行分词处理得到所述词元,对词所述元的数量进行统计得到所述u。

3.根据权利要求1所述的方法,其特征在于,将词元分配给各个专家的分配策略为门控网络。

4.根据权利要求1所述的方法,其特征在于,所述avg和th0之间的关系满足:th0=avg,或者th0=avg±t,其中t为预设的调整因子。

5.根据权利要求1所述的方法,其特征在于,所述方法还包括切分优化步骤:

6.根据权利要求5...

【专利技术属性】
技术研发人员:周衍鑫刘康
申请(专利权)人:沐曦集成电路上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1