【技术实现步骤摘要】
本专利技术涉及芯片设计,特别是涉及基于moe场景的数据均衡分配方法、电子设备及存储介质。
技术介绍
1、混合专家模型(mixture of experts,moe)是一种基于神经网络领域开发的集成学习技术和机器学习方法,主要用于提高模型的计算效率和性能。其核心思想是将模型分为多个专家(experts),每个专家模型都专注于处理特定类型的数据或任务;然后利用门控网络(gating network)选择部分专家来处理输入数据,而不是让所有专家同时处理数据。这种方法使得模型能够在处理大规模数据时,动态选择最适合的专家来参与计算,达到资源利用最大化的目的。其中,门控网络是用于决定哪个专家处理输入数据的模块。它根据输入的特征,动态选择适当的专家处理该数据。例如,如果输入是图片,门控网络可能选择某些专长于图像处理的专家。
2、在实际训练中,存在以下缺陷:
3、第一,某些专家接收并处理的token数据量显著多于其他专家,这些专家的计算时间长、负载重,导致计算不均衡的问题。
4、第二,由于不均衡的负载分配,各个专家向
...【技术保护点】
1.基于MOE场景的数据均衡分配方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,所述数据序列长度的获取步骤包括:在所述训练文本输入所述MOE之前,通过分词器对所述训练文本进行分词处理得到所述词元,对词所述元的数量进行统计得到所述U。
3.根据权利要求1所述的方法,其特征在于,将词元分配给各个专家的分配策略为门控网络。
4.根据权利要求1所述的方法,其特征在于,所述avg和th0之间的关系满足:th0=avg,或者th0=avg±t,其中t为预设的调整因子。
5.根据权利要求1所述的方法
...【技术特征摘要】
1.基于moe场景的数据均衡分配方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,所述数据序列长度的获取步骤包括:在所述训练文本输入所述moe之前,通过分词器对所述训练文本进行分词处理得到所述词元,对词所述元的数量进行统计得到所述u。
3.根据权利要求1所述的方法,其特征在于,将词元分配给各个专家的分配策略为门控网络。
4.根据权利要求1所述的方法,其特征在于,所述avg和th0之间的关系满足:th0=avg,或者th0=avg±t,其中t为预设的调整因子。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括切分优化步骤:
6.根据权利要求5...
【专利技术属性】
技术研发人员:周衍鑫,刘康,
申请(专利权)人:沐曦集成电路上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。