温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明涉及芯片设计技术领域,特别是涉及基于MOE场景的数据均衡分配方法、电子设备及存储介质。根据所述混合专家模型MOE中的专家总数量G、每次迭代处理的训练文本的数据序列长度U和处理每个词元的专家分配数量Q计算每个专家处平均分配词元的平均数据...该专利属于沐曦集成电路(上海)有限公司所有,仅供学习研究参考,未经过沐曦集成电路(上海)有限公司授权不得商用。
温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明涉及芯片设计技术领域,特别是涉及基于MOE场景的数据均衡分配方法、电子设备及存储介质。根据所述混合专家模型MOE中的专家总数量G、每次迭代处理的训练文本的数据序列长度U和处理每个词元的专家分配数量Q计算每个专家处平均分配词元的平均数据...