【技术实现步骤摘要】
本专利技术涉及模型训练领域,尤其涉及基于层冻结的混合专家模型训练系统。
技术介绍
1、混合专家模型(moe,mixture of experts)的分布式训练系统:moe是由许多小模型组成的大模型,可以认为不同的小模型是不同领域的专家,只有在输入其领域的数据时才能激活。如今,moe已经适应于不同类型的深度神经网络模型,特别是在提高语言模型的性能方面显示出巨大的潜力。在分布式训练方面,为了适应大规模模型的巨大计算需求,现有系统采用专家并行、数据并行和张量并行等多种混合并行方法;为了提高计算设备的使用率,现有系统采用自适应并行、影子专家和热度预测等优化方法;为了减少moe训练中的全对全通信,现有系统提出分层的全对全算法,细粒度调度等优化方法。
2、层冻结技术:研究表明,深度学习模型呈现从浅到深的收敛特性,证实了层冻结(layer freezing)的可行性。但由于缺乏先验知识(例如训练好的模型),因此很难在训练过程中量化一层的训练进度。此外,过早进行层冻结会严重损害模型的精度。现有的层冻结机制多针对于传统的深度学习模型,采用静态
...【技术保护点】
1.一种基于层冻结的混合专家模型训练系统,其特征在于,包括外存、冻结控制器、资源分配控制器和若干计算设备:
2.根据权利要求1所述的基于层冻结的混合专家模型训练系统,其特征在于,所述基于专家选择路径计算冻结评估指标,并根据冻结评估指标做出冻结决策,具体步骤如下:
3.根据权利要求2所述的基于层冻结的混合专家模型训练系统,其特征在于,所述冻结评估指标为专家选择路径变化率;所述专家选择路径变化率为混合专家模型训练时,相邻迭代间的专家选择不变的输入数据占所有输入数据的比例。
4.根据权利要求1所述的基于层冻结的混合专家模型训练系统,其特征
...【技术特征摘要】
1.一种基于层冻结的混合专家模型训练系统,其特征在于,包括外存、冻结控制器、资源分配控制器和若干计算设备:
2.根据权利要求1所述的基于层冻结的混合专家模型训练系统,其特征在于,所述基于专家选择路径计算冻结评估指标,并根据冻结评估指标做出冻结决策,具体步骤如下:
3.根据权利要求2所述的基于层冻结的混合专家模型训练系统,其特征在于,所述冻结评估指标为专家选择路径变化率;所述专家选择路径变化率为混合专家模型训练时,相邻迭代间的专家选择不变的输入数据占所有输入数据的比例。
4.根据权利要求1所述的基于层冻结的混合专家模型训练系统,其特征在于,所述基于冻结层专家选择路径执行词元分组算法,计算专家热度,根据专家热度分配计算设备的计算资源,具体如下:
5.根据权利要求1所述的基于层冻结的混合专家模型训练系统,其特征在于,冻...
【专利技术属性】
技术研发人员:高聪明,陈嘉文,舒继武,张一鸣,向乔,吴荣鑫,沈志荣,
申请(专利权)人:厦门大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。