当前位置: 首页 > 专利查询>厦门大学专利>正文

基于层冻结的混合专家模型训练系统技术方案

技术编号:44664985 阅读:18 留言:0更新日期:2025-03-19 20:22
本发明专利技术公开了基于层冻结的混合专家模型训练系统,涉及模型训练领域,包括外存、冻结控制器、资源分配控制器和若干计算设备;外存存储用于训练混合专家模型的数据集;冻结控制器根据专家选择路径进行冻结决策,交与计算设备执行;资源分配控制器基于冻结层专家选择路径执行词元分组算法计算专家热度,根据专家热度分配计算资源;计算设备存储混合专家模型,执行模型训练操作,根据层冻结决策执行层冻结任务,将冻结层专家选择路径和专家选择路径分别反馈给资源分配控制器和冻结控制器。本发明专利技术通过层冻结技术进行混合专家模型的训练,保持模型精度的同时减小训练成本;基于词源分组算法进行计算资源分配,实现设备负载均衡。

【技术实现步骤摘要】

本专利技术涉及模型训练领域,尤其涉及基于层冻结的混合专家模型训练系统


技术介绍

1、混合专家模型(moe,mixture of experts)的分布式训练系统:moe是由许多小模型组成的大模型,可以认为不同的小模型是不同领域的专家,只有在输入其领域的数据时才能激活。如今,moe已经适应于不同类型的深度神经网络模型,特别是在提高语言模型的性能方面显示出巨大的潜力。在分布式训练方面,为了适应大规模模型的巨大计算需求,现有系统采用专家并行、数据并行和张量并行等多种混合并行方法;为了提高计算设备的使用率,现有系统采用自适应并行、影子专家和热度预测等优化方法;为了减少moe训练中的全对全通信,现有系统提出分层的全对全算法,细粒度调度等优化方法。

2、层冻结技术:研究表明,深度学习模型呈现从浅到深的收敛特性,证实了层冻结(layer freezing)的可行性。但由于缺乏先验知识(例如训练好的模型),因此很难在训练过程中量化一层的训练进度。此外,过早进行层冻结会严重损害模型的精度。现有的层冻结机制多针对于传统的深度学习模型,采用静态冻结、梯度指标和离线本文档来自技高网...

【技术保护点】

1.一种基于层冻结的混合专家模型训练系统,其特征在于,包括外存、冻结控制器、资源分配控制器和若干计算设备:

2.根据权利要求1所述的基于层冻结的混合专家模型训练系统,其特征在于,所述基于专家选择路径计算冻结评估指标,并根据冻结评估指标做出冻结决策,具体步骤如下:

3.根据权利要求2所述的基于层冻结的混合专家模型训练系统,其特征在于,所述冻结评估指标为专家选择路径变化率;所述专家选择路径变化率为混合专家模型训练时,相邻迭代间的专家选择不变的输入数据占所有输入数据的比例。

4.根据权利要求1所述的基于层冻结的混合专家模型训练系统,其特征在于,所述基于冻结层...

【技术特征摘要】

1.一种基于层冻结的混合专家模型训练系统,其特征在于,包括外存、冻结控制器、资源分配控制器和若干计算设备:

2.根据权利要求1所述的基于层冻结的混合专家模型训练系统,其特征在于,所述基于专家选择路径计算冻结评估指标,并根据冻结评估指标做出冻结决策,具体步骤如下:

3.根据权利要求2所述的基于层冻结的混合专家模型训练系统,其特征在于,所述冻结评估指标为专家选择路径变化率;所述专家选择路径变化率为混合专家模型训练时,相邻迭代间的专家选择不变的输入数据占所有输入数据的比例。

4.根据权利要求1所述的基于层冻结的混合专家模型训练系统,其特征在于,所述基于冻结层专家选择路径执行词元分组算法,计算专家热度,根据专家热度分配计算设备的计算资源,具体如下:

5.根据权利要求1所述的基于层冻结的混合专家模型训练系统,其特征在于,冻...

【专利技术属性】
技术研发人员:高聪明陈嘉文舒继武张一鸣向乔吴荣鑫沈志荣
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1