当前位置: 首页 > 专利查询>北京大学专利>正文

Transformer模型的并行训练方法及装置制造方法及图纸

技术编号:37621282 阅读:28 留言:0更新日期:2023-05-18 12:12
本发明专利技术提供一种Transformer模型的并行训练方法及装置,涉及计算机技术领域;其中所述Transformer模型的并行训练方法包括:基于M种预设并行训练策略,确定初始Transformer模型的并行训练策略搜索空间;基于各预设并行训练策略,构建至少一棵决策树;决策树用于从并行训练策略搜索空间中确定初始Transformer模型的并行训练策略集合;基于训练策略集合,确定目标并行训练策略组合;利用目标并行训练策略组合对初始Transformer模型进行训练,得到目标Transformer模型。利用吞吐率最高的目标并行训练策略组合对初始Transformer模型进行训练,提高了对模型的训练效率。提高了对模型的训练效率。提高了对模型的训练效率。

【技术实现步骤摘要】
Transformer模型的并行训练方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种Transformer模型的并行训练方法及装置。

技术介绍

[0002]随着人工智能技术的发展,Transformer模型在如计算机视觉(computer vision,CV)、自然语言处理(natural language processing,NLP)、图学习、推荐系统等领域得到了广泛的应用。
[0003]在实际应用中,扩大模型参数规模能够有效提升模型性能,例如拥有15亿模型参数的第二代生成式预训练Transformer(GPT

2)模型性能远优于仅有百万模型参数的原始Transformer。但是这种大规模模型参数使得模型训练的计算开销和内存开销巨大。
[0004]因此,如何高效地进行Transformer训练成为目前业界亟待解决的重要课题。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术提供一种Transformer模型的并行训练方法及装置。
[0006]本专利技术本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种Transformer模型的并行训练方法,其特征在于,包括:基于M种预设并行训练策略,确定初始Transformer模型的并行训练策略搜索空间;所述并行训练策略搜索空间包括N1个并行训练策略组合,每个并行训练策略组合包括N2种预设并行训练策略;M、N1为大于1的正整数,N2为大于或等于1且小于或等于M的正整数;基于各所述预设并行训练策略,构建至少一棵决策树;各所述决策树用于从所述并行训练策略搜索空间中确定所述初始Transformer模型的并行训练策略集合;所述并行训练策略集合中包括N3个并行训练策略组合,N3为大于或等于1的正整数,N3小于N1;基于所述并行训练策略集合,确定目标并行训练策略组合;所述目标并行训练策略组合为所述并行训练策略集合中吞吐率最高的并行训练策略组合;利用所述目标并行训练策略组合对所述初始Transformer模型进行训练,得到目标Transformer模型。2.根据权利要求1所述的Transformer模型的并行训练方法,其特征在于,所述预设并行训练策略包括以下至少一项:数据并行训练策略;分片数据并行训练策略;张量并行训练策略;流水并行训练策略。3.根据权利要求2所述的Transformer模型的并行训练方法,其特征在于,所述基于各所述预设并行训练策略,构建至少一棵决策树,包括:利用所述流水并行训练策略,对所述初始Transformer模型进行切分,得到多个Transformer子模型;每一个所述Transformer子模型对应有至少一个设备组,所述设备组包括至少一个图形处理器设备;针对每一个所述Transformer子模型,基于决策树构建规则构建与所述Transformer子模型对应的决策树;其中,所述决策树构建规则包括以下至少一项:所述决策树的根结点为所述数据并行训练策略;所述决策树的每一层表示所述数据并行训练策略、所述分片数据并行训练策略及所述张量并行训练策略中的任一项;所述决策树各层之间的预设并行训练策略不同;所述决策树非叶结点的度数为2的指数次幂;所述决策树叶节点的总数为每一个所述设备组中所述图形处理器设备的数量。4.根据权利要求3所述的Transformer模型的并行训练方法,其特征在于,所述方法还包括:在所述数据并行训练策略和所述分片数据并行训练策略存在于同一棵所述决策树的情况下,基于所述数据并行训练策略和所述分片数据并行训练策略对所述决策树进行剪枝处理。5.根据权利要求3或4所述的Transformer模型的并行训练方法,其特征在于,所述基于所述并行训练策略集合,确定目标并行训练策略组合,包括:针对每一个所述Transformer子模型,利用动态规划搜索算法,从所述并行训练策略集
合中确定各所述Transformer子模型的第一并行训练策略组合;所述第一并行训练策略为时间开销最小的并行训练策略组合;在各所述第一并行训练策略组合中,将吞吐率最...

【专利技术属性】
技术研发人员:崔斌苗旭鹏王驭捷姜友和石淳安聂小楠张海林
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1