应用于分布式集群的模型训练方法、装置制造方法及图纸

技术编号:41870135 阅读:27 留言:0更新日期:2024-07-02 00:20
本公开的实施例公开了应用于分布式集群的模型训练方法、装置。该方法的一具体实施方式包括:对自然语言处理模型对应的训练样本集进行拆分,得到多个训练样本子集;将多个训练样本子集中的每个训练样本子集分配至分布式集群中的一个计算节点序列,计算节点序列上部署有自然语言处理模型,自然语言处理模型包括多个子网络,计算节点序列中的每个计算节点上部署有多个子网络中的一个子网络;对于计算节点序列中的计算节点,将对应的子网络的参数集进行拆分,得到多个参数子集;将多个参数子集中每个参数子集分配至计算节点中的一个计算单元,以对自然语言处理模型进行训练。该实施方式与人工智能有关,提升了分布式集群的模型训练效率。

【技术实现步骤摘要】

本公开的实施例涉及计算机,具体涉及应用于分布式集群的模型训练方法、装置


技术介绍

1、自然语言处理模型广泛应用于搜索、推荐等应用场景,从而大幅提高这些应用场景下的处理效果。然后,随着自然语言处理模型的快速发展,模型参数量也越来越大,需要采用分布式系统来进行模型的训练。

2、然而,专利技术人发现,当采用分布式深度学习框架进行模型训练时,经常会存在如下技术问题:

3、现有的深度学习框架中的gpu利用率严重不足,导致模型训练的效率无法进一步提升。


技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了应用于分布式集群的模型训练方法、装置、设备、计算机可读介质和程序产品,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。

3、第一方面,本公开的一些实施例提供了一种应用于分布本文档来自技高网...

【技术保护点】

1.一种应用于分布式集群的模型训练方法,所述分布式集群中的计算节点包括中央处理器和多个图形处理器,不同的计算节点的图形处理器之间直接通信,同一计算节点的不同图形处理器之间通过总线通信,包括:

2.根据权利要求1所述的方法,其中,所述计算节点序列用于利用将对应的训练样本子集输入所述自然语言处理模型以进行前向计算,以及根据输出结果进行反向计算,在所述前向计算的过程中,删除所述自然语言处理模型中目标层的输出结果,在所述反向计算的过程中,重新计算所述目标层的输出结果。

3.根据权利要求2所述的方法,其中,所述方法还包括:

4.根据权利要求2所述的方法,其中,所...

【技术特征摘要】

1.一种应用于分布式集群的模型训练方法,所述分布式集群中的计算节点包括中央处理器和多个图形处理器,不同的计算节点的图形处理器之间直接通信,同一计算节点的不同图形处理器之间通过总线通信,包括:

2.根据权利要求1所述的方法,其中,所述计算节点序列用于利用将对应的训练样本子集输入所述自然语言处理模型以进行前向计算,以及根据输出结果进行反向计算,在所述前向计算的过程中,删除所述自然语言处理模型中目标层的输出结果,在所述反向计算的过程中,重新计算所述目标层的输出结果。

3.根据权利要求2所述的方法,其中,所述方法还包括:

4.根据权利要求2所述的方法,其中,所述方法还包括:

5.根据权利要求2所述的方法,其中...

【专利技术属性】
技术研发人员:桑青园舒俊华裴杨刘倩欣邢召龙张克丰王文生
申请(专利权)人:北京沃东天骏信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1