深度学习模型的模型参数多流广播方法及其装置制造方法及图纸

技术编号:37710725 阅读:18 留言:0更新日期:2023-06-02 00:03
本公开提供了一种深度学习模型的模型参数多流广播方法及其装置,涉及数据处理技术领域,尤其涉及计算机应用技术领域。具体实现方案为:构建n个第一处理器流,n个第一处理器流包括主处理器流;在GPU集群对深度学习模型第i次训练结束后,调用主处理器流对第一GPU对应的第一模型参数进行更新,获取第一候选模型参数;调用n个第一处理器流对第一候选模型参数进行分片多流广播,以使GPU集群中除第一GPU以外的剩余GPU接收到第一GPU的第一候选模型参数。本公开对模型参数进行多流广播,不仅提高了GPU资源的利用率,而且缩短了深度学习模型的训练时长,提高深度学习模型的模型参数多流广播效率以及灵活性、提升网络带宽的使用效率以及模型训练的性能。以及模型训练的性能。以及模型训练的性能。

【技术实现步骤摘要】
深度学习模型的模型参数多流广播方法及其装置


[0001]本公开涉及计算机
,尤其涉及深度学习等人工智能


技术介绍

[0002]相关技术中,大数据驱动的深度学习技术在人工智能的多个领域均取得了可观的性能提升,神经网络模型越来越深,数据规模越来越大已成为目前的基本趋势。复杂的网络模型往往需要更多的训练数据才可获得优秀的泛化能力,然而,训练深模型、大数据这样的组合却有着极大的挑战。深度学习训练任务属于典型的计算密集型任务,因此常采用分布式图形处理器(Graphics Processing Unit,GPU)集群进行训练。
[0003]因此,如何提高深度学习模型的模型参数多流广播效率以及灵活性、提升网络带宽的使用效率以及模型训练的性能,已经成为重要的研究方向之一。

技术实现思路

[0004]本公开提供了一种深度学习模型的模型参数多流广播方法及其装置。
[0005]根据本公开的一方面,提供了一种深度学习模型的模型参数多流广播方法,由GPU集群中任一GPU执行,方法包括:
[0006]构建n个第一处理器流,n为大于1的整数,n个第一处理器流包括主处理器流;
[0007]在GPU集群对深度学习模型第i次训练结束后,调用主处理器流对第一GPU对应的第一模型参数进行更新,获取第一候选模型参数;
[0008]调用n个第一处理器流对第一候选模型参数进行分片多流广播,以使GPU集群中除第一GPU以外的剩余GPU接收到第一GPU的第一候选模型参数。
[0009]本公开对模型参数进行多流广播,不仅提高了GPU资源的利用率,而且缩短了深度学习模型的训练时长,提高深度学习模型的模型参数多流广播效率以及灵活性、提升网络带宽的使用效率以及模型训练的性能。
[0010]根据本公开的另一方面,提供了一种深度学习模型的模型参数多流广播装置,包括:
[0011]构建模块,用于构建n个第一处理器流,n为大于1的整数,n个第一处理器流包括主处理器流;
[0012]获取模块,用于在GPU集群对深度学习模型第i次训练结束后,调用主处理器流对第一GPU对应的第一模型参数进行更新,获取第一候选模型参数;
[0013]多流广播模块,用于调用n个第一处理器流对第一候选模型参数进行分片多流广播,以使GPU集群中除第一GPU以外的剩余GPU接收到第一GPU的第一候选模型参数。
[0014]根据本公开的另一方面,提供了一种电子设备,包括至少一个处理器,以及
[0015]与至少一个处理器通信连接的存储器;其中,
[0016]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开第一个方面实施例的深度学习模型的模型参数多流广
播方法。
[0017]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开第一个方面实施例的深度学习模型的模型参数多流广播方法。
[0018]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开第一个方面实施例的深度学习模型的模型参数多流广播方法。
[0019]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0021]图1是根据本公开一个实施例的深度学习模型的模型参数多流广播方法的流程图;
[0022]图2是根据本公开一个实施例的深度学习模型的模型参数多流广播方法的流程图;
[0023]图3是根据本公开一个实施例的关联关系示意图;
[0024]图4是根据本公开一个实施例的深度学习模型的模型参数单流广播的时序图;
[0025]图5是根据本公开一个实施例的深度学习模型的模型参数多流广播的时序图;
[0026]图6是根据本公开一个实施例的深度学习模型的模型参数多流广播方法的流程图;
[0027]图7是根据本公开一个实施例的深度学习模型的模型参数多流广播装置的结构图;
[0028]图8是用来实现本公开实施例的深度学习模型的模型参数多流广播方法的电子设备的框图。
具体实施方式
[0029]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0030]本公开实施例涉及计算机视觉、深度学习等人工智能

[0031]人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
[0032]深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
[0033]下面结合参考附图描述本公开的深度学习模型的模型参数多流广播方法及其装置。
[0034]图1是根据本公开一个实施例的深度学习模型的模型参数多流广播方法的流程图,如图1所示,该方法由GPU集群中任一GPU执行,包括以下步骤:
[0035]S101,构建n个第一处理器流,n为大于1的整数,n个第一处理器流包括主处理器流。
[0036]深度学习训练任务属于典型的计算密集型任务,因此常采用分布式GPU集群进行训练。GPU,又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。在深度学习模型的训练中,由于深度学习模型的训练数据较多,模型深度较深,因此,常采用多个GPU组成分布式GPU集群对深度学习模型进行训练,以提高深度学习模型的训练速度。
[0037]本公开实施例中,GPU集群中任一GPU构建n个第一处理器流,其中,第一处理器流包括主处理器流。在一些实现中,主处理器流仅处理模型训练过程中的计算过程,不参与广播参数的通讯过程,由除主处理器流之外的其他处理器流进行广播参数。在一些实现中,主处理器流包含默认的广播参数的通讯功能,可以与主处理器流之外的其他处理器流一起进行广播参数。
[0038]S102,在GPU集群对深度学习模型第i次训练结束后,调用主处理器流对第一GPU对应的第一模型参数进行更新,获取第一候选模型参数。
[0039]需要说明的是,利用分布式GPU集群对深度学习模型进行训练的过程中可以包括以下步骤:...

【技术保护点】

【技术特征摘要】
1.一种深度学习模型的模型参数多流广播方法,其中,由图形处理器GPU集群中任一GPU执行,所述方法包括:构建n个第一处理器流,所述n为大于1的整数,所述n个第一处理器流包括主处理器流;在所述GPU集群对深度学习模型第i次训练结束后,调用所述主处理器流对第一GPU对应的第一模型参数进行更新,获取第一候选模型参数,所述i为正整数;调用所述n个第一处理器流对所述第一候选模型参数进行分片多流广播,以使所述GPU集群中除所述第一GPU以外的剩余GPU接收到所述第一GPU的第一候选模型参数。2.根据权利要求1所述的方法,其中,所述调用所述n个第一处理器流对所述第一候选模型参数进行分片多流广播,包括:对所述第一候选模型参数进行分片处理,获取m个参数切片,所述m为正整数;调用所述n个第一处理器流将所述m个参数切片进行多流广播。3.根据权利要求2所述的方法,其中,所述调用所述n个第一处理器流将所述m个参数切片进行多流广播之前,还包括:调用所述主处理器流随机将所述m个参数切片发送给所述第一GPU中除所述主处理器流外的其他处理器流。4.根据权利要求2所述的方法,其中,还包括:接收所述GPU集群中每个所述剩余GPU通过所述剩余GPU的n个第二处理器流发送的第二候选模型参数。5.根据权利要求2所述的方法,其中,所述m为大于或等于n的整数,所述调用所述n个第一处理器流将所述m个参数切片进行多流广播,包括:将所述m个参数切片随机发送给所述n个第一处理器流,任一第一处理器流对应一个或多个参数切片;调用每个第一处理器流将自身对应的所述一个或多个参数切片进行广播。6.根据权利要求5所述的方法,其中,任一剩余GPU包括n个第二处理器流,所述n个第一处理器流和所述n个第二处理器流具有一一对应的关联关系,所述调用每个第一处理器流将自身对应的所述一个或多个参数切片进行广播,包括:针对任一第一处理器流,根据所述关联关系获取所述第一处理器流关联的任一剩余GPU的目标第二处理器流;调用所述第一处理器流将自身对应的所述一个或多个参数切片广播给关联的所述目标第二处理器流。7.根据权利要求1

6中任一项方法,其中,所述调用所述主处理器流对所述第一GPU对应的第一模型参数进行更新,获取第一候选模型参数,包括:获取所述第一GPU在所述深度学习模型第i次训练生成的目标梯度对应的第一模型参数项;接收所述GPU集群中每个剩余GPU在所述第i次训练生成的目标梯度对应的第二模型参数项;对所述第一模型参数项和所述第二模型参数项进行分布式求和,获取所述第一候选模型参数。8.一种深度学习模型的模型参数多流广播装置,其中,包括:
构建模块,用于构建n个第一处理器流,所述n为大于1的整数,所述n个第一处理器流包括主处理器流;获取模块,用于在所述GPU集...

【专利技术属性】
技术研发人员:刘雨昂曾锦乐吴志华于佃海
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1