深度学习模型的模型参数多流广播方法及其装置制造方法及图纸

技术编号：37710725 阅读：18 留言：0更新日期：2023-06-02 00:03

本公开提供了一种深度学习模型的模型参数多流广播方法及其装置，涉及数据处理技术领域，尤其涉及计算机应用技术领域。具体实现方案为：构建n个第一处理器流，n个第一处理器流包括主处理器流；在GPU集群对深度学习模型第i次训练结束后，调用主处理器流对第一GPU对应的第一模型参数进行更新，获取第一候选模型参数；调用n个第一处理器流对第一候选模型参数进行分片多流广播，以使GPU集群中除第一GPU以外的剩余GPU接收到第一GPU的第一候选模型参数。本公开对模型参数进行多流广播，不仅提高了GPU资源的利用率，而且缩短了深度学习模型的训练时长，提高深度学习模型的模型参数多流广播效率以及灵活性、提升网络带宽的使用效率以及模型训练的性能。以及模型训练的性能。以及模型训练的性能。

全部详细技术资料下载

【技术实现步骤摘要】
深度学习模型的模型参数多流广播方法及其装置

[0001]本公开涉及计算机
，尤其涉及深度学习等人工智能

技术介绍

[0002]相关技术中，大数据驱动的深度学习技术在人工智能的多个领域均取得了可观的性能提升，神经网络模型越来越深，数据规模越来越大已成为目前的基本趋势。复杂的网络模型往往需要更多的训练数据才可获得优秀的泛化能力，然而，训练深模型、大数据这样的组合却有着极大的挑战。深度学习训练任务属于典型的计算密集型任务，因此常采用分布式图形处理器(Graphics Processing Unit，GPU)集群进行训练。
[0003]因此，如何提高深度学习模型的模型参数多流广播效率以及灵活性、提升网络带宽的使用效率以及模型训练的性能，已经成为重要的研究方向之一。

技术实现思路

[0004]本公开提供了一种深度学习模型的模型参数多流广播方法及其装置。
[0005]根据本公开的一方面，提供了一种深度学习模型的模型参数多流广播方法，由GPU集群中任一GPU执行，方法包括：
[0006]构建n个第一处理器流，n为大于1的整数，n个第一处理器流包括主处理器流；
[0007]在GPU集群对深度学习模型第i次训练结束后，调用主处理器流对第一GPU对应的第一模型参数进行更新，获取第一候选模型参数；
[0008]调用n个第一处理器流对第一候选模型参数进行分片多流广播，以使GPU集群中除第一GPU以外的剩余GPU接收到第一GPU的第一候选模型参数。
[0009]本

【技术保护点】

【技术特征摘要】
1.一种深度学习模型的模型参数多流广播方法，其中，由图形处理器GPU集群中任一GPU执行，所述方法包括：构建n个第一处理器流，所述n为大于1的整数，所述n个第一处理器流包括主处理器流；在所述GPU集群对深度学习模型第i次训练结束后，调用所述主处理器流对第一GPU对应的第一模型参数进行更新，获取第一候选模型参数，所述i为正整数；调用所述n个第一处理器流对所述第一候选模型参数进行分片多流广播，以使所述GPU集群中除所述第一GPU以外的剩余GPU接收到所述第一GPU的第一候选模型参数。2.根据权利要求1所述的方法，其中，所述调用所述n个第一处理器流对所述第一候选模型参数进行分片多流广播，包括：对所述第一候选模型参数进行分片处理，获取m个参数切片，所述m为正整数；调用所述n个第一处理器流将所述m个参数切片进行多流广播。3.根据权利要求2所述的方法，其中，所述调用所述n个第一处理器流将所述m个参数切片进行多流广播之前，还包括：调用所述主处理器流随机将所述m个参数切片发送给所述第一GPU中除所述主处理器流外的其他处理器流。4.根据权利要求2所述的方法，其中，还包括：接收所述GPU集群中每个所述剩余GPU通过所述剩余GPU的n个第二处理器流发送的第二候选模型参数。5.根据权利要求2所述的方法，其中，所述m为大于或等于n的整数，所述调用所述n个第一处理器流将所述m个参数切片进行多流广播，包括：将所述m个参数切片随机发送给所述n个第一处理器流，任一第一处理器流对应一个或多个参数切片；调用每个第一处理器流将自身对应的所述一个或多个参数切片进行广播。6.根据权利要求5所述的方法，其中，任一剩余GPU包括n个第二处理器流，所述n个第一处理器流和所述n个第二处理器流具有一一对应的关联关系，所述调用每个第一处理器流将自身对应的所述一个或多个参数切片进行广播，包括：针对任一第一处理器流，根据所述关联关系获取所述第一处理器流关联的任一剩余GPU的目标第二处理器流；调用所述第一处理器流将自身对应的所述一个或多个参数切片广播给关联的所述目标第二处理器流。7.根据权利要求1
‑
6中任一项方法，其中，所述调用所述主处理器流对所述第一GPU对应的第一模型参数进行更新，获取第一候选模型参数，包括：获取所述第一GPU在所述深度学习模型第i次训练生成的目标梯度对应的第一模型参数项；接收所述GPU集群中每个剩余GPU在所述第i次训练生成的目标梯度对应的第二模型参数项；对所述第一模型参数项和所述第二模型参数项进行分布式求和，获取所述第一候选模型参数。8.一种深度学习模型的模型参数多流广播装置，其中，包括：
构建模块，用于构建n个第一处理器流，所述n为大于1的整数，所述n个第一处理器流包括主处理器流；获取模块，用于在所述GPU集...

【专利技术属性】
技术研发人员：刘雨昂，曾锦乐，吴志华，于佃海，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人