模型训练方法、服务器和计算机可读存储介质技术

技术编号：21891586 阅读：86 留言：0更新日期：2019-08-17 14:23

本发明专利技术公开了一种模型训练方法、服务器和计算机可读存储介质，属于人工智能计算领域。其中，该方法包括：接收到训练作业后，获取作业信息；将模型复制到每个GPU，并同步每个GPU的模型参数的初始值；每次迭代提取一部分样本数据，将提取的样本数据拆分后分发给不同的GPU进行训练，对所有GPU的训练得到的参数梯度进行全局规约操作，并在各GPU上根据规约之后的参数梯度更新所述模型参数；完成迭代次数的迭代后，选择任意一个GPU的模型参数保存为模型训练结果。本发明专利技术通过充分利用GPU‑GPU高速数据传输带宽，消除计算节点间的带宽瓶颈和计算能力瓶颈，从而提高模型在GPU集群上的同步训练效率和加速比。

Model Training Method, Server and Computer Readable Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、服务器和计算机可读存储介质
本专利技术涉及人工智能计算领域，特别涉及一种模型训练方法、服务器和计算机可读存储介质。
技术介绍
深度学习模型的训练需要消耗庞大的计算资源，完成一次训练的耗时可达数天乃至数月。为加快模型训练，往往需要使用大规模GPU(GraphicProcessingUnit，图形处理器)集群进行并行训练，同时，深度学习训练任务常采用一些并行算法将训练任务分配到多个计算节点上同时运行，其中包括数据并行和模型并行两大类并行算法，以数据并行较为常用。在数据并行算法中，如图1所示，通常使用PS-Worker(ParameterServer-Worker，参数服务器-计算节点)架构部署在GPU集群上，其中PS用于存储模型参数，Worker持有CPU、GPU资源并负责模型训练计算任务，PS与Worker间以及各Worker之间常需进行大数据量交互，主要包括：每个深度学习的迭代中，每个Worker与PS间都需要完成一次参数梯度传输和参数的更新。由于交互数据量很大，PS-Worker间带宽和CPU处理能力常因此成为瓶颈，Worker上的GPU的强大并行计算能力无从发挥，导致系统加速比低、可扩展性差，硬件资源浪费。
技术实现思路
有鉴于此，本专利技术的目的在于提供一种模型训练方法、装置、服务器和存储介质。以在不增加硬件投资的前提下，消除计算节点间的带宽瓶颈和计算能力瓶颈，从而提高模型训练加速比。本专利技术解决上述技术问题所采用的技术方案如下：根据本专利技术的一个方面，提供的一种模型训练方法包括：接收到训练作业后，获取作业信息；其中，所述作业信息包括模...

【技术保护点】
1.一种模型训练方法，其特征在于，该方法包括：接收到训练作业后，获取作业信息；其中，所述作业信息包括模型、样本数据和迭代次数；将所述模型复制到每个图形处理器GPU，并同步所述每个GPU的模型参数的初始值；每次迭代提取一部分样本数据，将所述提取的样本数据拆分后分发给不同的GPU进行训练，对所有GPU训练得到的参数梯度进行全局规约操作，并在各GPU上根据规约之后的参数梯度更新所述模型参数；完成所述迭代次数的迭代后，选择任意一个GPU的模型参数保存为模型训练结果。

【技术特征摘要】
1.一种模型训练方法，其特征在于，该方法包括：接收到训练作业后，获取作业信息；其中，所述作业信息包括模型、样本数据和迭代次数；将所述模型复制到每个图形处理器GPU，并同步所述每个GPU的模型参数的初始值；每次迭代提取一部分样本数据，将所述提取的样本数据拆分后分发给不同的GPU进行训练，对所有GPU训练得到的参数梯度进行全局规约操作，并在各GPU上根据规约之后的参数梯度更新所述模型参数；完成所述迭代次数的迭代后，选择任意一个GPU的模型参数保存为模型训练结果。2.根据权利要求1所述的模型训练方法，其特征在于，所述同步所述每个GPU的模型参数的初始值包括：通过参数同步消息将其中一个GPU的模型参数的初始值同步到其他GPU上。3.根据权利要求1所述的模型训练方法，其特征在于，其特征在于，所述对所有GPU训练得到的参数梯度进行全局规约操作，并在各GPU上根据规约之后的参数梯度更新所述模型参数包括：所有GPU均按照相同的顺序，将参数梯度的多维矩阵数组前后连接为连续存储的至少一个一维矩阵数组，并按顺序保存参数梯度多维矩阵数组的尺寸信息；对合并后的所述一维矩阵数组逐个进行全局规约操作；所有GPU各自根据参数梯度多维矩阵数组的尺寸信息，将全局规约后的所述一维矩阵数组恢复为原始尺寸的多维矩阵数组；所有GPU各自根据恢复后的参数梯度多维矩阵数组更新各自的模型参数。4.根据权利要求1所述的模型训练方法，其特征在于，所述对所有GPU的训练得到的参数梯度进行全局规约操作，并在各GPU上根据规约之后的参数梯度更新所述模型参数包括：根据预设的分组规则将所有GPU划分为多个规约组；对各GPU在多个所述规约组内进行组内的全局规约操作，并从每一个所述规约组内推选至少一个GPU作为规约组的代表GPU；对各规约组的代表GPU之间进行组间的全局规约操作；各代表GPU将组间的全局规约之后的参数梯度向组内其他GPU进行广播。5.根据权利要求4所述...

【专利技术属性】
技术研发人员：戎海栋，
申请(专利权)人：中兴通讯股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人