【技术实现步骤摘要】
一种AI分布式训练系统的参数更新方法、装置、设备
本专利技术涉及计算机
,特别涉及一种AI分布式训练系统的参数更新方法、装置、设备及介质。
技术介绍
在实际应用中,经常会使用分布式集群来对AI(ArtificialIntelligence,人工智能)算法模型的训练任务进行加速,当采用分布式集群中的多个worker节点来对AI算法模型进行数据并行训练时,首先会在每个worker节点上部署相同的AI算法模型,并对已经标注好的训练数据进行分批次迭代处理,其中,在每次迭代过程中,均需要将一个批次的训练数据按照worker节点的数量分成N个微批次,然后,再将这N个微批次的训练数据分发到不同的worker节点上进行模型训练,最后,当所有的worker节点完成各个微批次训练数据的训练后,还会将每个worker节点上的模型参数进行同步更新。目前,AI分布式训练系统的参数同步更新方法主要有Parameter-Server算法、All-Reduce算法和Ring-all-reduce算法,由于这三种参数同步方法均是面向同构的分布式 ...
【技术保护点】
1.一种AI分布式训练系统的参数更新方法,其特征在于,包括:/n当分布式异构系统需要完成AI加速任务时,则在所述分布式异构系统的目标worker节点上启动AI算法模型的训练任务,并对所述目标worker节点的模型参数和邻接矩阵进行初始化;其中,所述分布式异构系统的所有worker节点上均部署有AI算法模型;/n控制所述目标worker节点加载预先所设置好的目标模型参数,并为所述目标worker节点随机选择第k次迭代训练的样本数据;其中,k≥1;/n基于所述样本数据对所述目标模型参数进行梯度更新,并对所述目标worker节点随机创建目标节点集合;/n利用所述目标节点集合对所述 ...
【技术特征摘要】
1.一种AI分布式训练系统的参数更新方法,其特征在于,包括:
当分布式异构系统需要完成AI加速任务时,则在所述分布式异构系统的目标worker节点上启动AI算法模型的训练任务,并对所述目标worker节点的模型参数和邻接矩阵进行初始化;其中,所述分布式异构系统的所有worker节点上均部署有AI算法模型;
控制所述目标worker节点加载预先所设置好的目标模型参数,并为所述目标worker节点随机选择第k次迭代训练的样本数据;其中,k≥1;
基于所述样本数据对所述目标模型参数进行梯度更新,并对所述目标worker节点随机创建目标节点集合;
利用所述目标节点集合对所述邻接矩阵进行非零值更新,得到更新邻接矩阵,并利用所述更新邻接矩阵对所述目标节点集合中各个worker节点上的模型参数进行更新;
当所述目标worker节点完成所述第k次迭代训练时,则判断所述目标worker节点上的AI算法模型是否收敛;
若是,则判定所述目标worker节点完成第k次的AI算法模型训练任务,重复执行所述控制所述目标worker节点加载预先所设置好的目标模型参数的步骤,直至所述目标worker节点完成M次迭代训练,则判定所述分布式异构系统完成所述AI加速任务;其中,M≥2,M为预先所设置的迭代次数。
2.根据权利要求1所述的参数更新方法,其特征在于,还包括:
利用多个安装有GPU和/或AI芯片和/或FPGA的worker节点搭建所述分布式异构系统。
3.根据权利要求1所述的参数更新方法,其特征在于,所述判断所述目标worker节点上的AI算法模型是否收敛的过程之后,还包括:
若否,则重新执行所述控制所述目标worker节点加载预先所设置好的目标模型参数,并为所述目标worker节点随机选择第k次迭代训练的样本数据的步骤。
4.根据权利要求1所述的参数更新方法,其特征在于,所述对所述目标worker节点的模型参数和邻接矩阵进行初始化的过程,包括:
将所述目标worker节点的所述邻接矩阵初始化为零矩阵E。
5.根据权利要求4所述的参数更新方法,其特征在于,所述利用所述目标节点集合对所述邻接矩阵进行非零值更新,得到更新邻接矩阵的过程,包括:
利用节点集合g对所述零矩阵E进行非零值更新,得到所述更新邻接矩阵;
其中,所述更新邻接矩阵的表达式为:
式中,g为所述节点集合,i和j分别为所述零矩阵E中行数和列数,u表示i和j相...
【专利技术属性】
技术研发人员:郭振华,范宝余,曹芳,赵雅倩,李仁刚,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。