分布式训练系统、神经网络模型训练方法、设备和介质技术方案

技术编号:38626503 阅读:13 留言:0更新日期:2023-08-31 18:27
本发明专利技术公开了一种分布式训练系统、神经网络模型训练方法、设备和介质,涉及计算机技术领域,该系统包括控制器和多个计算节点;控制器用于获取目标神经网络模型和训练数据集,并向多个计算节点发送对应的节点训练模型和节点训练数据集;目标神经网络模型为初始的神经网络模型去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接、去除神经元重要程度最低的第二数量个神经元以及对应的链接得到神经网络模型;计算节点用于基于接收到的节点训练数据集和接收到的节点训练模型的当前模型参数计算局部信息,并基于全局信息更新节点训练模型的模型参数,实现节点训练模型的迭代训练,得到训练完成的节点训练模型。点训练模型。点训练模型。

【技术实现步骤摘要】
分布式训练系统、神经网络模型训练方法、设备和介质


[0001]本专利技术涉及计算机
,更具体地说,涉及一种分布式训练系统、神经网络模型训练方法、设备和介质。

技术介绍

[0002]近几年,以深度学习为代表的人工智能在图像分类领域取得关键进展。众所周知,随着数据样本量以及神经网络模型规模的持续增长,深度神经网络模型的训练对算力的依赖与日俱增。在相关技术中,由于神经网络模型的规模较大,导致神经网络模型的训练效率较低。
[0003]因此,如何提高神经网络模型的训练效率是本领域技术人员需要解决的技术问题。

技术实现思路

[0004]本专利技术的目的在于提供一种分布式训练系统、神经网络模型训练方法、设备和介质,提高了神经网络模型的训练效率。
[0005]为实现上述目的,本专利技术提供了一种分布式训练系统,包括控制器和多个计算节点;所述控制器用于获取目标神经网络模型和训练数据集,并向多个所述计算节点发送对应的节点训练模型和节点训练数据集;其中,所述目标神经网络模型为初始的神经网络模型去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接、去除神经元重要程度最低的第二数量个神经元及对应的链接得到神经网络模型,链接重要程度描述链接对模型训练结果的影响,神经元重要程度描述神经元对模型训练结果的影响,1≤i≤L

1,L为所述初始的神经网络模型包含的神经网络层的数量;所述计算节点用于基于接收到的所述节点训练数据集和接收到的所述节点训练模型的当前模型参数计算局部信息,并基于全局信息更新所述节点训练模型的模型参数,实现所述节点训练模型的迭代训练,得到训练完成的节点训练模型;其中,所述全局信息为多个所述计算节点计算的局部信息聚合得到的;所述控制器还用于基于多个所述计算节点训练完成的节点训练模型确定训练完成的目标神经网络模型。
[0006]其中,所述第i个神经网络层中的神经元与所述第i+1个神经网络层中的神经元之间的链接的链接重要程度为关联矩阵中对应元素的值,所述关联矩阵的行和列分别对应第i个神经网络层和第i+1个神经网络层中的神经元,所述关联矩阵用于描述第i个神经网络层中的神经元与第i+1个神经网络层中的神经元之间的链接的权重。
[0007]其中,所述第一数量为根据所述关联矩阵和第一预设系数确定的。
[0008]其中,所述第一数量为所述关联矩阵包含的元素的数量与第一预设系数的乘积的向上取整。
[0009]其中,所述神经元的神经元重要程度为所述神经元的第一重要程度与第二重要程度的和,所述神经元的第一重要程度为根据所述神经元在全体关联矩阵对应行中的所有元素的值确定的,所述神经元的第二重要程度为根据所述神经元在所述全体关联矩阵对应列中的所有元素的值确定的,所述全体关联矩阵的行对应除最后一个神经网络层中的神经元、列对应神除第一个神经网络层中的神经元,所述全体关联矩阵用于描述相邻神经网络层中的两个神经元之间的链接的权重。
[0010]其中,所述神经元的第一重要程度为所述神经元在所述全体关联矩阵对应行中的所有元素的值的平方和确定的,所述神经元的第二重要程度为所述神经元在全体关联矩阵对应列中的所有元素的值的平方和确定的。
[0011]其中,所述第二数量为根据所述全体关联矩阵和第二预设系数确定的。
[0012]其中,所述第二数量为所述全体关联矩阵对应的神经元集合包含的神经元的数量与第二预设系数的乘积的向上取整,所述神经元集合为所述全体关联矩阵对应的行神经元集合和列神经集合的并集。
[0013]其中,所述控制器用于:将训练数据集划分为多个训练数据子集,将目标神经网络模型按照神经网络层划分为多个子模型;将多个所述训练数据子集作为所述节点训练数据集、将多个所述子模型作为所述节点训练模型发送至对应的多个所述计算节点。
[0014]其中,所述计算节点用于:将计算得到的局部信息发送至目标计算节点;所述目标计算节点为其中一个计算节点;所述目标计算节点用于:基于多个所述计算节点计算的局部信息聚合得到全局信息,并将所述全局信息广播至多个所述计算节点。
[0015]其中,所述计算节点用于:基于接收到的训练数据子集和接收到的子模型的当前模型参数计算目标函数的梯度和二阶优化算法的关键矩阵。
[0016]其中,所述目标计算节点用于:将多个计算节点计算得到的目标函数的梯度进行聚合得到全局梯度;将多个计算节点计算得到的关键矩阵进行聚合得到全局关键矩阵;将全局关键矩阵分解为上三角矩阵和下三角矩阵的乘积;基于上三角矩阵或下三角矩阵生成全局关键矩阵的近似矩阵;基于全局关键矩阵的近似矩阵生成更新因子;将全局梯度和更新因子作为全局信息。
[0017]其中,所述目标计算节点用于:将多个计算节点计算得到的目标函数的梯度的和与计算节点的数量之间的比值确定为全局梯度。
[0018]其中,所述目标计算节点用于:按照多个计算节点接收到的子模型在神经网络模型中的排列顺序,将多个计算节点计算得到的关键矩阵依次作为对角块生成块对角局矩阵作为全局关键矩阵。
[0019]其中,所述目标计算节点用于:利用平方根法将全局关键矩阵分解为上三角矩阵和下三角矩阵的乘积。
[0020]其中,所述目标计算节点用于:提取上三角矩阵或下三角矩阵的对角线元素生成中间矩阵;计算全局关键矩阵与上三角矩阵或下三角矩阵的差值的F范数作为第一范数,计算全局关键矩阵的F范数作为第二范数;将第一范数与第二范数的比值与中间矩阵的乘积
作为全局关键矩阵的近似矩阵。
[0021]其中,所述关键矩阵包括激活矩阵和梯度矩阵,所述目标计算节点用于:将激活矩阵的近似矩阵与梯度矩阵的近似矩阵的克罗内克积的逆作为更新因子。
[0022]其中,所述关键矩阵包括海森矩阵,所述目标计算节点用于:将海森矩阵的近似矩阵的逆作为更新因子。
[0023]其中,所述计算节点用于:计算所述全局梯度、学习率、所述更新因子的乘积,将对应的子模型的当前模型参数与所述乘积的差值作为更新后的模型参数;判断所述子模型是否收敛,若是,则得到训练完成的子模型,若否,则重新基于接收到的训练数据子集和子模型的当前模型参数计算局部信息。
[0024]为实现上述目的,本专利技术提供了一种神经网络模型训练方法,应用于上述分布式训练系统中的计算节点,所述方法包括:从控制器获取节点训练数据集和节点训练模型,基于接收到的所述节点训练数据集和接收到的所述节点训练模型的当前模型参数计算局部信息;获取全局信息;其中,所述全局信息为多个所述计算节点计算的局部信息聚合得到的;基于所述全局信息更新所述节点训练模型的模型参数,实现所述节点训练模型的迭代训练,得到训练完成的节点训练模型,以便所述控制器基于多个所述计算节点训练完成的节点训练模型确定训练完成的目标神经网络模型。
[0025]为实现上述目的,本专利技术提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序时实现如上述神经网络模型训练方法的步骤。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式训练系统,其特征在于,包括控制器和多个计算节点;所述控制器用于获取目标神经网络模型和训练数据集,并向多个所述计算节点发送对应的节点训练模型和节点训练数据集;其中,所述目标神经网络模型为初始的神经网络模型去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接、去除神经元重要程度最低的第二数量个神经元及对应的链接得到神经网络模型,链接重要程度描述链接对模型训练结果的影响,神经元重要程度描述神经元对模型训练结果的影响,1≤i≤L

1,L为所述初始的神经网络模型包含的神经网络层的数量;所述计算节点用于基于接收到的所述节点训练数据集和接收到的所述节点训练模型的当前模型参数计算局部信息,并基于全局信息更新所述节点训练模型的模型参数,实现所述节点训练模型的迭代训练,得到训练完成的节点训练模型;其中,所述全局信息为多个所述计算节点计算的局部信息聚合得到的;所述控制器还用于基于多个所述计算节点训练完成的节点训练模型确定训练完成的目标神经网络模型。2.根据权利要求1所述分布式训练系统,其特征在于,所述第i个神经网络层中的神经元与所述第i+1个神经网络层中的神经元之间的链接的链接重要程度为关联矩阵中对应元素的值,所述关联矩阵的行和列分别对应第i个神经网络层和第i+1个神经网络层中的神经元,所述关联矩阵用于描述第i个神经网络层中的神经元与第i+1个神经网络层中的神经元之间的链接的权重。3.根据权利要求2所述分布式训练系统,其特征在于,所述第一数量为根据所述关联矩阵和第一预设系数确定的。4.根据权利要求3所述分布式训练系统,其特征在于,所述第一数量为所述关联矩阵包含的元素的数量与第一预设系数的乘积的向上取整。5.根据权利要求1所述分布式训练系统,其特征在于,所述神经元的神经元重要程度为所述神经元的第一重要程度与第二重要程度的和,所述神经元的第一重要程度为根据所述神经元在全体关联矩阵对应行中的所有元素的值确定的,所述神经元的第二重要程度为根据所述神经元在所述全体关联矩阵对应列中的所有元素的值确定的,所述全体关联矩阵的行对应除最后一个神经网络层中的神经元、列对应神除第一个神经网络层中的神经元,所述全体关联矩阵用于描述相邻神经网络层中的两个神经元之间的链接的权重。6.根据权利要求5所述分布式训练系统,其特征在于,所述神经元的第一重要程度为所述神经元在所述全体关联矩阵对应行中的所有元素的值的平方和确定的,所述神经元的第二重要程度为所述神经元在全体关联矩阵对应列中的所有元素的值的平方和确定的。7.根据权利要求5所述分布式训练系统,其特征在于,所述第二数量为根据所述全体关联矩阵和第二预设系数确定的。8.根据权利要求7所述分布式训练系统,其特征在于,所述第二数量为所述全体关联矩阵对应的神经元集合包含的神经元的数量与第二预设系数的乘积的向上取整,所述神经元集合为所述全体关联矩阵对应的行神经元集合和列神经集合的并集。9.根据权利要求1所述分布式训练系统,其特征在于,所述控制器用于:将训练数据集划分为多个训练数据子集,将目标神经网络模型按照神经网络层划分为多个子模型;
将多个所述训练数据子集作为所述节点训练数据集、将多个所述子模型作为所述节点训练模型发送至对应的多个所述计算节点。10.根据权利要求9所述分布式训练系统,其特征在于,所述计算节点用于:将计算得到的局部信息发送至目标计算节点;所述目标计算节点为其中一个计算节点;所述目标计算节点用于...

【专利技术属性】
技术研发人员:闫瑞栋郭振华李仁刚邱志勇
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1