分布式训练系统、神经网络模型训练方法、设备和介质技术方案

技术编号：38626503 阅读：13 留言：0更新日期：2023-08-31 18:27

本发明专利技术公开了一种分布式训练系统、神经网络模型训练方法、设备和介质，涉及计算机技术领域，该系统包括控制器和多个计算节点；控制器用于获取目标神经网络模型和训练数据集，并向多个计算节点发送对应的节点训练模型和节点训练数据集；目标神经网络模型为初始的神经网络模型去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接、去除神经元重要程度最低的第二数量个神经元以及对应的链接得到神经网络模型；计算节点用于基于接收到的节点训练数据集和接收到的节点训练模型的当前模型参数计算局部信息，并基于全局信息更新节点训练模型的模型参数，实现节点训练模型的迭代训练，得到训练完成的节点训练模型。点训练模型。点训练模型。

全部详细技术资料下载

【技术实现步骤摘要】
分布式训练系统、神经网络模型训练方法、设备和介质

[0001]本专利技术涉及计算机
，更具体地说，涉及一种分布式训练系统、神经网络模型训练方法、设备和介质。

技术介绍

[0002]近几年，以深度学习为代表的人工智能在图像分类领域取得关键进展。众所周知，随着数据样本量以及神经网络模型规模的持续增长，深度神经网络模型的训练对算力的依赖与日俱增。在相关技术中，由于神经网络模型的规模较大，导致神经网络模型的训练效率较低。
[0003]因此，如何提高神经网络模型的训练效率是本领域技术人员需要解决的技术问题。

技术实现思路

[0004]本专利技术的目的在于提供一种分布式训练系统、神经网络模型训练方法、设备和介质，提高了神经网络模型的训练效率。
[0005]为实现上述目的，本专利技术提供了一种分布式训练系统，包括控制器和多个计算节点；所述控制器用于获取目标神经网络模型和训练数据集，并向多个所述计算节点发送对应的节点训练模型和节点训练数据集；其中，所述目标神经网络模型为初始的神经网络模型去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接、去除神经元重要程度最低的第二数量个神经元及对应的链接得到神经网络模型，链接重要程度描述链接对模型训练结果的影响，神经元重要程度描述神经元对模型训练结果的影响，1≤i≤L
‑
1，L为所述初始的神经网络模型包含的神经网络层的数量；所述计算节点用于基于接收到的所述节点训练数据集和接收到的所述节点训练模型的当前模型参数计算局...

【技术保护点】

【技术特征摘要】
1.一种分布式训练系统，其特征在于，包括控制器和多个计算节点；所述控制器用于获取目标神经网络模型和训练数据集，并向多个所述计算节点发送对应的节点训练模型和节点训练数据集；其中，所述目标神经网络模型为初始的神经网络模型去除第i个神经网络层与第i+1个神经网络层之间链接重要程度最低的第一数量个链接、去除神经元重要程度最低的第二数量个神经元及对应的链接得到神经网络模型，链接重要程度描述链接对模型训练结果的影响，神经元重要程度描述神经元对模型训练结果的影响，1≤i≤L
‑
1，L为所述初始的神经网络模型包含的神经网络层的数量；所述计算节点用于基于接收到的所述节点训练数据集和接收到的所述节点训练模型的当前模型参数计算局部信息，并基于全局信息更新所述节点训练模型的模型参数，实现所述节点训练模型的迭代训练，得到训练完成的节点训练模型；其中，所述全局信息为多个所述计算节点计算的局部信息聚合得到的；所述控制器还用于基于多个所述计算节点训练完成的节点训练模型确定训练完成的目标神经网络模型。2.根据权利要求1所述分布式训练系统，其特征在于，所述第i个神经网络层中的神经元与所述第i+1个神经网络层中的神经元之间的链接的链接重要程度为关联矩阵中对应元素的值，所述关联矩阵的行和列分别对应第i个神经网络层和第i+1个神经网络层中的神经元，所述关联矩阵用于描述第i个神经网络层中的神经元与第i+1个神经网络层中的神经元之间的链接的权重。3.根据权利要求2所述分布式训练系统，其特征在于，所述第一数量为根据所述关联矩阵和第一预设系数确定的。4.根据权利要求3所述分布式训练系统，其特征在于，所述第一数量为所述关联矩阵包含的元素的数量与第一预设系数的乘积的向上取整。5.根据权利要求1所述分布式训练系统，其特征在于，所述神经元的神经元重要程度为所述神经元的第一重要程度与第二重要程度的和，所述神经元的第一重要程度为根据所述神经元在全体关联矩阵对应行中的所有元素的值确定的，所述神经元的第二重要程度为根据所述神经元在所述全体关联矩阵对应列中的所有元素的值确定的，所述全体关联矩阵的行对应除最后一个神经网络层中的神经元、列对应神除第一个神经网络层中的神经元，所述全体关联矩阵用于描述相邻神经网络层中的两个神经元之间的链接的权重。6.根据权利要求5所述分布式训练系统，其特征在于，所述神经元的第一重要程度为所述神经元在所述全体关联矩阵对应行中的所有元素的值的平方和确定的，所述神经元的第二重要程度为所述神经元在全体关联矩阵对应列中的所有元素的值的平方和确定的。7.根据权利要求5所述分布式训练系统，其特征在于，所述第二数量为根据所述全体关联矩阵和第二预设系数确定的。8.根据权利要求7所述分布式训练系统，其特征在于，所述第二数量为所述全体关联矩阵对应的神经元集合包含的神经元的数量与第二预设系数的乘积的向上取整，所述神经元集合为所述全体关联矩阵对应的行神经元集合和列神经集合的并集。9.根据权利要求1所述分布式训练系统，其特征在于，所述控制器用于：将训练数据集划分为多个训练数据子集，将目标神经网络模型按照神经网络层划分为多个子模型；
将多个所述训练数据子集作为所述节点训练数据集、将多个所述子模型作为所述节点训练模型发送至对应的多个所述计算节点。10.根据权利要求9所述分布式训练系统，其特征在于，所述计算节点用于：将计算得到的局部信息发送至目标计算节点；所述目标计算节点为其中一个计算节点；所述目标计算节点用于...

【专利技术属性】
技术研发人员：闫瑞栋，郭振华，李仁刚，邱志勇，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人